Tried AVX512 pre-sieving: no speedup #140

kimwalisch · 2023-10-30T09:14:29Z

I tried AVX512 pre-sieving using the 2 algorithms below.

On AMD EPYC 4th gen CPUs (Genoa) I saw no speedup using both GCC and Clang (compared to the default SSE2 pre-sieving algorithm). On Intel CPUs I masured 1% to 2% speedup using GCC (using ./primesieve 1e11 -t1) but no speedup using Clang. Overall I think that the added complexity is not worth it. Supporting AVX512 pre-sieving would likely require using GCC's multi-arch feature, which makes the code significantly more complex.

The AVX512 pre-sieving code is available on the avx512_presieve branch (note that code is for testing only, it is not production quality yet). It may be useful to retest this code in a few years, it is possible that on future x64 CPUs the AVX512 code will perform better.

Algorithm 1

__attribute__ ((target ("avx512f,avx512bw")))
void andBuffers(const uint8_t* __restrict buf0,
                const uint8_t* __restrict buf1,
                const uint8_t* __restrict buf2,
                const uint8_t* __restrict buf3,
                const uint8_t* __restrict buf4,
                const uint8_t* __restrict buf5,
                const uint8_t* __restrict buf6,
                const uint8_t* __restrict buf7,
                uint8_t* __restrict output,
                std::size_t bytes)
{
  for (std::size_t i = 0; i < bytes; i += sizeof(__m512i))
  {
    __mmask64 mask = (i + 64 < bytes) ? 0xffffffffffffffffull : 0xffffffffffffffffull >> (i + 64 - bytes);

    _mm512_mask_storeu_epi8((__m512i*) &output[i], mask,
        _mm512_and_si512(
            _mm512_and_si512(
                _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf0[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf1[i])),
                _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf2[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf3[i]))),
            _mm512_and_si512(
                _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf4[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf5[i])),
                _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf6[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf7[i])))));
  }
}

Algorithm 2

__attribute__ ((target ("avx512f,avx512bw")))
void andBuffers(const uint8_t* __restrict buf0,
                const uint8_t* __restrict buf1,
                const uint8_t* __restrict buf2,
                const uint8_t* __restrict buf3,
                const uint8_t* __restrict buf4,
                const uint8_t* __restrict buf5,
                const uint8_t* __restrict buf6,
                const uint8_t* __restrict buf7,
                uint8_t* __restrict output,
                std::size_t bytes)
{
  std::size_t i = 0;

  for (; i + 64 < bytes; i += sizeof(__m512i))
  {
    _mm512_storeu_epi8((__m512i*) &output[i],
        _mm512_and_si512(
            _mm512_and_si512(
                _mm512_and_si512(_mm512_loadu_epi8((const __m512i*) &buf0[i]), _mm512_loadu_epi8((const __m512i*) &buf1[i])),
                _mm512_and_si512(_mm512_loadu_epi8((const __m512i*) &buf2[i]), _mm512_loadu_epi8((const __m512i*) &buf3[i]))),
            _mm512_and_si512(

                _mm512_and_si512(_mm512_loadu_epi8((const __m512i*) &buf4[i]), _mm512_loadu_epi8((const __m512i*) &buf5[i])),
                _mm512_and_si512(_mm512_loadu_epi8((const __m512i*) &buf6[i]), _mm512_loadu_epi8((const __m512i*) &buf7[i])))));
  }

  __mmask64 mask = 0xffffffffffffffffull >> (i + 64 - bytes);

  _mm512_mask_storeu_epi8((__m512i*) &output[i], mask,
    _mm512_and_si512(
      _mm512_and_si512(
        _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf0[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf1[i])),
        _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf2[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf3[i]))),
      _mm512_and_si512(
        _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf4[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf5[i])),
        _mm512_and_si512(_mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf6[i]), _mm512_maskz_loadu_epi8(mask, (const __m512i*) &buf7[i])))));
}

The text was updated successfully, but these errors were encountered:

kimwalisch self-assigned this Oct 30, 2023

kimwalisch changed the title ~~AVX512 pre-sieving: no speedup~~ Tried AVX512 pre-sieving: no speedup Oct 30, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tried AVX512 pre-sieving: no speedup #140

Tried AVX512 pre-sieving: no speedup #140

kimwalisch commented Oct 30, 2023 •

edited

Tried AVX512 pre-sieving: no speedup #140

Tried AVX512 pre-sieving: no speedup #140

Comments

kimwalisch commented Oct 30, 2023 • edited

Algorithm 1

Algorithm 2

kimwalisch commented Oct 30, 2023 •

edited