virtualsecureplatform
diff --git a/‎.github/workflows/test.yml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/test.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎include/keyswitch.hpp‎
Lines changed: 2 additions & 2 deletions b/‎include/keyswitch.hpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎include/mulfft.hpp‎
Lines changed: 38 additions & 104 deletions b/‎include/mulfft.hpp‎
Lines changed: 38 additions & 104 deletions
diff --git a/‎include/trgsw.hpp‎
Lines changed: 0 additions & 49 deletions b/‎include/trgsw.hpp‎
Lines changed: 0 additions & 49 deletions
@@ -22,7 +22,7 @@ jobs:
         submodules: recursive
     - name: build and test
       run: |
-        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Release -DENABLE_TEST=ON
+        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Debug -DENABLE_TEST=ON
         cd build
         ninja
         test/test.sh
@@ -43,7 +43,7 @@ jobs:
         submodules: recursive
     - name: build and test
       run: |
-        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Release -DENABLE_TEST=ON
+        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Debug -DENABLE_TEST=ON
         cd build
         ninja
         test/test.sh
@@ -64,7 +64,7 @@ jobs:
         submodules: recursive
     - name: build and test
       run: |
-        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Release -DENABLE_TEST=ON -DUSE_CONCRETE=ON
+        cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Debug -DENABLE_TEST=ON -DUSE_CONCRETE=ON
         cd build
         ninja
         test/test.sh
@@ -112,7 +112,7 @@ jobs:
         submodules: recursive
     - name: build and test
       run: |
-        /cmake-binary/bin/cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Release -DCMAKE_CXX_COMPILER=clang++ -DCMAKE_C_COMPILER=clang -DCMAKE_LINKER_TYPE=LLD -DENABLE_TEST=ON
+        /cmake-binary/bin/cmake . -B build -G Ninja -DCMAKE_BUILD_TYPE=Debug -DCMAKE_CXX_COMPILER=clang++ -DCMAKE_C_COMPILER=clang -DCMAKE_LINKER_TYPE=LLD -DENABLE_TEST=ON
         cd build
         ninja
         test/test.sh
@@ -244,7 +244,7 @@ void SubsetPrivKeySwitch(TRLWE<typename P::targetP> &res,
                 mask;
 
             if (aij != 0)
-                TRLWEAdd<typename P::targetP>(res, res, privksk[i][j][aij - 1]);
+                TRLWESub<typename P::targetP>(res, res, privksk[i][j][aij - 1]);
             // for (int p = 0; p < P::targetP::n; p++)
             // for (int k = 0; k < P::targetP::k + 1; k++)
             // res[k][p] -= privksk[i][j][aij - 1][k][p];
@@ -547,4 +547,4 @@ void TLWE2TRLWEPacking(TRLWE<P> &res, std::vector<TLWE<P>> &tlwe,
 {
     PackLWEsLSB<P>(res, tlwe, ahk, P::nbit, 0, 1);
 }
-}  // namespace TFHEpp
+}  // namespace TFHEpp
@@ -219,18 +219,7 @@ inline void TwistIFFTUInt(PolynomialInFD<P> &res, const Polynomial<P> &a)
 template <uint32_t N>
 inline void MulInFD(std::array<double, N> &res, const std::array<double, N> &b)
 {
-#if defined(USE_INTERLEAVED_FORMAT) && defined(__AVX2__)
-    // AVX2 interleaved complex multiply: 2 complex per YMM
-    for (uint32_t i = 0; i < N; i += 4) {
-        __m256d a = _mm256_load_pd(res.data() + i);
-        __m256d w = _mm256_load_pd(b.data() + i);
-        __m256d w_swap = _mm256_permute_pd(w, 0b0101);
-        __m256d a_re = _mm256_unpacklo_pd(a, a);
-        __m256d a_im = _mm256_unpackhi_pd(a, a);
-        _mm256_store_pd(res.data() + i,
-            _mm256_fmaddsub_pd(a_re, w, _mm256_mul_pd(a_im, w_swap)));
-    }
-#elif defined(USE_INTERLEAVED_FORMAT)
+#ifdef USE_INTERLEAVED_FORMAT
     for (int i = 0; i < N / 2; i++) {
         const std::complex tmp = std::complex(res[2 * i], res[2 * i + 1]) *
                                  std::complex(b[2 * i], b[2 * i + 1]);
@@ -256,27 +245,17 @@ inline void MulInFD(std::array<double, N> &res, const std::array<double, N> &b)
 #elif defined(__AVX2__) && !defined(__AVX512F__)
     double *rre = res.data(), *rim = res.data() + N / 2;
     const double *bre = b.data(), *bim = b.data() + N / 2;
-    for (uint32_t i = 0; i < N / 2; i += 8) {
-        __m256d va_re0 = _mm256_load_pd(rre + i);
-        __m256d va_im0 = _mm256_load_pd(rim + i);
-        __m256d vb_re0 = _mm256_load_pd(bre + i);
-        __m256d vb_im0 = _mm256_load_pd(bim + i);
-        __m256d va_re1 = _mm256_load_pd(rre + i + 4);
-        __m256d va_im1 = _mm256_load_pd(rim + i + 4);
-        __m256d vb_re1 = _mm256_load_pd(bre + i + 4);
-        __m256d vb_im1 = _mm256_load_pd(bim + i + 4);
-        __m256d vr_re0 = _mm256_mul_pd(va_re0, vb_re0);
-        __m256d vr_re1 = _mm256_mul_pd(va_re1, vb_re1);
-        vr_re0 = _mm256_fnmadd_pd(va_im0, vb_im0, vr_re0);
-        vr_re1 = _mm256_fnmadd_pd(va_im1, vb_im1, vr_re1);
-        __m256d vr_im0 = _mm256_mul_pd(va_im0, vb_re0);
-        __m256d vr_im1 = _mm256_mul_pd(va_im1, vb_re1);
-        vr_im0 = _mm256_fmadd_pd(va_re0, vb_im0, vr_im0);
-        vr_im1 = _mm256_fmadd_pd(va_re1, vb_im1, vr_im1);
-        _mm256_store_pd(rre + i, vr_re0);
-        _mm256_store_pd(rre + i + 4, vr_re1);
-        _mm256_store_pd(rim + i, vr_im0);
-        _mm256_store_pd(rim + i + 4, vr_im1);
+    for (uint32_t i = 0; i < N / 2; i += 4) {
+        __m256d va_re = _mm256_load_pd(rre + i);
+        __m256d va_im = _mm256_load_pd(rim + i);
+        __m256d vb_re = _mm256_load_pd(bre + i);
+        __m256d vb_im = _mm256_load_pd(bim + i);
+        __m256d vr_re = _mm256_mul_pd(va_re, vb_re);
+        vr_re = _mm256_fnmadd_pd(va_im, vb_im, vr_re);
+        __m256d vr_im = _mm256_mul_pd(va_im, vb_re);
+        vr_im = _mm256_fmadd_pd(va_re, vb_im, vr_im);
+        _mm256_store_pd(rre + i, vr_re);
+        _mm256_store_pd(rim + i, vr_im);
     }
 #else
     for (int i = 0; i < N / 2; i++) {
@@ -292,17 +271,7 @@ template <uint32_t N>
 inline void MulInFD(std::array<double, N> &res, const std::array<double, N> &a,
                     const std::array<double, N> &b)
 {
-#if defined(USE_INTERLEAVED_FORMAT) && defined(__AVX2__)
-    for (uint32_t i = 0; i < N; i += 4) {
-        __m256d va = _mm256_load_pd(a.data() + i);
-        __m256d w = _mm256_load_pd(b.data() + i);
-        __m256d w_swap = _mm256_permute_pd(w, 0b0101);
-        __m256d a_re = _mm256_unpacklo_pd(va, va);
-        __m256d a_im = _mm256_unpackhi_pd(va, va);
-        _mm256_store_pd(res.data() + i,
-            _mm256_fmaddsub_pd(a_re, w, _mm256_mul_pd(a_im, w_swap)));
-    }
-#elif defined(USE_INTERLEAVED_FORMAT)
+#ifdef USE_INTERLEAVED_FORMAT
     for (int i = 0; i < N / 2; i++) {
         const std::complex tmp = std::complex(a[2 * i], a[2 * i + 1]) *
                                  std::complex(b[2 * i], b[2 * i + 1]);
@@ -330,27 +299,17 @@ inline void MulInFD(std::array<double, N> &res, const std::array<double, N> &a,
     const double *are = a.data(), *aim = a.data() + N / 2;
     const double *bre = b.data(), *bim = b.data() + N / 2;
     double *rre = res.data(), *rim = res.data() + N / 2;
-    for (uint32_t i = 0; i < N / 2; i += 8) {
-        __m256d va_re0 = _mm256_load_pd(are + i);
-        __m256d va_im0 = _mm256_load_pd(aim + i);
-        __m256d vb_re0 = _mm256_load_pd(bre + i);
-        __m256d vb_im0 = _mm256_load_pd(bim + i);
-        __m256d va_re1 = _mm256_load_pd(are + i + 4);
-        __m256d va_im1 = _mm256_load_pd(aim + i + 4);
-        __m256d vb_re1 = _mm256_load_pd(bre + i + 4);
-        __m256d vb_im1 = _mm256_load_pd(bim + i + 4);
-        __m256d vr_re0 = _mm256_mul_pd(va_re0, vb_re0);
-        __m256d vr_re1 = _mm256_mul_pd(va_re1, vb_re1);
-        vr_re0 = _mm256_fnmadd_pd(va_im0, vb_im0, vr_re0);
-        vr_re1 = _mm256_fnmadd_pd(va_im1, vb_im1, vr_re1);
-        __m256d vr_im0 = _mm256_mul_pd(va_im0, vb_re0);
-        __m256d vr_im1 = _mm256_mul_pd(va_im1, vb_re1);
-        vr_im0 = _mm256_fmadd_pd(va_re0, vb_im0, vr_im0);
-        vr_im1 = _mm256_fmadd_pd(va_re1, vb_im1, vr_im1);
-        _mm256_store_pd(rre + i, vr_re0);
-        _mm256_store_pd(rre + i + 4, vr_re1);
-        _mm256_store_pd(rim + i, vr_im0);
-        _mm256_store_pd(rim + i + 4, vr_im1);
+    for (uint32_t i = 0; i < N / 2; i += 4) {
+        __m256d va_re = _mm256_load_pd(are + i);
+        __m256d va_im = _mm256_load_pd(aim + i);
+        __m256d vb_re = _mm256_load_pd(bre + i);
+        __m256d vb_im = _mm256_load_pd(bim + i);
+        __m256d vr_re = _mm256_mul_pd(va_re, vb_re);
+        vr_re = _mm256_fnmadd_pd(va_im, vb_im, vr_re);
+        __m256d vr_im = _mm256_mul_pd(va_im, vb_re);
+        vr_im = _mm256_fmadd_pd(va_re, vb_im, vr_im);
+        _mm256_store_pd(rre + i, vr_re);
+        _mm256_store_pd(rim + i, vr_im);
     }
 #else
     for (int i = 0; i < N / 2; i++) {
@@ -370,19 +329,7 @@ template <uint32_t N>
 inline void FMAInFD(std::array<double, N> &res, const std::array<double, N> &a,
                     const std::array<double, N> &b)
 {
-#if defined(USE_INTERLEAVED_FORMAT) && defined(__AVX2__)
-    // AVX2 interleaved complex FMA: res += a * b
-    for (uint32_t i = 0; i < N; i += 4) {
-        __m256d va = _mm256_load_pd(a.data() + i);
-        __m256d w = _mm256_load_pd(b.data() + i);
-        __m256d r = _mm256_load_pd(res.data() + i);
-        __m256d w_swap = _mm256_permute_pd(w, 0b0101);
-        __m256d a_re = _mm256_unpacklo_pd(va, va);
-        __m256d a_im = _mm256_unpackhi_pd(va, va);
-        __m256d prod = _mm256_fmaddsub_pd(a_re, w, _mm256_mul_pd(a_im, w_swap));
-        _mm256_store_pd(res.data() + i, _mm256_add_pd(r, prod));
-    }
-#elif defined(USE_INTERLEAVED_FORMAT)
+#ifdef USE_INTERLEAVED_FORMAT
     for (int i = 0; i < N / 2; i++) {
         std::complex tmp = std::complex(a[2 * i], a[2 * i + 1]) *
                            std::complex(b[2 * i], b[2 * i + 1]);
@@ -414,32 +361,19 @@ inline void FMAInFD(std::array<double, N> &res, const std::array<double, N> &a,
     const double *are = a.data(), *aim = a.data() + N / 2;
     const double *bre = b.data(), *bim = b.data() + N / 2;
     double *rre = res.data(), *rim = res.data() + N / 2;
-    // 2x unrolled to improve ILP on Zen 2 (2 FMA units)
-    for (uint32_t i = 0; i < N / 2; i += 8) {
-        __m256d va_re0 = _mm256_load_pd(are + i);
-        __m256d va_im0 = _mm256_load_pd(aim + i);
-        __m256d vb_re0 = _mm256_load_pd(bre + i);
-        __m256d vb_im0 = _mm256_load_pd(bim + i);
-        __m256d vr_re0 = _mm256_load_pd(rre + i);
-        __m256d vr_im0 = _mm256_load_pd(rim + i);
-        __m256d va_re1 = _mm256_load_pd(are + i + 4);
-        __m256d va_im1 = _mm256_load_pd(aim + i + 4);
-        __m256d vb_re1 = _mm256_load_pd(bre + i + 4);
-        __m256d vb_im1 = _mm256_load_pd(bim + i + 4);
-        __m256d vr_re1 = _mm256_load_pd(rre + i + 4);
-        __m256d vr_im1 = _mm256_load_pd(rim + i + 4);
-        vr_re0 = _mm256_fmadd_pd(va_re0, vb_re0, vr_re0);
-        vr_re1 = _mm256_fmadd_pd(va_re1, vb_re1, vr_re1);
-        vr_re0 = _mm256_fnmadd_pd(va_im0, vb_im0, vr_re0);
-        vr_re1 = _mm256_fnmadd_pd(va_im1, vb_im1, vr_re1);
-        vr_im0 = _mm256_fmadd_pd(va_im0, vb_re0, vr_im0);
-        vr_im1 = _mm256_fmadd_pd(va_im1, vb_re1, vr_im1);
-        vr_im0 = _mm256_fmadd_pd(va_re0, vb_im0, vr_im0);
-        vr_im1 = _mm256_fmadd_pd(va_re1, vb_im1, vr_im1);
-        _mm256_store_pd(rre + i, vr_re0);
-        _mm256_store_pd(rre + i + 4, vr_re1);
-        _mm256_store_pd(rim + i, vr_im0);
-        _mm256_store_pd(rim + i + 4, vr_im1);
+    for (uint32_t i = 0; i < N / 2; i += 4) {
+        __m256d va_re = _mm256_load_pd(are + i);
+        __m256d va_im = _mm256_load_pd(aim + i);
+        __m256d vb_re = _mm256_load_pd(bre + i);
+        __m256d vb_im = _mm256_load_pd(bim + i);
+        __m256d vr_re = _mm256_load_pd(rre + i);
+        __m256d vr_im = _mm256_load_pd(rim + i);
+        vr_re = _mm256_fmadd_pd(va_re, vb_re, vr_re);
+        vr_re = _mm256_fnmadd_pd(va_im, vb_im, vr_re);
+        vr_im = _mm256_fmadd_pd(va_im, vb_re, vr_im);
+        vr_im = _mm256_fmadd_pd(va_re, vb_im, vr_im);
+        _mm256_store_pd(rre + i, vr_re);
+        _mm256_store_pd(rim + i, vr_im);
     }
 #else
     for (int i = 0; i < N / 2; i++) {
 
@@ -155,55 +155,6 @@ inline void DecompositionImpl(DecPolyType &decpoly, const Polynomial<P> &poly)
     constexpr typename P::T halfBg =
         static_cast<typename P::T>(1) << (D::Bgbit - 1);
 
-#if defined(__AVX2__) && !defined(USE_AVX512)
-    // AVX2 vectorized path for uint32_t with l̅=1 (the common case)
-    if constexpr (std::is_same_v<typename P::T, uint32_t> && D::l̅ == 1) {
-        const __m256i voffset = _mm256_set1_epi32(
-            static_cast<int32_t>(offset + roundoffset));
-        const __m256i vmask = _mm256_set1_epi32(static_cast<int32_t>(maskBg));
-        const __m256i vhalf = _mm256_set1_epi32(static_cast<int32_t>(halfBg));
-        for (int i = 0; i < D::l; i++) {
-            const int shift = std::numeric_limits<uint32_t>::digits -
-                              (i + 1) * D::Bgbit;
-            const __m128i vshift = _mm_cvtsi32_si128(shift);
-            for (int n = 0; n < P::n; n += 8) {
-                __m256i va = _mm256_loadu_si256(
-                    reinterpret_cast<const __m256i *>(poly.data() + n));
-                va = _mm256_add_epi32(va, voffset);
-                va = _mm256_srl_epi32(va, vshift);
-                va = _mm256_and_si256(va, vmask);
-                va = _mm256_sub_epi32(va, vhalf);
-                _mm256_storeu_si256(
-                    reinterpret_cast<__m256i *>(&decpoly[i][n]), va);
-            }
-        }
-        return;
-    }
-    // AVX2 vectorized path for uint64_t with l̅=1
-    if constexpr (std::is_same_v<typename P::T, uint64_t> && D::l̅ == 1) {
-        const __m256i voffset = _mm256_set1_epi64x(
-            static_cast<int64_t>(offset + roundoffset));
-        const __m256i vmask = _mm256_set1_epi64x(static_cast<int64_t>(maskBg));
-        const __m256i vhalf = _mm256_set1_epi64x(static_cast<int64_t>(halfBg));
-        for (int i = 0; i < D::l; i++) {
-            const int shift = std::numeric_limits<uint64_t>::digits -
-                              (i + 1) * D::Bgbit;
-            const __m128i vshift = _mm_cvtsi32_si128(shift);
-            for (int n = 0; n < P::n; n += 4) {
-                __m256i va = _mm256_loadu_si256(
-                    reinterpret_cast<const __m256i *>(poly.data() + n));
-                va = _mm256_add_epi64(va, voffset);
-                va = _mm256_srl_epi64(va, vshift);
-                va = _mm256_and_si256(va, vmask);
-                va = _mm256_sub_epi64(va, vhalf);
-                _mm256_storeu_si256(
-                    reinterpret_cast<__m256i *>(&decpoly[i][n]), va);
-            }
-        }
-        return;
-    }
-#endif
-
     for (int n = 0; n < P::n; n++) {
         typename P::T a = poly[n] + offset + roundoffset;
         for (int i = 0; i < D::l; i++) {
Original file line number	Diff line number	Diff line change
`@@ -244,7 +244,7 @@ void SubsetPrivKeySwitch(TRLWE<typename P::targetP> &res,`
`244`	`244`	`mask;`
`245`	`245`
`246`	`246`	`if (aij != 0)`
`247`		`- TRLWEAdd<typename P::targetP>(res, res, privksk[i][j][aij - 1]);`
	`247`	`+ TRLWESub<typename P::targetP>(res, res, privksk[i][j][aij - 1]);`
`248`	`248`	`// for (int p = 0; p < P::targetP::n; p++)`
`249`	`249`	`// for (int k = 0; k < P::targetP::k + 1; k++)`
`250`	`250`	`// res[k][p] -= privksk[i][j][aij - 1][k][p];`
`@@ -547,4 +547,4 @@ void TLWE2TRLWEPacking(TRLWE<P> &res, std::vector<TLWE<P>> &tlwe,`
`547`	`547`	`{`
`548`	`548`	`PackLWEsLSB<P>(res, tlwe, ahk, P::nbit, 0, 1);`
`549`	`549`	`}`
`550`		`-} // namespace TFHEpp`
	`550`	`+} // namespace TFHEpp`