fixed

archibate · archibate · commit f4fed5757090 · 2023-08-18T05:20:09.000+08:00
diff --git a/README.md b/README.md
@@ -118,9 +118,9 @@ cp source/findp.cpp main.cpp  # 测试 findp 任务
 ## 实验需求
 
 - 硬件要求：支持 AVX2 的 x86 CPU，Intel 和 AMD 均可，8 GB 内存。
-- 硬件最低要求：64 位的 x86 CPU，Intel 和 AMD 均可，2 GB 内存。
+- 硬件最低要求：支持 SSE4.1 的 64 位的 x86 CPU，Intel 和 AMD 均可，2 GB 内存。
 
-> 注：所有 64 位 CPU 均支持 SSE，过老的硬件可能无法运行部分含 AVX 的实验代码。
+> 注：所有 64 位 CPU 均能支持到 SSE2，从 Haswell 架构开始的 CPU 都能支持到 AVX2。
 
 Linux 做实验所需包（以 Arch Linux 为例）：
 
diff --git a/main.cpp b/main.cpp
@@ -6,41 +6,49 @@
 #include <immintrin.h>
 
 // BEGIN CODE
-void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
-    __m256i shuf12 = _mm256_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15,
-                                   5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
-    __m256i shuf34 = _mm256_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9,
-                                   3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
-    __m256i perm12 = _mm256_setr_epi32(0, 1, 2, 7, 4, 5, 3, 6);
-    __m256i perm34 = _mm256_setr_epi32(0, 5, 6, 7, 1, 4, 2, 3);
+void simd_rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const __m128i shuf1 = _mm_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15);
+    const __m128i shuf2 = _mm_setr_epi8(5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    const __m128i shuf3 = _mm_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9);
+    const __m128i shuf4 = _mm_setr_epi8(3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
     auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
     auto in_rgba_true_end = in_rgba + n * 4;
     while (in_rgba < in_rgba_end) {
-        // rgbargbargbargba RGBaRgbargbargba rgbargbargBaRGBa rgbargbargbargba
-        // rgbrgbrgbrgb.... gbrgbrgb    RGBR BRGB    rgbrgbrg ....rgbrgbrgbrgb
-        __m256i v12_rgba = _mm256_loadu_si256((__m256i *)in_rgba);
-        in_rgba += 32;
-        __m256i v34_rgba = _mm256_loadu_si256((__m256i *)in_rgba);
-        in_rgba += 32;
-        __m256i v12_rgb = _mm256_shuffle_epi8(v12_rgba, shuf12);
-        __m256i v34_rgb = _mm256_shuffle_epi8(v34_rgba, shuf34);
-        __m256i v12t_rgb = _mm256_permutevar8x32_epi32(v12_rgb, perm12);
-        __m256i v34t_rgb = _mm256_permutevar8x32_epi32(v34_rgb, perm34);
-        __m256i v12e_rgb = _mm256_blend_epi32(v12t_rgb, v34t_rgb, 0b11000000);
-        __m128i v3e_rgb = _mm256_castsi256_si128(v34t_rgb);
-        _mm256_storeu_si256((__m256i *)out_rgb, v12e_rgb);
-        out_rgb += 32;
-        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb);
-        out_rgb += 16;
+        // v1~4_rgba  rgbargbargbargba RGBaRgbargbargba rgbargbargBaRGBa rgbargbargbargba
+        // v1~4_rgb   rgbrgbrgbrgbaaaa gbrgbrgbaaaaRGBR BRGBaaaargbrgbrg aaaargbrgbrgbrgb
+        // v1~4e_rgb  rgbrgbrgbrgbRGBR gbrgbrgbrgbrgbrg BRGBrgbrgbrgbrgb
+        __m128i v1_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v2_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v3_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v4_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        // 核心代码开始
+        __m128i v1_rgb = _mm_shuffle_epi8(v1_rgba, shuf1);
+        __m128i v2_rgb = _mm_shuffle_epi8(v2_rgba, shuf2);
+        __m128i v3_rgb = _mm_shuffle_epi8(v3_rgba, shuf3);
+        __m128i v4_rgb = _mm_shuffle_epi8(v4_rgba, shuf4);
+        __m128i v1e_rgb = _mm_blend_epi32(v1_rgb, v2_rgb, 0b1000);
+        __m128i v2e_rgb = _mm_blend_epi32(v2_rgb, v3_rgb, 0b1100);
+        __m128i v3e_rgb = _mm_blend_epi32(v3_rgb, v4_rgb, 0b1110);
+        // 核心代码结束
+        _mm_storeu_si128((__m128i *)out_rgb, v1e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v2e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
     }
-
     while (in_rgba != in_rgba_true_end) {
         *out_rgb++ = *in_rgba++;
         *out_rgb++ = *in_rgba++;
         *out_rgb++ = *in_rgba++;
         in_rgba++;
     }
 }
+
+void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const size_t chunk = 65536;
+    #pragma omp parallel for
+    for (size_t i = 0; i < n; i += chunk) {
+        simd_rgba2rgb(in_rgba + i * 4, out_rgb + i * 3, std::min(chunk, n - i));
+    }
+}
 // END CODE
 
 static void bench(benchmark::State &s) {
diff --git a/practices/dispatch.md b/practices/dispatch.md
@@ -0,0 +1,196 @@
+编译期静态分发，根据是否指定了 -mavx2 参数：
+
+```cpp
+#ifdef __AVX2__
+#include <immintrin.h>
+#endif
+
+void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+#ifdef __AVX2__
+    const __m128i shuf1 = _mm_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15);
+    const __m128i shuf2 = _mm_setr_epi8(5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    const __m128i shuf3 = _mm_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9);
+    const __m128i shuf4 = _mm_setr_epi8(3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
+    auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
+    auto in_rgba_true_end = in_rgba + n * 4;
+    while (in_rgba < in_rgba_end) {
+        __m128i v1_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v2_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v3_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v4_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v1_rgb = _mm_shuffle_epi8(v1_rgba, shuf1);
+        __m128i v2_rgb = _mm_shuffle_epi8(v2_rgba, shuf2);
+        __m128i v3_rgb = _mm_shuffle_epi8(v3_rgba, shuf3);
+        __m128i v4_rgb = _mm_shuffle_epi8(v4_rgba, shuf4);
+        __m128i v1e_rgb = _mm_blend_epi32(v1_rgb, v2_rgb, 0b1000);
+        __m128i v2e_rgb = _mm_blend_epi32(v2_rgb, v3_rgb, 0b1100);
+        __m128i v3e_rgb = _mm_blend_epi32(v3_rgb, v4_rgb, 0b1110);
+        _mm_storeu_si128((__m128i *)out_rgb, v1e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v2e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
+    }
+    while (in_rgba != in_rgba_true_end) {
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        in_rgba++;
+    }
+#else
+    for (size_t i = 0; i < n; i++) {
+        out_rgb[i * 3 + 0] = in_rgba[i * 4 + 0];
+        out_rgb[i * 3 + 1] = in_rgba[i * 4 + 1];
+        out_rgb[i * 3 + 2] = in_rgba[i * 4 + 2];
+    }
+#endif
+}
+```
+
+运行时动态分发，根据运行时检测到的 cpuid 自动决定调用哪个版本：
+
+```cpp
+#ifdef __x86_64__
+#include <immintrin.h>
+#endif
+
+__attribute__((__target__("avx2"))) void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const __m128i shuf1 = _mm_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15);
+    const __m128i shuf2 = _mm_setr_epi8(5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    const __m128i shuf3 = _mm_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9);
+    const __m128i shuf4 = _mm_setr_epi8(3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
+    auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
+    auto in_rgba_true_end = in_rgba + n * 4;
+    while (in_rgba < in_rgba_end) {
+        __m128i v1_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v2_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v3_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v4_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v1_rgb = _mm_shuffle_epi8(v1_rgba, shuf1);
+        __m128i v2_rgb = _mm_shuffle_epi8(v2_rgba, shuf2);
+        __m128i v3_rgb = _mm_shuffle_epi8(v3_rgba, shuf3);
+        __m128i v4_rgb = _mm_shuffle_epi8(v4_rgba, shuf4);
+        __m128i v1e_rgb = _mm_blend_epi32(v1_rgb, v2_rgb, 0b1000);
+        __m128i v2e_rgb = _mm_blend_epi32(v2_rgb, v3_rgb, 0b1100);
+        __m128i v3e_rgb = _mm_blend_epi32(v3_rgb, v4_rgb, 0b1110);
+        _mm_storeu_si128((__m128i *)out_rgb, v1e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v2e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
+    }
+    while (in_rgba != in_rgba_true_end) {
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        in_rgba++;
+    }
+}
+
+__attribute__((__target__("sse4.1"))) void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const __m128i shuf1 = _mm_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15);
+    const __m128i shuf2 = _mm_setr_epi8(5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    const __m128i shuf3 = _mm_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9);
+    const __m128i shuf4 = _mm_setr_epi8(3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
+    auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
+    auto in_rgba_true_end = in_rgba + n * 4;
+    while (in_rgba < in_rgba_end) {
+        __m128i v1_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v2_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v3_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v4_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v1_rgb = _mm_shuffle_epi8(v1_rgba, shuf1);
+        __m128i v2_rgb = _mm_shuffle_epi8(v2_rgba, shuf2);
+        __m128i v3_rgb = _mm_shuffle_epi8(v3_rgba, shuf3);
+        __m128i v4_rgb = _mm_shuffle_epi8(v4_rgba, shuf4);
+        __m128i v1e_rgb = _mm_blend_epi16(v1_rgb, v2_rgb, 0b11000000);
+        __m128i v2e_rgb = _mm_blend_epi16(v2_rgb, v3_rgb, 0b11110000);
+        __m128i v3e_rgb = _mm_blend_epi16(v3_rgb, v4_rgb, 0b11111100);
+        _mm_storeu_si128((__m128i *)out_rgb, v1e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v2e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
+    }
+    while (in_rgba != in_rgba_true_end) {
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        in_rgba++;
+    }
+}
+
+__attribute__((__target__("default"))) void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    for (size_t i = 0; i < n; i++) {
+        out_rgb[i * 3 + 0] = in_rgba[i * 4 + 0];
+        out_rgb[i * 3 + 1] = in_rgba[i * 4 + 1];
+        out_rgb[i * 3 + 2] = in_rgba[i * 4 + 2];
+    }
+}
+```
+
+运行时动态分发，但都让编译器自动根据检测到的 CPU 架构针对性地优化：
+
+```cpp
+__attribute__((target_clones("sse4.1,avx"))) void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    for (size_t i = 0; i < n; i++) {
+        out_rgb[i * 3 + 0] = in_rgba[i * 4 + 0];
+        out_rgb[i * 3 + 1] = in_rgba[i * 4 + 1];
+        out_rgb[i * 3 + 2] = in_rgba[i * 4 + 2];
+    }
+}
+```
+
+用户自定义的运行时分发规则，手动使用 `__builtin_cpu_supports` 检测：
+
+```cpp
+__attribute__((ifunc("rgba2rgb_dispatch"))) void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n);
+
+void rgba2rgb_avx2(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n);
+void rgba2rgb_default(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n);
+
+typedef void rgba2rgb_t(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n);
+
+extern "C" rgba2rgb_t *rgba2rgb_dispatch() {
+    if (__builtin_cpu_supports("avx2")) {
+        return &rgba2rgb_avx2;
+    } else {
+        return &rgba2rgb_default;
+    }
+}
+
+void rgba2rgb_avx2(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const __m128i shuf1 = _mm_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15);
+    const __m128i shuf2 = _mm_setr_epi8(5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    const __m128i shuf3 = _mm_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9);
+    const __m128i shuf4 = _mm_setr_epi8(3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
+    auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
+    auto in_rgba_true_end = in_rgba + n * 4;
+    while (in_rgba < in_rgba_end) {
+        __m128i v1_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v2_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v3_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v4_rgba = _mm_loadu_si128((__m128i *)in_rgba); in_rgba += 16;
+        __m128i v1_rgb = _mm_shuffle_epi8(v1_rgba, shuf1);
+        __m128i v2_rgb = _mm_shuffle_epi8(v2_rgba, shuf2);
+        __m128i v3_rgb = _mm_shuffle_epi8(v3_rgba, shuf3);
+        __m128i v4_rgb = _mm_shuffle_epi8(v4_rgba, shuf4);
+        __m128i v1e_rgb = _mm_blend_epi32(v1_rgb, v2_rgb, 0b1000);
+        __m128i v2e_rgb = _mm_blend_epi32(v2_rgb, v3_rgb, 0b1100);
+        __m128i v3e_rgb = _mm_blend_epi32(v3_rgb, v4_rgb, 0b1110);
+        _mm_storeu_si128((__m128i *)out_rgb, v1e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v2e_rgb); out_rgb += 16;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
+    }
+    while (in_rgba != in_rgba_true_end) {
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        in_rgba++;
+    }
+}
+
+void rgba2rgb_default(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    for (size_t i = 0; i < n; i++) {
+        out_rgb[i * 3 + 0] = in_rgba[i * 4 + 0];
+        out_rgb[i * 3 + 1] = in_rgba[i * 4 + 1];
+        out_rgb[i * 3 + 2] = in_rgba[i * 4 + 2];
+    }
+}
+```
+
+注意：MSVC 不支持动态分发，只能编译期分发，动态分发是 GCC 和 Clang 才有的特性。
diff --git a/practices/u8rgba2rgb.md b/practices/u8rgba2rgb.md
@@ -1,4 +1,20 @@
-# u8rgba2rgb 最佳实践
+# u8rgba2rgb 优化最佳实践
+
+## 原版
+
+测试数据：1920x1080 的 u8rgba 图像
+
+测试结果：584902 ns 1.13 cpi 23.16 GB/s
+
+```
+void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    for (size_t i = 0; i < n; i++) {
+        out_rgb[i * 3 + 0] = in_rgba[i * 4 + 0];
+        out_rgb[i * 3 + 1] = in_rgba[i * 4 + 1];
+        out_rgb[i * 3 + 2] = in_rgba[i * 4 + 2];
+    }
+}
+```
 
 ## SSE4.1 版
 
@@ -10,8 +26,6 @@
 
 实现思路：使用 shuffle 进行压缩，由于 4x4 到 4x3 空出来了 4 格空间，用 blend 从下一组 4x3 中提取前 4 格过来。
 
-测试数据：1920x1080 的 u8rgba 图像
-
 测试结果：408279 ns 0.79 cpi 33.18 GB/s
 
 ```cpp
@@ -77,3 +91,53 @@ for (...) {
     _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb); out_rgb += 16;
 }
 ```
+
+# AVX2 + 并行
+
+测试结果：228981 ns 0.44 cpi 59.88 GB/s
+
+最终完整代码：
+
+```cpp
+void simd_rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    __m256i shuf12 = _mm256_setr_epi8(0,1,2,4,5,6,8,9,10,12,13,14,3,7,11,15,
+                                   5,6,8,9,10,12,13,14,3,7,11,15,0,1,2,4);
+    __m256i shuf34 = _mm256_setr_epi8(10,12,13,14,3,7,11,15,0,1,2,4,5,6,8,9,
+                                   3,7,11,15,0,1,2,4,5,6,8,9,10,12,13,14);
+    __m256i perm12 = _mm256_setr_epi32(0, 1, 2, 7, 4, 5, 3, 6);
+    __m256i perm34 = _mm256_setr_epi32(0, 5, 6, 7, 1, 4, 2, 3);
+    auto in_rgba_end = in_rgba + ((n - 16) / 16 * 16) * 4;
+    auto in_rgba_true_end = in_rgba + n * 4;
+    while (in_rgba < in_rgba_end) {
+        __m256i v12_rgba = _mm256_loadu_si256((__m256i *)in_rgba);
+        in_rgba += 32;
+        __m256i v34_rgba = _mm256_loadu_si256((__m256i *)in_rgba);
+        in_rgba += 32;
+        __m256i v12_rgb = _mm256_shuffle_epi8(v12_rgba, shuf12);
+        __m256i v34_rgb = _mm256_shuffle_epi8(v34_rgba, shuf34);
+        __m256i v12t_rgb = _mm256_permutevar8x32_epi32(v12_rgb, perm12);
+        __m256i v34t_rgb = _mm256_permutevar8x32_epi32(v34_rgb, perm34);
+        __m256i v12e_rgb = _mm256_blend_epi32(v12t_rgb, v34t_rgb, 0b11000000);
+        __m128i v3e_rgb = _mm256_castsi256_si128(v34t_rgb);
+        _mm256_storeu_si256((__m256i *)out_rgb, v12e_rgb);
+        out_rgb += 32;
+        _mm_storeu_si128((__m128i *)out_rgb, v3e_rgb);
+        out_rgb += 16;
+    }
+
+    while (in_rgba != in_rgba_true_end) {
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        *out_rgb++ = *in_rgba++;
+        in_rgba++;
+    }
+}
+
+void rgba2rgb(uint8_t const *in_rgba, uint8_t *out_rgb, size_t n) {
+    const size_t chunk = 65536;
+    #pragma omp parallel for
+    for (size_t i = 0; i < n; i += chunk) {
+        simd_rgba2rgb(in_rgba + i * 4, out_rgb + i * 3, std::min(chunk, n - i));
+    }
+}
+```
diff --git a/source/rgba2rgb.cpp b/source/rgba2rgb.cpp