其他分享
首页 > 其他分享> > c – 获得8个源__m256向量的__m256水平和的最有效方法

c – 获得8个源__m256向量的__m256水平和的最有效方法

作者:互联网

我知道如何将一个__m256加起来得到一个求和值.但是,我有8个矢量
输入

1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7],
.....,
.....,
8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], a[7]

产量

a[0]+a[1]+a[2]+a[3]+a[4]+a[5]+a[6]+a[7], 
 ...., 
h[0]+h[1]+h[2]+h[3]+h[4]+h[5]+h[6]+h[7]

我的方法.好奇如果有更好的方法.

            __m256 sumab = _mm256_hadd_ps(accumulator1, accumulator2);
            __m256 sumcd = _mm256_hadd_ps(accumulator3, accumulator4);

            __m256 sumef = _mm256_hadd_ps(accumulator5, accumulator6);
            __m256 sumgh = _mm256_hadd_ps(accumulator7, accumulator8);

            __m256 sumabcd = _mm256_hadd_ps(sumab, sumcd);
            __m256 sumefgh = _mm256_hadd_ps(sumef, sumgh);

            __m128 sumabcd1 = _mm256_extractf128_ps(sumabcd, 0);
            __m128 sumabcd2 = _mm256_extractf128_ps(sumabcd, 1);
            __m128 sumefgh1 = _mm256_extractf128_ps(sumefgh, 0);
            __m128 sumefgh2 = _mm256_extractf128_ps(sumefgh, 1);

            sumabcd1 = _mm_add_ps(sumabcd1, sumabcd2);
            sumefgh1 = _mm_add_ps(sumefgh1, sumefgh2);

 __m256 result =_mm256_insertf128_ps(_mm256_castps128_ps256(sumabcd1), sumefgh1, 1)

解决方法:

您可以使用2x _mm256_permute2f128_ps排列垂直vaddps的低和高通道.这不是2x extractf128 / insertf128.这也将两个128b vaddps xmm指令转换为单个256b vaddps ymm.

vperm2f128与Intel CPU上的单个vextractf128或vinsertf128一样快.然而,它在AMD上的速度很慢(在Bulldozer系列上有8c-ops,延迟时间为4c).尽管如此,即使你关心AMD的性能,你也需要避免它. (其中一个permutes实际上可以是vinsertf128).

__m256 hsum8(__m256 a, __m256 b, __m256 c, __m256 d,
             __m256 e, __m256 f, __m256 g, __m256 h)
{
    // a = [ A7 A6 A5 A4 | A3 A2 A1 A0 ]
    __m256 sumab = _mm256_hadd_ps(a, b);
    __m256 sumcd = _mm256_hadd_ps(c, d);

    __m256 sumef = _mm256_hadd_ps(e, f);
    __m256 sumgh = _mm256_hadd_ps(g, h);

    __m256 sumabcd = _mm256_hadd_ps(sumab, sumcd);  // [ D7:4 ... A7:4 | D3:0 ... A3:0 ]
    __m256 sumefgh = _mm256_hadd_ps(sumef, sumgh);  // [ H7:4 ... E7:4 | H3:0 ... E3:0 ]

    __m256 sum_hi = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x31);  // [ H7:4 ... E7:4 | D7:4 ... A7:4 ]
    __m256 sum_lo = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x20);  // [ H3:0 ... E3:0 | D3:0 ... A3:0 ]

    __m256 result = _mm256_add_ps(sum_hi, sum_lo);
    return result;
}

这个compiles as you’d expect.第二个permute2f128实际编译为vinsertf128,因为它只使用每个输入的低通道,就像vinsertf128一样. gcc 4.7及更高版本执行此优化,但只有更新的clang版本(v3.7).如果您关心旧铿锵,请在源级别执行此操作.

源代码行的节省大于指令中的节省,因为_mm256_extractf128_ps(sumabcd,0);编译为零指令:它只是一个演员.没有编译器应该使用除了1之外的imm8发出vextractf128.(vmovdqa xmm / m128,xmm总是更好地获得低通道).英特尔做得很好,因为普通的VEX前缀没有足够的空间来编码更长的矢量,因此在未来验证时会浪费一个指令字节.

两个vaddps xmm指令可以并行运行,因此使用单个vaddps ymm主要是吞吐量(和代码大小)增益,而不是延迟.

尽管如此,我们还是完全消除了最终的vinsertf128,从而缩短了3个周期.

vhaddps是3 uops,5c延迟,每2c吞吐量一个. (Skylake的6c延迟).这三个uop中的两个在shuffle端口上运行.我猜它基本上是做2x shufps来为addps生成操作数.

如果我们可以使用单个shufps / addps或其他东西来模拟haddps(或至少得到我们可以使用的水平操作),我们就会提前出来.不幸的是,我不知道如何.单个shuffle只能使用来自两个向量的数据生成一个结果,但我们需要两个输入到垂直addps以获得来自两个向量的数据.

我不认为以另一种方式做横向总和看起来很有希望. Normally, hadd is not a good choice,因为常见的水平和用例只关心其输出的一个元素.这不是这里的情况:实际使用每个hadd结果的每个元素.

标签:c,matrix,sum,sse,avx
来源: https://codeday.me/bug/20191003/1847346.html