其他分享
首页 > 其他分享> > c – 为什么这比memcmp慢

c – 为什么这比memcmp慢

作者:互联网

我想比较两行像素.

像素被定义为包含4个浮点值(RGBA)的结构.

我不使用memcmp的原因是因为我需要返回第一个不同像素的位置,memcmp不会这样做.

我的第一个实现使用SSE内在函数,比memcmp慢约30%:

inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
    for (int i = 0; i < count; i++)
    {
        __m128 x = _mm_load_ps((float*)(a + i));
        __m128 y = _mm_load_ps((float*)(b + i));
        __m128 cmp = _mm_cmpeq_ps(x, y);
        if (_mm_movemask_ps(cmp) != 15) return i;
    }
    return -1;
}

然后我发现将值视为整数而不是浮点数加速了一些事情,现在比memcmp慢了约20%.

inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
    for (int i = 0; i < count; i++)
    {
        __m128i x = _mm_load_si128((__m128i*)(a + i));
        __m128i y = _mm_load_si128((__m128i*)(b + i));
        __m128i cmp = _mm_cmpeq_epi32(x, y);
        if (_mm_movemask_epi8(cmp) != 0xffff) return i; 
    }
    return -1;
}

从我在其他问题上看到的内容,memcmp的MS实现也是使用SSE实现的.我的问题是,MS实现的其他技巧是什么呢?我不这样做?即使它进行逐字节比较,它仍然如何更快?

对齐是一个问题吗?如果像素包含4个浮点数,则不会在16字节边界上分配像素数组?

我正在使用/ o2和所有优化标志进行编译.

解决方法:

我已经用SSE(和MMX / 3DNow!)编写了strcmp / memcmp优化,第一步是确保数组尽可能对齐 – 你可能会发现你必须做第一个和/或最后一个字节“一个一次“.

如果您可以在数据进入循环之前对齐[如果您的代码进行了分配],那么这是理想的.

第二部分是展开循环,所以你不会得到这么多“如果循环不在最后,跳回循环的开头” – 假设循环很长.

您可能会发现在执行“我们现在离开”条件之前预加载输入的下一个数据也有帮助.

编辑:最后一段可能需要一个例子.此代码假定至少有两个展开的循环:

 __m128i x = _mm_load_si128((__m128i*)(a));
 __m128i y = _mm_load_si128((__m128i*)(b));

 for(int i = 0; i < count; i+=2)
 {
    __m128i cmp = _mm_cmpeq_epi32(x, y);

    __m128i x1 = _mm_load_si128((__m128i*)(a + i + 1));
    __m128i y1 = _mm_load_si128((__m128i*)(b + i + 1));

    if (_mm_movemask_epi8(cmp) != 0xffff) return i; 
    cmp = _mm_cmpeq_epi32(x1, y1);
    __m128i x = _mm_load_si128((__m128i*)(a + i + 2));
    __m128i y = _mm_load_si128((__m128i*)(b + i + 2));
    if (_mm_movemask_epi8(cmp) != 0xffff) return i + 1; 
}

大概是这样的.

标签:c,visual-c,sse,memcmp
来源: https://codeday.me/bug/20190825/1723822.html