c – 为什么这比memcmp慢
作者:互联网
我想比较两行像素.
像素被定义为包含4个浮点值(RGBA)的结构.
我不使用memcmp的原因是因为我需要返回第一个不同像素的位置,memcmp不会这样做.
我的第一个实现使用SSE内在函数,比memcmp慢约30%:
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128 x = _mm_load_ps((float*)(a + i));
__m128 y = _mm_load_ps((float*)(b + i));
__m128 cmp = _mm_cmpeq_ps(x, y);
if (_mm_movemask_ps(cmp) != 15) return i;
}
return -1;
}
然后我发现将值视为整数而不是浮点数加速了一些事情,现在比memcmp慢了约20%.
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128i x = _mm_load_si128((__m128i*)(a + i));
__m128i y = _mm_load_si128((__m128i*)(b + i));
__m128i cmp = _mm_cmpeq_epi32(x, y);
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
}
return -1;
}
从我在其他问题上看到的内容,memcmp的MS实现也是使用SSE实现的.我的问题是,MS实现的其他技巧是什么呢?我不这样做?即使它进行逐字节比较,它仍然如何更快?
对齐是一个问题吗?如果像素包含4个浮点数,则不会在16字节边界上分配像素数组?
我正在使用/ o2和所有优化标志进行编译.
解决方法:
我已经用SSE(和MMX / 3DNow!)编写了strcmp / memcmp优化,第一步是确保数组尽可能对齐 – 你可能会发现你必须做第一个和/或最后一个字节“一个一次“.
如果您可以在数据进入循环之前对齐[如果您的代码进行了分配],那么这是理想的.
第二部分是展开循环,所以你不会得到这么多“如果循环不在最后,跳回循环的开头” – 假设循环很长.
您可能会发现在执行“我们现在离开”条件之前预加载输入的下一个数据也有帮助.
编辑:最后一段可能需要一个例子.此代码假定至少有两个展开的循环:
__m128i x = _mm_load_si128((__m128i*)(a));
__m128i y = _mm_load_si128((__m128i*)(b));
for(int i = 0; i < count; i+=2)
{
__m128i cmp = _mm_cmpeq_epi32(x, y);
__m128i x1 = _mm_load_si128((__m128i*)(a + i + 1));
__m128i y1 = _mm_load_si128((__m128i*)(b + i + 1));
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
cmp = _mm_cmpeq_epi32(x1, y1);
__m128i x = _mm_load_si128((__m128i*)(a + i + 2));
__m128i y = _mm_load_si128((__m128i*)(b + i + 2));
if (_mm_movemask_epi8(cmp) != 0xffff) return i + 1;
}
大概是这样的.
标签:c,visual-c,sse,memcmp 来源: https://codeday.me/bug/20190825/1723822.html