redis6.0.5之lzf阅读笔记2--压缩
作者:互联网
******************************************************************************************************************** #include "lzfP.h" #define HSIZE (1 << (HLOG)) ******************************************************************************************************************** /* * don't play with this unless you benchmark! * the data format is not dependent on the hash function. * the hash function might seem strange, just believe me, * it works ;) 不要修改这个,除非你做基准测试。这个数据格式不是依赖于hash函数。 hash函数看山去会比较奇怪,但是相信我,它能工作! */ #ifndef FRST # define FRST(p) (((p[0]) << 8) | p[1]) # define NEXT(v,p) (((v) << 8) | p[2]) # if ULTRA_FAST # define IDX(h) ((( h >> (3*8 - HLOG)) - h ) & (HSIZE - 1)) # elif VERY_FAST # define IDX(h) ((( h >> (3*8 - HLOG)) - h*5) & (HSIZE - 1)) # else # define IDX(h) ((((h ^ (h << 5)) >> (3*8 - HLOG)) - h*5) & (HSIZE - 1)) # endif #endif /* * IDX works because it is very similar to a multiplicative hash, e.g. * ((h * 57321 >> (3*8 - HLOG)) & (HSIZE - 1)) * the latter is also quite fast on newer CPUs, and compresses similarly. * * the next one is also quite good, albeit slow ;) * (int)(cos(h & 0xffffff) * 1e6) */ #if 0 不想用的代码 /* original lzv-like hash function, much worse and thus slower */ 原始的类lzv哈希行数,更差,因此更慢(这里就不用了) # define FRST(p) (p[0] << 5) ^ p[1] # define NEXT(v,p) ((v) << 5) ^ p[2] # define IDX(h) ((h) & (HSIZE - 1)) #endif #define MAX_LIT (1 << 5) #define MAX_OFF (1 << 13) #define MAX_REF ((1 << 8) + (1 << 3)) #if __GNUC__ >= 3 GCC3.0以上 # define expect(expr,value) __builtin_expect ((expr),(value)) 用于优化编译后的代码 # define inline inline #else # define expect(expr,value) (expr) # define inline static #endif #define expect_false(expr) expect ((expr) != 0, 0) #define expect_true(expr) expect ((expr) != 0, 1) /* * compressed format 压缩格式 * * 000LLLLL <L+1> ; literal, L+1=1..33 octets 不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 压缩格式,短序列重复 这里4096也不对,应该为8192, 对于一个字符的重复不压缩,又因为LLL不能为0,否则会和不压缩的格式混淆,所以取值为1到6,加上2 ,也就是从3到8 因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度 * 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 压缩格式, 长序列重复, 这里也是8192, 这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 263字节 * */ ******************************************************************************************************************** unsigned int lzf_compress (const void *const in_data, unsigned int in_len, void *out_data, unsigned int out_len #if LZF_STATE_ARG , LZF_STATE htab #endif ) { #if !LZF_STATE_ARG LZF_STATE htab; #endif const u8 *ip = (const u8 *)in_data; 初始化指向数据的指针 u8 *op = (u8 *)out_data; 指向输出数据开始的指针 const u8 *in_end = ip + in_len; 指向输入数据的结尾 u8 *out_end = op + out_len; 指向输出数据的结尾 const u8 *ref; /* off requires a type wide enough to hold a general pointer difference. off需要一个足够宽的类型来保存一个不同的指针 * ISO C doesn't have that (size_t might not be enough and ptrdiff_t only * works for differences within a single object). We also assume that no * no bit pattern traps. Since the only platform that is both non-POSIX * and fails to support both assumptions is windows 64 bit, we make a * special workaround for it. ISO C 没有这样的类型(size_t可能大小,ptrdiff_t只是对单一对象的差值), 我们假定没有位模式陷阱。 因此唯一一个既不支持POSIX模式也不支持上述两种假设的平台是64位的windows, 所以我们为它采用了一个特殊的解决方案 */ #if defined (WIN32) && defined (_M_X64) 64位的windos平台 unsigned _int64 off; /* workaround for missing POSIX compliance */ 不兼容POSIX的解决方案 #else unsigned long off; #endif unsigned int hval; int lit; if (!in_len || !out_len) 没有输入或输出,直接退出 return 0; #if INIT_HTAB memset (htab, 0, sizeof (htab)); -- 初始化hash表,这里sizeof (htab)的大小为2^16 * 4 sizeof(unsigned int) = 4 个字节 -- typedef unsigned int LZF_HSLOT; typedef LZF_HSLOT LZF_STATE[1 << (HLOG)]; HLOG = 16 #endif lit = 0; op++; /* start run */ hval = FRST (ip); 获取前面的2个字节的数据 while (ip < in_end - 2) 如果指针ip指向比结尾少2个字节位置,则循环继续,这两个字节就是上面一开始就获取的hval { LZF_HSLOT *hslot; hval = NEXT (hval, ip); 获取接下来的第三个字节,三个字节组成一个数 hslot = htab + IDX (hval); 定位到hash表的槽 ref = *hslot + LZF_HSLOT_BIAS; 指向引用的连续两个同样字符的位置,刚开始的时候为空,即*hslot中的值为0,ref指向传入数据开始位置 *hslot = ip - LZF_HSLOT_BIAS; 赋值新的字符串hash值的位置 给 hash表中对应槽的内容,这样下一次再进来的时候ref指向就有值了 if (1 #if INIT_HTAB && ref < ip /* the next test will actually take care of this, but this is faster */ 下一个测试会实际的解决这个问题,但是这个更快 #endif && (off = ip - ref - 1) < MAX_OFF && ref > (u8 *)in_data 因为初始化的时候全部是这个初始值,这个判断表示是初始值,不用进行下一步对比 && ref[2] == ip[2] #if STRICT_ALIGN && ((ref[1] << 8) | ref[0]) == ((ip[1] << 8) | ip[0]) #else && *(u16 *)ref == *(u16 *)ip #endif ) { /* match found at *ref++ */ 在*ref++找到匹配项 unsigned int len = 2; unsigned int maxlen = in_end - ip - len; maxlen = maxlen > MAX_REF ? MAX_REF : maxlen; if (expect_false (op + 3 + 1 >= out_end)) /* first a faster conservative test */ 首先是更快的保守测试 if (op - !lit + 3 + 1 >= out_end) /* second the exact but rare test */ 期次是精确而稀少的测试 return 0; op [- lit - 1] = lit - 1; /* stop run */ 有新的匹配,需要将之前的非压缩字符保存起来 op -= !lit; /* undo run if length is zero */ 如果非压缩字符长度为0,那么就回退一个字节,长度为0不需要记录 for (;;) 开始对匹配的长度进行统计 { if (expect_true (maxlen > 16)) { len++; if (ref [len] != ip [len]) break; 因为匹配的长度至少为3,所以先加1到3,在进行比较下一个 len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; len++; if (ref [len] != ip [len]) break; } do len++; 因为匹配的长度至少为3,所以先加1到3,在进行比较下一个,直到不相等为止 while (len < maxlen && ref[len] == ip[len]); break; } len -= 2; /* len is now #octets - 1 */ 这里的长度为实际字节数减2 ip++; 指向相等开始的下一个字符 if (len < 7) 长度小于7,那么使用第一种压缩格式 { *op++ = (off >> 8) + (len << 5); 这里表示将偏移量向后移动8位,保留前面几位,最高三位表示长度 } else { *op++ = (off >> 8) + ( 7 << 5); 这里的7 << 5 就是将最高三位设置为111,标志是长序列重复压缩,将偏移量的高位设置和标志在同一字节 *op++ = len - 7; 将长度再减去7,进行保存(所以总的长度应该加上9) } *op++ = off; 将off低字节的值赋给下一个输出字节 lit = 0; op++; /* start run */ 开启下一段的压缩 ip += len + 1; 这里需要加上实际的长度,因为前面已经ip++了,所以 即只需要加 len+1 即可 if (expect_false (ip >= in_end - 2)) (ip >= in_end - 2) 为假的概率高,所以用expect_false,提高程序效率 break; #if ULTRA_FAST || VERY_FAST 如果是超级快或者非常快,那么向后回退一格 --ip; # if VERY_FAST && !ULTRA_FAST 如果是非常快但不是超级快,再向后回退一格 --ip; # endif 这里目的是记录不同的字符的hash值,跳过就记录的少一点,超级快和非常快只差一格 所以超级快只有一个hash值,回退了一个字符 hval = FRST (ip); hval = NEXT (hval, ip); htab[IDX (hval)] = ip - LZF_HSLOT_BIAS; ip++; 加一个回去 # if VERY_FAST && !ULTRA_FAST 但是非常快回退了两个字符,需要再记录一个hash值 hval = NEXT (hval, ip); htab[IDX (hval)] = ip - LZF_HSLOT_BIAS; ip++; 再加一个回去,指向原先压缩之后的第一个字符 # endif #else 平常情况,需要把这一路上的hash值全部记录下来,这样能压缩的会更多 ip -= len + 1; do { hval = NEXT (hval, ip); htab[IDX (hval)] = ip - LZF_HSLOT_BIAS; ip++; } while (len--); #endif } else { /* one more literal byte we must copy */ 我们必须再复制一个文本字节,输出第一个字节是用来表示原文标志的000LLLLL if (expect_false (op >= out_end)) 当超出输出结尾长度时,退出, (大部分情况下是假的) return 0; lit++; *op++ = *ip++; 刚开始的时候,肯定没有相等的,所以lit(原字节)加1, 输出采用原来字节 if (expect_false (lit == MAX_LIT)) 如果原字节的长度已经超过定义的最大长度32,那么结束这段序列,开始下一段 { op [- lit - 1] = lit - 1; /* stop run */ 负指针,向后回退lit个字节,-1是当前位置,再向前回退lit个字节,然后在这个位置写上长度值 lit = 0; op++; /* start run */开始新的一段 } } } 此处最多可缺少3个字节没有被处理,否则压缩结果长度超出太多,表示输出的缓存不够大 if (op + 3 > out_end) /* at most 3 bytes can be missing here */ return 0; while (ip < in_end) { lit++; *op++ = *ip++; 挨个往后赋值,从ip赋值给op,lit计数 if (expect_false (lit == MAX_LIT)) 如果到最大计数,那么重新再来 { op [- lit - 1] = lit - 1; /* stop run */ lit = 0; op++; /* start run */ } } op [- lit - 1] = lit - 1; /* end run */ 结束最后的非压缩段 op -= !lit; /* undo run if length is zero */ 长度为0就撤销 return op - (u8 *)out_data; 返回最后压缩的长度 } ********************************************************************************************************************* 花了3天的时间熟悉这个lzf算法,因为给出的网页(http://liblzf.plan9.de/)不能访问,所以主要根据代码debug来验证所想 前面的部分程序说明是过时或有笔误的,特别是对压缩格式的说明,先重新说明如下: LZF压缩格式分为三种: 1原文表示 前面的000表示压缩格式,000是指原文,LLLLL表示原文的长度,这里默认需要加1 000LLLLL <L+1> ; literal, L+1=1..33 octets 不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误 2短序列重复 这种格式是对于短序列的重复,为什么要设置这种格式,因为实际中短序列重复是比较多的, 如果也和长序列重复一样采用三个字节代价太高,所以这里采用了两个字节的压缩方式。 前面的三位LLL表示长度,后面是原字节的偏移量,就是当前位置和原字符串所在的位置的差值 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 这里4096也估计也不对,应该为8192, 对于一个字符的重复不压缩,又因为LLL不能为0,原文格式已经占用,也不能为111,因为111是长序列格式, 所以取值为1到6,加上2 ,也就是从3到8 这里需要说明 :因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度, 所以压缩的长度至少从3开始 3长序列重复(超过8个字节重复) 111是长序列压缩的格式,后面5位和下下个字节一起组成偏移量,长度的则在下一个字节 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 压缩格式, 长序列重复, 这里也是8192, 这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 264字节 整体的核心算法如下: 根据输入的数据,按每3个字节进行对比,如果后续的3个字节和前面的3个字节出现重复(3个字节是最短的有利于压缩的长度), 那么就可以继续对比第4个字节,依次往下,直到不等为止。 这部分数据就可以用前面的数据来表示(需要记录从哪里开始,长度是多少,这两个关键要素), 对于不重复的数据,那么需要将其原本记录下来,供后面输入的数据进行对比使用。 那么如何判别是否出现过重复的数据: 这里使用了一个3字节的hash映射,如果出现同样的三字节,那么映射值也必相等, 就可以从这个HASH映射中获取前面出现过的数据进行记录。 当然这里hash映射值会进行动态的调整,总是最近的一个引用值。 这个保证了引用的总是举例自己最近的重复数据 具体说明见源码解释。 ********************************************************************************************************************* ********************lzf.h************************************************************************************************* #include "lzfP.h" #if AVOID_ERRNO # define SET_ERRNO(n) #else # include <errno.h> # define SET_ERRNO(n) errno = (n) #endif #if USE_REP_MOVSB /* small win on amd, big loss on intel */ #if (__i386 || __amd64) && __GNUC__ >= 3 # define lzf_movsb(dst, src, len) \ asm ("rep movsb" \ : "=D" (dst), "=S" (src), "=c" (len) \ : "0" (dst), "1" (src), "2" (len)); #endif #endif #if defined(__GNUC__) && __GNUC__ >= 5 #pragma GCC diagnostic push #pragma GCC diagnostic ignored "-Wimplicit-fallthrough" #endif unsigned int lzf_decompress (const void *const in_data, unsigned int in_len, void *out_data, unsigned int out_len) { u8 const *ip = (const u8 *)in_data; 输入数据开始位置 u8 *op = (u8 *)out_data; 输出数据开始位置 u8 const *const in_end = ip + in_len; 输入数据结束位置 u8 *const out_end = op + out_len; 输出缓冲区结束位置 do { unsigned int ctrl = *ip++; 获取标志位 if (ctrl < (1 << 5)) /* literal run */ 原文表示,因为值小于2^5,所以是原文表示 { ctrl++; 长度加1 if (op + ctrl > out_end) 是否超过缓冲区 { SET_ERRNO (E2BIG); 提示错误 return 0; } #if CHECK_INPUT if (ip + ctrl > in_end) 如果当前位置加上将要解压的长度超过 输入的缓冲区,说明出错 { SET_ERRNO (EINVAL); return 0; } #endif #ifdef lzf_movsb 如果定义了更快的拷贝方法,就使用更快的方法 lzf_movsb (op, ip, ctrl); #else switch (ctrl) 挨个拷贝原文字符串 { case 32: *op++ = *ip++; case 31: *op++ = *ip++; case 30: *op++ = *ip++; case 29: *op++ = *ip++; case 28: *op++ = *ip++; case 27: *op++ = *ip++; case 26: *op++ = *ip++; case 25: *op++ = *ip++; case 24: *op++ = *ip++; case 23: *op++ = *ip++; case 22: *op++ = *ip++; case 21: *op++ = *ip++; case 20: *op++ = *ip++; case 19: *op++ = *ip++; case 18: *op++ = *ip++; case 17: *op++ = *ip++; case 16: *op++ = *ip++; case 15: *op++ = *ip++; case 14: *op++ = *ip++; case 13: *op++ = *ip++; case 12: *op++ = *ip++; case 11: *op++ = *ip++; case 10: *op++ = *ip++; case 9: *op++ = *ip++; case 8: *op++ = *ip++; case 7: *op++ = *ip++; case 6: *op++ = *ip++; case 5: *op++ = *ip++; case 4: *op++ = *ip++; case 3: *op++ = *ip++; case 2: *op++ = *ip++; case 1: *op++ = *ip++; } #endif } else /* back reference */ 非原文字符,需要根据偏移量和长度来拷贝 { unsigned int len = ctrl >> 5; 首先获取长度或者控制字符 u8 *ref = op - ((ctrl & 0x1f) << 8) - 1; 偏移量的高5位 再减去1,进行回退(真正的偏移量还差低字节) #if CHECK_INPUT if (ip >= in_end) 如果已经到或者超过结束了,那么解压出错 { SET_ERRNO (EINVAL); return 0; } #endif if (len == 7) 如果是长序列压缩 7就是111就是长序列 { len += *ip++; 下一个字节就是长度 #if CHECK_INPUT if (ip >= in_end) { SET_ERRNO (EINVAL); return 0; } #endif } ref -= *ip++; 低字节的偏移量也要回退 if (op + len + 2 > out_end) 当前位置加解压长度加2超过 输出缓冲区结尾,解压出错 { SET_ERRNO (E2BIG); return 0; } if (ref < (u8 *)out_data) 如果引用值小于原字符序列开始值,解压也出错 { SET_ERRNO (EINVAL); return 0; } #ifdef lzf_movsb len += 2; 长度值需要加2 lzf_movsb (op, ref, len); #else switch (len) { default: len += 2; if (op >= ref + len) 如果当前操作符所在位置大于 引用值 + 当前解压长度 所在位置, 那么表示前面重复的数据已经全部解压出来,否则就有重叠的数据还没有解压出来,需要挨个解压 { /* disjunct areas */ 分开区域 即 不重合区域 memcpy (op, ref, len); 直接拷贝即可 op += len; } else { 重合区域,一个字节一个字节的拷贝,就是压缩的时候引用了自身,例如 a123123123123abc,这里123123123就会被自身引用,导致数据 /* overlapping, use octte by octte copying */ do *op++ = *ref++; while (--len); } break; case 9: *op++ = *ref++; /* fall-thru */ 依次 下降拷贝 case 8: *op++ = *ref++; /* fall-thru */ case 7: *op++ = *ref++; /* fall-thru */ case 6: *op++ = *ref++; /* fall-thru */ case 5: *op++ = *ref++; /* fall-thru */ case 4: *op++ = *ref++; /* fall-thru */ case 3: *op++ = *ref++; /* fall-thru */ case 2: *op++ = *ref++; /* fall-thru */ case 1: *op++ = *ref++; /* fall-thru */ case 0: *op++ = *ref++; /* two octets more */ 这里的两个字节就是加2的效果 *op++ = *ref++; /* fall-thru */ } #endif } } while (ip < in_end); return op - (u8 *)out_data; } #if defined(__GNUC__) && __GNUC__ >= 5 #pragma GCC diagnostic pop #endif *********************************************************************************************************************
标签:case,redis6.0,--,ip,len,++,op,ref,lzf 来源: https://www.cnblogs.com/cquccy/p/15002931.html