局部敏感哈希-Nilsimsa
作者:互联网
Nilsimsa的主要流程是:
- 针对文本字节序列,设定5字节窗口,向右滑动,一次一个字节;
- 在每一个5字节窗口,能生成N个三元组,例如:字符串“igram”,可以生成“igr”,“iga”,“igm”,“iga”,“igm”,“gra”,“grm”,“gam”,“ram”;
- 每一个三元组通过一个哈希函数计算一个结果,这个结果在区间(0,256),此时在下面生成一个256位的存储序列,对应着(0,256),例如,如果“igr”计算成15,那么在15的位置+1;
- 计算整个文本内容,存储序列的每个位置都有一个累加值;
- 通过计算存储序列累加值的平均值得到一个阈值,存储序列的每一位元素与该阈值进行比较,如果大于该阈值则是1,否则是0
- 最后新的256位值通过上述计算获得,该256位序列可以用来刻画该文本
标签:存储,字节,阈值,敏感,计算,哈希,序列,256,Nilsimsa 来源: https://www.cnblogs.com/bonne-chance/p/16510506.html