其他分享
首页 > 其他分享> > 局部敏感哈希-Nilsimsa

局部敏感哈希-Nilsimsa

作者:互联网

Nilsimsa的主要流程是:

  1. 针对文本字节序列,设定5字节窗口,向右滑动,一次一个字节;
  2. 在每一个5字节窗口,能生成N个三元组,例如:字符串“igram”,可以生成“igr”,“iga”,“igm”,“iga”,“igm”,“gra”,“grm”,“gam”,“ram”;
  3. 每一个三元组通过一个哈希函数计算一个结果,这个结果在区间(0,256),此时在下面生成一个256位的存储序列,对应着(0,256),例如,如果“igr”计算成15,那么在15的位置+1;
  4. 计算整个文本内容,存储序列的每个位置都有一个累加值;
  5. 通过计算存储序列累加值的平均值得到一个阈值,存储序列的每一位元素与该阈值进行比较,如果大于该阈值则是1,否则是0
  6. 最后新的256位值通过上述计算获得,该256位序列可以用来刻画该文本

标签:存储,字节,阈值,敏感,计算,哈希,序列,256,Nilsimsa
来源: https://www.cnblogs.com/bonne-chance/p/16510506.html