爬虫url去重策略&&字符串编码
作者:互联网
爬虫url去重策略:
- 将访问过的url保存到数据库中;
- 将访问过得url保存到set中,只需要o(1)的代价就可以查询url
- url 经过md5的编码等方法哈希后保存到set中(scrapy采用此方法)
- 用bitmap方法,将访问过的url通过hash函数映射到某一位
- Bloomfilter方法对bitmap进行改进,多重hash函数降低冲突;
字符串编码:
- 计算机只能处理数字,文本转化为数字才能处理。计算机中8个bit作为一个字节,所以一共字节能表示最大数字为255
- Ascll(一个字节)美国人的标准编码;
- GB2312编码,两个字节表示一个汉字;
- Unicode出现将所有语言统一到一套编码里;
- 乱码问题解决,全是英文,uniconde编码比Ascll需要多一倍存储空间;
- 可变长的编码“utf-8”;把英文变成一个字节,汉字3个字节。传输大量的英文,utf-8作用很明显;
- Utf-8和unicode的区别;
Unicode 是「字符集」 UTF-8 是「编码规则」 其中: 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point) 编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)
标签:编码,set,字节,url,爬虫,bitmap,&&,Ascll 来源: https://blog.csdn.net/qq_42633222/article/details/90170884