首页 > 其他分享> > 爬虫url去重策略&&字符串编码

爬虫url去重策略&&字符串编码

2019-05-13 12:50:22 作者：互联网

爬虫url去重策略：

字符串编码：

计算机只能处理数字，文本转化为数字才能处理。计算机中8个bit作为一个字节，所以一共字节能表示最大数字为255
Ascll（一个字节）美国人的标准编码；
GB2312编码，两个字节表示一个汉字；
Unicode出现将所有语言统一到一套编码里；
乱码问题解决，全是英文，uniconde编码比Ascll需要多一倍存储空间；
可变长的编码“utf-8”；把英文变成一个字节，汉字3个字节。传输大量的英文，utf-8作用很明显；
Utf-8和unicode的区别；
Unicode 是「字符集」 UTF-8 是「编码规则」其中：字符集：为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）编码规则：将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）

标签：编码,set,字节,url,爬虫,bitmap,&&,Ascll
来源： https://blog.csdn.net/qq_42633222/article/details/90170884