首页 > 其他分享> > 面试题之爬虫

面试题之爬虫

2020-04-08 16:54:00 作者：互联网

爬虫url去重方法

将访问过的url保存到数据库中，然后爬取前查询校验（效率很低）
用python中的set去重，比如100000000个URL需要内存100000000*2byte*50/1024/1024/1024=9G（很占内存）
URL经过MD5之后保存到set，一般一个MD5占128位=16byte*100000000=1G多（scrapy的方法类似，scrapy是用过sha1）
用bitmap方法，将访问过的URL通过hash函数映射到某一位
bloomfilter方法对bitmap进行改进，多重hash函数降低冲突（URL数据很大时候用）

封锁ip之后怎么处理

爬取过程中的人机验证

Tesseract的工作原理是什么，你是怎么训练你的Tesseract？

标签：1024,面试题,set,URL,爬虫,bitmap,100000000,Tesseract
来源： https://www.cnblogs.com/ycg-blog/p/12660931.html