面试题之爬虫
作者:互联网
爬虫url去重方法
- 将访问过的url保存到数据库中,然后爬取前查询校验(效率很低)
- 用python中的set去重,比如100000000个URL需要内存100000000*2byte*50/1024/1024/1024=9G(很占内存)
- URL经过MD5之后保存到set,一般一个MD5占128位=16byte*100000000=1G多(scrapy的方法类似,scrapy是用过sha1)
- 用bitmap方法,将访问过的URL通过hash函数映射到某一位
- bloomfilter方法对bitmap进行改进,多重hash函数降低冲突(URL数据很大时候用)
封锁ip之后怎么处理
爬取过程中的人机验证
Tesseract的工作原理是什么,你是怎么训练你的Tesseract?
标签:1024,面试题,set,URL,爬虫,bitmap,100000000,Tesseract 来源: https://www.cnblogs.com/ycg-blog/p/12660931.html