【原创】爬虫反爬基础常见类型总结
作者:互联网
1.浏览器伪装
格式:
'User-Agent':'自己抓包'
2.访问地址伪装
格式:
'reffer':'自己抓包'
3.ip地址伪装
格式:
免费版: proxies={'https':'ip:port'}
收费版: proxies={'https':'http:user:password@ip:port'}
4.伪装访问速率
格式:
import time,random headers={xxx} for i in range(10): response = xxx #模拟请求url time.sleep(random.uniform(1.1,5.4)) #重点时间随机
5.伪装用户真实信息
格式:
cookies='自己抓包'
cookies升级:js、js混淆,已经超出普通人能力
6.字体反爬
常见某点评网,只能靠js,同cookies一样困难
7.Selenium防检测
这个需要加类似插件参数
8.网页禁止调试
F12不起作用,或者调试警告弹窗,这种直接不让你看数据
9.Ajax异步加载
selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口
10.其他反爬
动态验证码,封ip,封账号等
标签:总结,cookies,反爬,爬虫,js,ip,伪装,格式 来源: https://www.cnblogs.com/hightech/p/14776349.html