常见的反扒机制及解决办法
作者:互联网
常见的反扒机制及解决办法
总结了工作中遇到的反爬机制及解决办法或思路,便于日后用到
1、User-Agent,客户端版本信息
2、request, Method方式不同,常见GET、POST
+ post,有下面这种色儿的:
formData = {
'__EVENTVALIDATION': eventAliation,
'__VIEWSTATE': viewState,
'__EVENTTARGET': eventTaget,
# 'pageIndex': int(pageIndex) + 1,
}
3、cookie限制
4、访问频率,延时访问
5、IP,IP代理
6、在html中动手脚,jquery
+ 加一些无意义的字符
+ 使用lxml解, 正则过滤 或 其他筛选方法
+ 源码查看目标信息,根据实际规则 过滤出 自己的目标信息
+
7、Ajax动态加载 具体信息在json 中
+ 直接json.loads(html.text) 加载、解析,简单
8、美团系,数字、文字woff字体加密
+ 找到目标woff文件,加载出字体库的内容,用QQ截图、识图,识别文字
+ 加载 `from fontTools.ttLib import TTFont`,构造字典,
+ 在获取网页内容后,理解替换掉加密部分,
+ 再xpath解析 或 其他方式解析
+
+ 听说有每个子页面都是使用新的woff字体库,这种比较变态的反爬,还未遇到,遇到的时候再说。。。。
++
遇到反爬,但未解决的记录
1、大众点评获取店铺联系电话,需要登录,session 被封,无法请求到目标网页,这个是不是只有多账号才能解决?
2、58 查询企业招聘信息,使用代理IP无法请求到内容,,,,这个或许是代理IP池不够大,后续优化一下再看看
3、58 手势验证码。。。这个是因为没时间搞,,,后面看看什么情况。。。。
4、滑块破解,一般有背景图片和缺口图片做对比
+ 但是 58 的就只有带缺口的图片,这就给定位缺口位置带来了麻烦,之前都是使用像素对比,现在咋弄???
ds
5、搜狗平台验证码图片无法使用ocr解析??是不是图片太小了???待学习中,,,,,
sad
有名的反爬机制,还没遇到的记录
蜜罐技术
巴啦啦小魔仙变身 发布了85 篇原创文章 · 获赞 27 · 访问量 16万+ 私信 关注标签:__,解决办法,58,IP,woff,常见,反扒,解析,加载 来源: https://blog.csdn.net/qq_22038327/article/details/104003158