认识爬虫
作者:互联网
认识爬虫
1.浏览网页基本流程
模拟浏览器发送请求,获得相应数据
网络爬虫:自动在网页下载所要信息的脚本
通用网络爬虫
1.该类适合搜索广泛主题
2.深度优先:按照深度由底到高,依次访问下一级,直到无法访问。
3.广度优先: 按照网页内容目录的深浅,由浅层到深的爬取。当同一层爬行完毕后才进入下一次。
聚焦网络爬虫
1.基于内容评价的爬行:以输入的查询词为主题,包含该查询词页面视为与主题相关页面
2.基于链接结构评价的爬行: 较为广泛的
3.基于增强学习的爬行: 利用结构特征来评价页面和链接的重要性
4.基于语境图的爬行: 通过建立语境图学习网页之间的相关度的爬行策略
增量式网络爬虫(对数据更新)
对已下载网页采取增量式更新,只爬取新产生以及发生变化的网页
1.统一更新法: 以相同的频率访问所有网页,不受网页频率改变的影响
2.个体更新法: 根据个体网页的改变重新决定频率
3。基于分类的更新法: 根据网页更新的快慢来设定不同的频率来访问
注意爬虫的合法性
1.个人隐私数据:如姓名,手机号等不能爬取
2.明确禁止他人访问的数据:设置了用户密码加密的不能商业用途/或爬取
robots协议
网络爬虫的道德限制协议
robots.txt样例
User-ahent:*
Disallow:/
Allow:/public/
User-ahent:搜索爬虫的名称
Disallow:指定了不允许爬取的目录
Allow: 和 Disallow 和用用来排除限制
robots.txt不可爬取的样例
User-agent:*
Disallow:/
robots.txt可爬取的样例
User-agent:*
Disallow:
认识反爬虫
1.通过User-Agent进行筛选用户反爬
爬虫应对: 伪装USER-Agent
2.通过访问频率反爬
爬虫应对: 测试网站频率阀值,设置访问频率略低于阀值
3.通过验证码反爬
爬虫应对: 使用IP代理更换爬虫IP,通过算法识别验证码,使用cookle绕过依照验证码
4.通过改变网络结构反爬
爬虫应对: 使用脚本进行监测,在发现变换时发出警告并停止爬取
5.通过账号权限反爬
爬虫应对: 通过代理IP规避监测
python爬虫所需库
标签:网页,认识,反爬,爬行,爬虫,Disallow,User 来源: https://www.cnblogs.com/tyh1999/p/14062270.html