其他分享
首页 > 其他分享> > 认识爬虫

认识爬虫

作者:互联网

认识爬虫

1.浏览网页基本流程

模拟浏览器发送请求,获得相应数据
79f7cd1c86b57853e61cc67c66efd6f9.png
网络爬虫:自动在网页下载所要信息的脚本

通用网络爬虫

1.该类适合搜索广泛主题
2.深度优先:按照深度由底到高,依次访问下一级,直到无法访问。
3.广度优先: 按照网页内容目录的深浅,由浅层到深的爬取。当同一层爬行完毕后才进入下一次。


聚焦网络爬虫

1.基于内容评价的爬行:以输入的查询词为主题,包含该查询词页面视为与主题相关页面
2.基于链接结构评价的爬行: 较为广泛的
3.基于增强学习的爬行: 利用结构特征来评价页面和链接的重要性
4.基于语境图的爬行: 通过建立语境图学习网页之间的相关度的爬行策略

增量式网络爬虫(对数据更新)

对已下载网页采取增量式更新,只爬取新产生以及发生变化的网页
1.统一更新法: 以相同的频率访问所有网页,不受网页频率改变的影响
2.个体更新法: 根据个体网页的改变重新决定频率
3。基于分类的更新法: 根据网页更新的快慢来设定不同的频率来访问

注意爬虫的合法性

1.个人隐私数据:如姓名,手机号等不能爬取
2.明确禁止他人访问的数据:设置了用户密码加密的不能商业用途/或爬取

robots协议

网络爬虫的道德限制协议
robots.txt样例

User-ahent:*   
Disallow:/
Allow:/public/ 

User-ahent:搜索爬虫的名称
Disallow:指定了不允许爬取的目录
Allow:Disallow 和用用来排除限制
robots.txt不可爬取的样例

User-agent:*
Disallow:/

robots.txt可爬取的样例

User-agent:*
Disallow:

认识反爬虫

1.通过User-Agent进行筛选用户反爬
爬虫应对: 伪装USER-Agent
2.通过访问频率反爬
爬虫应对: 测试网站频率阀值,设置访问频率略低于阀值
3.通过验证码反爬
爬虫应对: 使用IP代理更换爬虫IP,通过算法识别验证码,使用cookle绕过依照验证码
4.通过改变网络结构反爬
爬虫应对: 使用脚本进行监测,在发现变换时发出警告并停止爬取
5.通过账号权限反爬
爬虫应对: 通过代理IP规避监测

python爬虫所需库

ec81e865ebcbea3a71dc9033abe96529.png

标签:网页,认识,反爬,爬行,爬虫,Disallow,User
来源: https://www.cnblogs.com/tyh1999/p/14062270.html