认识爬虫

2020-11-30 17:04:08 作者：互联网

认识爬虫

1.浏览网页基本流程

模拟浏览器发送请求，获得相应数据

网络爬虫：自动在网页下载所要信息的脚本

通用网络爬虫

1.该类适合搜索广泛主题
2.深度优先：按照深度由底到高，依次访问下一级，直到无法访问。
3.广度优先： 按照网页内容目录的深浅，由浅层到深的爬取。当同一层爬行完毕后才进入下一次。

聚焦网络爬虫

1.基于内容评价的爬行：以输入的查询词为主题，包含该查询词页面视为与主题相关页面
2.基于链接结构评价的爬行： 较为广泛的
3.基于增强学习的爬行： 利用结构特征来评价页面和链接的重要性
4.基于语境图的爬行： 通过建立语境图学习网页之间的相关度的爬行策略

增量式网络爬虫（对数据更新）

对已下载网页采取增量式更新，只爬取新产生以及发生变化的网页
1.统一更新法： 以相同的频率访问所有网页，不受网页频率改变的影响
2.个体更新法： 根据个体网页的改变重新决定频率
3。基于分类的更新法： 根据网页更新的快慢来设定不同的频率来访问

注意爬虫的合法性

1.个人隐私数据：如姓名，手机号等不能爬取
2.明确禁止他人访问的数据：设置了用户密码加密的不能商业用途/或爬取

robots协议

网络爬虫的道德限制协议
robots.txt样例

User-ahent：*   
Disallow：/
Allow：/public/

User-ahent：搜索爬虫的名称
Disallow：指定了不允许爬取的目录
Allow： 和 Disallow 和用用来排除限制
robots.txt不可爬取的样例

User-agent:*
Disallow:/

robots.txt可爬取的样例

User-agent：*
Disallow：

认识反爬虫

1.通过User-Agent进行筛选用户反爬
爬虫应对： 伪装USER-Agent
2.通过访问频率反爬
爬虫应对： 测试网站频率阀值，设置访问频率略低于阀值
3.通过验证码反爬
爬虫应对： 使用IP代理更换爬虫IP，通过算法识别验证码，使用cookle绕过依照验证码
4.通过改变网络结构反爬
爬虫应对： 使用脚本进行监测，在发现变换时发出警告并停止爬取
5.通过账号权限反爬
爬虫应对： 通过代理IP规避监测

python爬虫所需库

标签：网页,认识,反爬,爬行,爬虫,Disallow,User
来源： https://www.cnblogs.com/tyh1999/p/14062270.html