其他分享
首页 > 其他分享> > 爬虫简介

爬虫简介

作者:互联网

什么是爬虫

通过编写程序,模拟游览器上网,然后去互联网上抓取数据的过程

爬虫在使用场景的分类

反爬机制与反反爬策略

门户网站,可以通过制定相关的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取数据。

robot.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬虫爬取。(主观遵从)
http://www.7k7k.com/robots.txt

User-agent: *
Disallow: /doyo/
Disallow: /doyoweb/
Disallow: /yy/
Disallow: /data/
Disallow: /widget/
Disallow: /api/
Disallow: /classic
Disallow: /classic/
Disallow: /classic/tag/
Disallow: /classic/swf/
Disallow: /classic/flash_fl/
Disallow: /classic/top/
Disallow: /classic/flash/
Disallow: /classic/index.htm
Disallow: /new/
Disallow: /m-iphone/art/
Disallow: /m-ipad/art/
Disallow: /m-android/art/

标签:art,classic,简介,抓取,爬虫,Disallow,数据
来源: https://www.cnblogs.com/sjj123/p/15067346.html