其他分享
首页 > 其他分享> > 01.初探爬虫

01.初探爬虫

作者:互联网

文章目录

初探爬虫

写在前面

好久,没见!你好,我是禅墨

2020是不幸的一年,还好已经过去,现在是2021!这是一个新的教程系列,就叫做爬虫与局子吧,哈哈哈!更新周期呢,得看心情,毕竟现在也是在复习!

去年做了一个Python进阶系列,只发了第一阶段的学习文章,其实后面的几个阶段,也早就已经写好,只是由于种种原因没有来的及发,呃~~,好吧种种原因就是“懒”!后续我会依次上传的,

先来思考以下几个问题

1.你是否在夜深人静的时候,想看一些会让你更加睡不着的图片…

2.你是否在考试或者面试前夕,想看一些具有针对性的题目…

3.你是否想在杂乱的网络世界中获取你想要的数据…

什么是爬虫

通过编写程序,模拟浏览器上网,然后就让其去互联网上抓取数据的过程。
重点:模拟浏览器 抓取(整体与局部)

爬虫的价值

–懂得都懂

爬虫合法性探究

爬虫在使用场景中分类

1.通用爬虫:
抓取系统重要组成部分。抓取的是译者肮脏页面数据‘
2.聚焦爬虫:
是建立在通用爬虫基础上,住区页面中特定的局部内容
3.增量式爬虫
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

反爬机制

门户网站,可以通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取

反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬虫机制,从而可以获取门户网站的数据

robots.txt君子协议

规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取。

标签:01,网站,门户网站,抓取,爬虫,初探,数据
来源: https://blog.csdn.net/qq_44090770/article/details/113091717