首页 > 编程语言> > Python | 其实爬虫也有套路(附赠书获奖名单)

Python | 其实爬虫也有套路(附赠书获奖名单)

2021-01-03 21:55:51 作者：互联网

写在前面

咸鱼的第二次自费赠书活动已经完美落幕，谢谢大家的支持。
本次获奖的幸运儿是：

Python | 其实爬虫也有套路(附赠书获奖名单)

请以上三位朋友在72小时内联系我选书，逾期没有联系我的，就只好送给其他小伙伴了。

赞赏送书活动也完美落幕了，感谢28位小伙伴的打赏，希望你们能喜欢咸鱼送出的铁粉福利。下次送书，你懂得~

Python | 其实爬虫也有套路(附赠书获奖名单)

赞赏送书截图

在刚刚接触Python爬虫的时候常常会有无从下手的感觉，于是咸鱼整理了简单爬虫的通用套路，没有思路的时候看一下吧。
准备url

1 . 准备start url

2 . 准备url list

提取数据

1 . 确定数据的位置

如果数据在当前的url地址中
提取的是列表页中的数据
- 直接请求列表页的url地址，不用进入详情页
提取详情页的数据
- 1.确定url
- 2.发送请求
- 3.提取数据
- 4.返回
如果数据不在当前的url地址中
在其他响应中，寻找数据的位置
- 在network中从上而下找
- 使用chrome中的过滤条件，选择除了js，css, image之外的按钮
- 使用chrome的serach all file，搜索数字和英文

2 . 数据的提取

保存数据