编程语言
首页 > 编程语言> > Python | 其实爬虫也有套路(附赠书获奖名单)

Python | 其实爬虫也有套路(附赠书获奖名单)

作者:互联网

Python | 其实爬虫也有套路(附赠书获奖名单)

写在前面

咸鱼的第二次自费赠书活动已经完美落幕,谢谢大家的支持。
本次获奖的幸运儿是:

Python | 其实爬虫也有套路(附赠书获奖名单)

请以上三位朋友在72小时内联系我选书,逾期没有联系我的,就只好送给其他小伙伴了。

赞赏送书活动也完美落幕了,感谢28位小伙伴的打赏,希望你们能喜欢咸鱼送出的铁粉福利。下次送书,你懂得~

Python | 其实爬虫也有套路(附赠书获奖名单)

赞赏送书截图

通用爬虫套路

在刚刚接触Python爬虫的时候常常会有无从下手的感觉,于是咸鱼整理了简单爬虫的通用套路,没有思路的时候看一下吧。
准备url

1 . 准备start url

2 . 准备url list

  1. 添加随机user-agent,反反爬虫

  2. 添加随机代理ip,反反爬虫

  3. 在对方判断我们是爬虫之后应该添加更多的headers字段,包含cookie

  4. cookie的处理可以使用session来解决

  5. 准备一堆能用的cookie,组成cookie池。

  6. 如果不登录

    • 准备刚刚开始能够成功请求的cookie,即接收对方网站设置在response的cookie

提取数据

1 . 确定数据的位置

2 . 数据的提取

保存数据

推荐阅读

Python | 关于Requests与Json的使用小结

标签:提取,Python,爬虫,url,地址,cookie,赠书,数据
来源: https://blog.51cto.com/15072780/2581430