首页 > 其他分享> > 爬虫学习笔记 Day 6 + 记录遇到的小问题

爬虫学习笔记 Day 6 + 记录遇到的小问题

2022-01-26 09:33:53 作者：互联网

一、配置对象

（续上昨天的笔记）

from selenium import webdriver

url = 'http://www.baidu.com/'

#创建配置对象
opt = webdriver.ChromeOptions()

#添加配置参数
# opt.add_argument('--headless')
# opt.add_argument('--disable-gpu')
#设置浏览器为无头模式
opt.add_argument('--proxy-server=http://上网找可以使用的代理')
#更换user-agent
opt.add_argument('--user-agent=Mozilla/5.0 python37')

#创建浏览器对象的时候添加配置对象
driver = webdriver.Chrome(options=opt)

driver.get(url)

二、反爬

基于身份识别的反爬

1.headers
User-Agent
referer
cookies

2.请求参数
从html文件中提取
发送请求获取数据
通过js生成
通过验证码

基于数据加密进行反爬

1.请求频率或者总能够请求数量
（1）通过请求ip/账号单位时间内总请求数量进行反爬（解决方法：可以使用多个ip或者账号）
（2）通过请求ip/账号每天请求次数设置阈值…
（3）通过同一个ip/账号请求之间的时间间隔…

2.在爬取步骤上做分析
js实现跳转
trap（蜜罐/陷阱）获取爬虫iip
假数据
任务队列
网络IO

基于数据加密进行反爬

1.对响应中含有的数据进行特殊化处理
自定义字体（在源码中查看）
css
js生成
图片
编码格式

三、验证码

图像识别引擎

步骤：
1.tesseract的安装
安装教程

安装时可能会出现sendrequest error：这个时候一直狂按ok或者关闭，直到安装完成就好

标签：opt,请求,--,反爬,爬虫,笔记,add,result,Day
来源： https://blog.csdn.net/qq_51669241/article/details/122554220

爬虫学习笔记 Day 6 + 记录遇到的小问题

目录

一、配置对象

二、反爬

基于身份识别的反爬

基于数据加密进行反爬

基于数据加密进行反爬

三、验证码

图像识别引擎