首页 > 其他分享> > 爬虫遇到的坑�

爬虫遇到的坑�

2020-01-26 18:52:36 作者：互联网

爬取猫眼电影排行，无法正常显示中文，出现乱码

response.text响应总是乱码　
- 找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？ - 知乎

　　　　　发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码，

import requests
url='https://www.baidu.com/'
html=requests.get(url).text.encode('iso-8859-1').decode('utf-8') 
print(html)

　　　　　可以解决乱码问题。但是：不能指定headers，否则还是会出现乱码

- - 爬取猫眼电影时必须指定headers，否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
- 发现：
  - 爬虫时：有时出现乱码，有时正常显示中文。
  - 不使用爬虫，人工复制链接打开网站时时：（与爬虫时的两种情况对应，也出现两种情况）先弹出验证界面之后才显示猫眼电影网站；直接显示猫眼电影排行网站
- 最终解决方法：出现乱码时，人工复制链接打开网站，此时出现了验证界面，完成验证界面，此时显示出了要爬取的网站。之后，运行.py文件，不再出现乱码。
- 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性，以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确，但却不能正常匹配

标签：遇到,电影,爬虫,乱码,报错,出现,猫眼
来源： https://www.cnblogs.com/fran-py-/p/12234588.html