爬虫爬取京东商品评论(第一页)
作者:互联网
知识点:网页分析,使用JSON提取页面内容。
网页分析
打开京东,并搜索进入需要爬取评论的页面。
通过源代码可以发现数据在JSON之中。
Response字典部分即为JSON格式。
删除fetchJSON_comment98(),通过json.cn解析。
所以需要爬取的内容,直接从JSON里面提取即可。
代码实现(爬取第一页)
import requests
url = 'https://club.jd.com/comment/productPageComments.action?callback=&productId=100010565952&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&rid=0&fold=1'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
response = requests.get(url, headers=headers)
# 将json转换为字典
js_data = response.json()
# 获取评论所在地方
content_list = js_data['comments']
# 提取需要的ID及评论
for content in content_list:
id = content.get('id')
content = content.get('content')
print(id)
print(content)
结果如下:
标签:content,get,json,爬虫,爬取,headers,JSON,第一页 来源: https://blog.csdn.net/weixin_45228758/article/details/110941879