其他分享
首页 > 其他分享> > 爬虫爬取京东商品评论(第一页)

爬虫爬取京东商品评论(第一页)

作者:互联网

知识点:网页分析,使用JSON提取页面内容。

网页分析

打开京东,并搜索进入需要爬取评论的页面。

通过源代码可以发现数据在JSON之中。

image-20201209214439994

Response字典部分即为JSON格式。

image-20201209214544117

删除fetchJSON_comment98(),通过json.cn解析。

image-20201209215029599

所以需要爬取的内容,直接从JSON里面提取即可。

代码实现(爬取第一页)

import requests

url = 'https://club.jd.com/comment/productPageComments.action?callback=&productId=100010565952&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&rid=0&fold=1'

headers = {
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

response = requests.get(url, headers=headers)

# 将json转换为字典
js_data = response.json()

# 获取评论所在地方
content_list = js_data['comments']

# 提取需要的ID及评论
for content in content_list:
	id = content.get('id')
	content = content.get('content')
	print(id)
	print(content)

结果如下:

image-20201209215441655

标签:content,get,json,爬虫,爬取,headers,JSON,第一页
来源: https://blog.csdn.net/weixin_45228758/article/details/110941879