2022新版闲鱼爬虫系列文章3(附源码持续更新)
作者:互联网
说明
文章首发于HURUWO的博客小站,本平台做同步备份发布。
如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论回复。
原文链接 2022新版闲鱼爬虫系列文章1(附源码持续更新)直接点击即可前往访问。
更多技术文章访问本人博客HuRuWo的技术小站,包括Android 逆向 app,闲鱼爬虫 微信爬虫 抖音爬虫 群控 等相关知识
也可关注公众号 ‘wan_coder’ 第一时间收到文章更新
文章目录
前言
这篇文章我们先来解决数据保存和转发的问题
也就是关于数据流向服务端的功能。
源代码
想直接体验效果的可以前往源代码
https://github.com/HuRuWo/PickUpTrash
直接开启体验
charles的数据包处理
很遗憾 charles没有强大的脚本脚本功能。对应数据包有两个处理方式
在工具栏里面 有一些关于数据包的处理方式。
文档地址:
https://www.charlesproxy.com/documentation/tools/
Map
map 就是映射的工具
有两个
一个映射到一个地址 Map Remote Tool
一个映射到本地
Map Local Tool
显然映射并不是我们想要的功能,它通常用来做测试数据模拟。
Rewrite
数据包或者请求的拦截和修改
也只能修改了,但不能把数据拉下来保存。
显然也不是想要的功能。
Auto Save
数据包的自动保存功能:
自动定时保存数据,这就达到了我们想要采集数据的目的了。
只要分析保存的文件即可。
设置自动保存
1.tools->auto save
2.设置保存类型和位置和间隔
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B7MhGSMJ-1615283491366)(https://www.huruwo.top/wp-content/uploads/2021/03/Image-5-300x180.png)]
3.立即生效
可以看到目录下保存好了一个很大的json
分析可以知道 想要的数据结果全在里面。
"body": {
"text": "{\"api\":\"mtop.taobao.paramservice.request\",\"data\":{\"expires_in\":\"0\",\"result\":[\"idlefish_feeds_root_trigger_rt2_algo_2369986499:ok\"]},\"ret\":[\"SUCCESS::调用成功\"],\"v\":\"1.0\"}",
"charset": "UTF-8"
}
读取和处理解析数据文件
简单的写一个python脚本
1.以load的方式读取
2.开启轮询 发现新文件立即载入
3.解析存入sql
4.删掉文件 避免占用过多的磁盘空间
我只做一个简单的示例
代码细节就参考源码即可:
读取文件
def read_file():
file_list = get_file_dir_list('data_save')
for file in file_list:
f = open(file, 'r', encoding='utf-8')
js_data = f.read()
response_list = json_data_load(js_data)
filter_response(response_list)
# 这里你可以选择删除文件 也可以留着
f.close()
os.remove(file)
def get_file_dir_list(file_dir):
file_list = []
for root, dirs, files in os.walk(file_dir):
for file in files:
if os.path.splitext(file)[1] == '.chlsj':
file_list.append(os.path.join(root, file))
return file_list
解析字段
过滤你自己想要的数据包就行
def json_data_load(js_data):
tao_response_list = []
try:
json_data = json.loads(js_data)
for data in json_data:
# 过滤 请求 只留下搜索结果这一栏的数据
# 搜索结果页面
if data['host'] == 'acs.m.taobao.com' and 'mtop.taobao.idle.search.glue' in data['path']:
response = data['response']['body']['text']
tao_response_list.append(response)
# 详情页面
# elif data['host'] == 'acs.m.taobao.com' and 'mtop.taobao.idle.awesome.detail' in data['path'] :
# response = data['response']['body']['text']
# tao_response_list.append(response)
return tao_response_list
except Exception as e:
e.__traceback__
return tao_response_list
我这里随便过滤了一下
寻找想要的单子
def filter_response(response_list):
"""
找出目标的 结果 发出通知
:param response_list:
:return:
"""
for response in response_list:
json_response = json.loads(response)
resultList = json_response['data']['resultList']
for result in resultList:
## 这里就是自己过滤想要触发提醒的条件了
# 比如包邮可以了
args = result['data']['item']['main']['clickParam']['args']
tagname = args.get('tagname')
if tagname and '包邮' in tagname:
robot_tools.send_to_qywx(tagname,'[]')
这里条件过滤一下即可
比如你想要 本地的 价格低于100块的手机 就可以这样设置。
args = result['data']['item']['main']['clickParam']['args']
里面包含了所有你要的字段。
标签:file,闲鱼,list,爬虫,json,源码,2022,data,response 来源: https://blog.csdn.net/lw_zhaoritian/article/details/114592363