首页 > 编程语言> > python学习笔记带参请求数据

python学习笔记带参请求数据

2020-02-01 11:37:35 作者：互联网

一.带参请求数据
（接上篇）我们准备爬取QQ音乐中周杰伦的歌曲的评论。
在这里插入图片描述
我们可以看到Request URL是很长的一段，那么它的涵义是什么呢？
在Headers的Query String Parameters中我们可以看到，它所有的参数都写在了Request URL：https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?之后

再看pagenum参数，第一次点击加载更多的值为1，第二第三次点击它的值就变成了2和3。

当然，pagenum这个复合英文本身也说明了问题，指的就是页码！也就是说，pagenum=1等于告诉服务器：我要歌曲信息列表第一页的数据，pagenum=2：我要歌曲信息列表第二页的数据。

这样一来，按照之前学的知识，我们写一个循环，每次循环都去更改pagenum的值，这样不就能实现爬取好多好多精彩评论了吗？

import requests
res_comments = requests.get('https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=GB2312&notice=0&platform=yqq.json&needNewCode=0&cid=205360772&reqtype=2&biztype=1&topid=102065756&cmd=6&needmusiccrit=0&pagenum=1&pagesize=15&lasthotcommentid=song_102065756_3202544866_44059185&domain=qq.com&ct=24&cv=10101010')
# 调用get方法，下载评论列表
json_comments = res_comments.json()
# 使用json()方法，将response对象，转为列表/字典
list_comments = json_comments['comment']['commentlist']
# 一层一层地取字典，获取评论列表
for comment in list_comments:
# list_comments是一个列表，comment是它里面的元素
    print(comment['rootcommentcontent'])
    # 输出评论
    print('-----------------------------------')

其实我们可以把Query String Parametres里的内容，直接复制下来，封装为一个字典，传递给params。只是有一点要特别注意：要给他们打引号，让它们变字符串。

import requests
url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
# 请求歌曲评论的url参数前面的部分

for i in range(5):
    params = {
    'g_tk':'5381',
    'loginUin':'0', 
    'hostUin':'0',
    'format':'json',
    'inCharset':'utf8',
    'outCharset':'GB2312',
    'notice':'0',
    'platform':'yqq.json',
    'needNewCode':'0',
    'cid':'205360772',
    'reqtype':'2',
    'biztype':'1',
    'topid':'102065756',
    'cmd':'6',
    'needmusiccrit':'0',
    'pagenum':str(i),
    'pagesize':'15',
    'lasthotcommentid':'song_102065756_3202544866_44059185',
    'domain':'qq.com',
    'ct':'24',
    'cv':'10101010'   
    }
    # 将参数封装为字典
    res_comments = requests.get(url,params=params)
    # 调用get方法，下载这个字典
    json_comments = res_comments.json()
    list_comments = json_comments['comment']['commentlist']
    for comment in list_comments:
        print(comment['rootcommentcontent'])
        print('-----------------------------------')

下面我们再来看翻页：
在这里插入图片描述
在搜索周杰伦的歌曲时，只能看到一页，而想看更多时，官方会请我们下载客户端。如果我们不想下载客户端该怎么办呢？

https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=%E5%91%A8%E6%9D%B0%E4%BC%A6

我们来分析一下网址，看到参数page=1，尝试改为page=2,我们就可以看到跳转到了第二页，再来看Query String Parameters中，参数p代表页数，所以我们可以写一个循环来获取周杰伦的歌曲。
在这里插入图片描述

import requests
url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):
    params = {
    'ct':'24',
    'qqmusic_ver': '1298',
    'new_json':'1',
    'remoteplace':'sizer.yqq.song_next',
    'searchid':'64405487069162918',
    't':'0',
    'aggr':'1',
    'cr':'1',
    'catZhida':'1',
    'lossless':'0',
    'flag_qc':'0',
    'p':str(x+1),
    'n':'20',
    'w':'周杰伦',
    'g_tk':'5381',
    'loginUin':'0',
    'hostUin':'0',
    'format':'json',
    'inCharset':'utf8',
    'outCharset':'utf-8',
    'notice':'0',
    'platform':'yqq.json',
    'needNewCode':'0'    
    }
    # 将参数封装为字典
    res_music = requests.get(url,params=params)
    # 调用get方法，下载这个字典
    json_music = res_music.json()
    # 使用json()方法，将response对象，转为列表/字典
    list_music = json_music['data']['song']['list']
    # 一层一层地取字典，获取歌单列表
    for music in list_music:
    # list_music是一个列表，music是它里面的元素
        print(music['name'])
        # 以name为键，查找歌曲名
        print('所属专辑：'+music['album']['name'])
        # 查找专辑名
        print('播放时长：'+str(music['interval'])+'秒')
        # 查找播放时长
        print('播放链接：https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')
        # 查找播放链接

二.请求头
在这里插入图片描述
request headers(请求头）：它里面会有一些关于该请求的基本信息，比如：这个请求是从什么设备什么浏览器上发出？这个请求是从哪个页面跳转而来？

如上图，user-agent（用户代理）会记录你电脑的信息和浏览器版本

origin（源头）和referer（引用来源）则记录了这个请求，最初的起源是来自哪个页面。它们的区别是referer会比origin携带的信息更多些。

如果我们想告知服务器，我们不是爬虫是一个正常的浏览器，就要去修改user-agent。倘若不修改，那么这里的默认值就会是Python，会被浏览器认出来。

import requests
url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'

headers = {
    'origin':'https://y.qq.com',
    'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    # 标记了请求从什么设备，什么浏览器上发出
    }
# 伪装请求头

params = {
'ct':'24',
'qqmusic_ver': '1298',
'new_json':'1',
'remoteplace':'sizer.yqq.song_next',
'searchid':'64405487069162918',
't':'0',
'aggr':'1',
'cr':'1',
'catZhida':'1',
'lossless':'0',
'flag_qc':'0',
'p':1,
'n':'20',
'w':'周杰伦',
'g_tk':'5381',
'loginUin':'0',
'hostUin':'0',
'format':'json',
'inCharset':'utf8',
'outCharset':'utf-8',
'notice':'0',
'platform':'yqq.json',
'needNewCode':'0'    
}
# 将参数封装为字典
res_music = requests.get(url,headers=headers,params=params)
# 发起请求，填入请求头和参数

注意：你最好将自己的爬虫伪装成真实的浏览器（填写请求头）—— 因为在那种情况下，服务器很可能拒绝爬虫访问。甚至有的网站，一开始就不允许爬虫访问。如，知乎、猫眼电影。

李怼怼滴鱼尾纹发布了26 篇原创文章 · 获赞 2 · 访问量 667 私信关注

标签：qq,comment,python,json,笔记,带参,music,comments,com
来源： https://blog.csdn.net/weixin_38764818/article/details/104127327

python学习笔记 带参请求数据

python学习笔记带参请求数据