网易云音乐评论最简单的爬取方式
作者:互联网
大家经常都在网易云上听音乐,而且上面还有很多感人的故事,也有很多人在上面发表评论,关于网易云音乐的评论我早就想爬了,之前是因为太忙没时间爬,这两天的时间闲了,这里我分享给大家用最简单的方法实现网易云音乐评论的爬取,我们就以毛不易的《消愁》为例来介绍一下
数据抓取首先,我们用电脑打开网易云音乐这条视频的链接。找到最新评论,目标就是把这些评论全部取出来。接着发现每点击“下一页”,网站的url并没有任何变化,整个爬虫程序我们使用的是python来实现,简单的示例如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
这是最简单的爬虫的实现方式,主要是加了代理一起,有了代理才能在获取数据的时候畅通无阻啊,所以大家有需要的可以试试这家代理www.16yun.cn。大家以后要爬虫歌曲的评论话只要运行这个爬虫程序就差不多就可以实现啦。
标签:网易,http,音乐,爬虫,proxyMeta,代理,评论 来源: https://www.cnblogs.com/mmz77-aa/p/15589098.html