python 爬取36kr 7x24h快讯
作者:互联网
url为https://36kr.com/newsflashes,抓包后发现第一次的新闻内容就是包含在<script>var props={}></script>标签中,具体的是在props中的key为newsflashList|newsflash的列表中紧着我又让页面多加载了一些,发现此时请求地址有了些变化,此时返回的内容是json字符串了
仔细研究下请求中的bid其实和返回的items中的最后一个id是相同的,这意味着我们可以第一次请求https://36kr.com/newsflashes,解析其中的props标签,然后获得最后一个id,接下来构造新的url时就可以采用形如https://36kr.com/api/newsflash?b_id=160678&per_page=20&_=1553412863268格式的地址了,测试发现只需要https://36kr.com/api/newsflash?b_id=160678&per_page=20就可以了,这个地址其实是多了层"api",测试时发现构造这种https://36kr.com/newsflashes?b_id=160680&per_page=20这个地址没有那层"api",所以返回的也是html,解析props标签同样可以获得数据
好了,综上我们有了两种思路,第一种是请求https://36kr.com/newsflashes,正则解析props.然后获得id,构造返回值为json字符串的url,第二种也是请求https://36kr.com/newsflashes,解析props.然后获得id,
构造返回html内容的url,之后也是使用正则解析props标签,但实际测试时这种效率有点低,因为大规模的使用了正则匹配,
所以我使用了第一种方式,此外使用第一种方式我们可以指定per_page,虽然过大容易被封IP
1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/3/24 0024 下午 12:56 4 import re 5 import json 6 import requests 7 import os 8 from pprint import pprint 9 10 11 class NewsFlashesSplider: 12 def __init__(self): 13 # "https://36kr.com/newsflashes?b_id={}&per_page=20" 14 self.url = "https://36kr.com/newsflashes" 15 self.headers = { 16 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 17 } 18 self.file_dir = "./newsflashes.txt" 19 20 def parse_url(self): 21 response = requests.get(self.url, headers=self.headers) 22 ret = json.loads(response.content.decode())["data"]["items"] 23 24 print(ret) 25 26 size = len(ret) 27 last_id = int(ret[size - 1]["id"]) 28 with open(self.file_dir, "a", encoding="utf-8") as file: 29 file.write(json.dumps(ret, ensure_ascii=False)) 30 file.write("\r\n") 31 return size, last_id 32 33 def run(self): 34 if os.path.exists(self.file_dir): 35 os.remove(self.file_dir) 36 print("文件已清空") 37 38 # 第一次请求获得当前最新的新闻 39 response = requests.get(self.url, headers=self.headers) 40 result = re.compile("<script>var props=(.*),locationnal=").findall(response.content.decode()) 41 ret = json.loads(result[0])["newsflashList|newsflash"] 42 43 # 新闻个数,最后一个id 44 tuple_result = len(ret), int(ret[len(ret) - 1]["id"]) 45 46 while True: 47 self.url = "https://36kr.com/api/newsflash?b_id={}&per_page=20".format(tuple_result[1]) 48 tuple_result = self.parse_url() 49 if tuple_result[0] < 20: 50 break 51 52 53 def main(): 54 splider = NewsFlashesSplider() 55 splider.run() 56 57 58 if __name__ == '__main__': 59 main()
标签:36kr,python,self,爬取,url,https,com,id 来源: https://www.cnblogs.com/tele-share/p/10588989.html