标签:公众 python 微信 爬取 URL 文章 时效性 链接
一、最近公司有了要爬取微信公众号文章链接的需求,之前最初接触爬公众号文章的时候,用的是搜狗微信,在这个上面可以搜到相关的微信公众号文章,但是这些链接是有时效性的,第二天链接就打不开了(不知道现在是多久),当然如果是要抓文章内容的,可以用这种方法,但是如果要抓文章的URL,那就不行了,只能另寻别的方法。
二、期间我试了网上的各种方法,比如微信公众号发布平台,这个的cookie也是有时效性,具体是多久网上说多久的都有,当然这确实是一种方法,同时我自己也在寻找别的方法。
我的方法是使用fiddler抓包抓到pc端微信的公众号历史文章的URL,然后再浏览器打开,发现打不开,然后我就发现请求头信息里还有一个referer(看下图),抱着试试看的态度,发现可以用本地浏览器打开,而且是有数据的,那就好办了啊,直接用selenium哐哐的爬,目前没有发现啥限制。
三、唯一的是这个历史文章的URL是有时效性的,在两个半小时左右,还有一点需要注意,referer这个URL要去掉__biz=MjM5MzA1NzgyMA==后面的部分,如果不去掉,时效性只有半个小时,亲测,biz这个参数就不多说了吧,大家都知道是啥。虽然历史文章的URL有时效性,但是单个文章的URL是永久有效的啊,这就达到了公司需求,文章的URL也可以去除掉一些没用的后缀,具体你们可以自己去看。
好了,关于微信公众号文章的爬取,今天的分享就到这了。
标签:公众,python,微信,爬取,URL,文章,时效性,链接
来源: https://www.cnblogs.com/acheng1011/p/15808384.html
本站声明:
1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。