其他分享
首页 > 其他分享> > 如何刮AJAX网站?

如何刮AJAX网站?

作者:互联网

过去,我使用urllib2库从网站获取源代码.但是,我注意到,对于一个我一直在尝试使用的最新网站,我无法在源代码中找到所需的信息.

http://www.wgci.com/playlist是我一直在寻找的站点,我想获取最近播放的歌曲和最近歌曲的播放列表.我本质上是想在网站上复制并粘贴可见的显示文本,并将其放入字符串中.另外,能够访问以纯文本格式保存这些值的元素,并通常使用urllib2获取它们会很好.无论如何有做这些事情之一?

谢谢.

解决方法:

您要剪贴的网站正在使用ajax调用来填充其页面中的数据.
您有2种方法从中抓取数据:

>使用无头浏览器,该浏览器支持javascript(例如ZombieJS),并废弃生成的输出,但这很复杂且过大
>了解其API的工作原理,然后直接调用它,这非常简单.

使用Chrome开发者工具(“网络”标签)在浏览网站时查看通话.

例如,给定流的最后播放的歌曲列表可在JSON中找到,网址为
http://www.wgci.com/services/now_playing.html?streamId=841&limit=12

标签:web-scraping,python
来源: https://codeday.me/bug/20191120/2043552.html