python-从网站解析-源代码不包含我需要的信息
作者:互联网
尽管我已经进行了一年的编程工作,但我对Web爬虫还是有些陌生.因此,在我尝试解释我的问题时,请多多包涵.
我正在从Yahoo解析信息!新闻,而且我已经设法获得了我想要的大部分东西,但是有一小部分让我难过.
例如:http://news.yahoo.com/record-nm-blaze-test-forest-management-225730172.html
我想在注释中获得大拇指和大拇指向下的图标旁边的数字.当我在Chrome浏览器中使用“检查元素”时,可以清楚地看到需要查找的内容-即div类“ ugccmt-rate”下的em标签.但是,我无法在python程序中找到它.在试图找出问题的根源时,我单击了一下以查看页面的源,并且似乎该标签不存在.你们知道我应该如何解决这个问题吗?这与仅在运行信息后才显示信息的页面上的javascript有关吗?我会向正确的方向指出一些建议.
谢谢.
解决方法:
该页面是通过JavaScript生成的.
首先检查网站是否有移动版本.如果没有,请检查是否有任何API或RSS / Atom提要.如果没有其他内容,您将不得不手动确定JavaScript正在加载的内容以及从何处加载,或者使用Selenium自动化浏览器以呈现JavaScript进行解析.
标签:html,python,parsing,web-crawler 来源: https://codeday.me/bug/20191201/2079433.html