java – 使用Nutch如何抓取ujng ajax的网页的动态内容?
作者:互联网
我正在使用Apache Nutch 1.10来抓取网页并提取页面中的内容.一些链接包含在ajax调用时加载的动态内容. Nutch无法抓取并提取ajax的动态内容.我怎么解决这个问题?有什么解决方案吗?如果是,请帮助我解答.
提前致谢.
解决方法:
大多数Web爬网程序库都不提供开箱即用的javascript呈现.您通常必须插入另一个提供js渲染的库或产品,如Selenium或PhantomJS.
这是一个tutorial using nutch and Selenium.
标签:nutch,java,ajax,plugins,web-crawler 来源: https://codeday.me/bug/20190829/1762842.html