使用Bixo构建垂直爬虫
作者:互联网
我遇到了一个开源爬虫Bixo.
有人试过吗?你能分享一下学习吗?我们能否轻松构建定向爬虫(与Nutch / Heritrix相比)?
谢谢
Nayn
解决方法:
我在一个大型社交网站(每天100M页面浏览量)中使用Bixo进行用户内容分类(基本上是用户在其中生成链接的任何内容).
使用Cascading来进行相当复杂的工作流程
>重复数据删除网址,
>让Bixo检索页面内容,
>通过分类器推送页面内容
>触发垃圾帐户的帐户撤销,运行垃圾邮件报告等.
如果你知道级联,那么Bixo就像其他任何级联组件一样,基本上期望URL作为输入,并将一堆页面相关信息作为输出发出.
我在开始时低估的一件事是,对于许多垂直爬行者而言,爬行方面只是“拼图”中的一小部分.围绕它的整个工作流程可能变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种集成它的方法.使用Cascading的Bixo只是您工作流程的另一个输入.
Bixo本身似乎非常扎实. Ken Krugler(首席开发人员)具有超级响应能力,能够解决一天内我遇到的一些悬而未决的问题(我的数据集中包含大量“脏”URL).他有一个非常全面的自动化测试套件,确保Bixo按设计工作.
总的来说,我不能高度推荐它.整个系统是由我在6-9个月内构建的,我不认为我可以在那段时间内完成它.
标签:nutch,java,web-crawler 来源: https://codeday.me/bug/20190726/1545763.html