编程语言
首页 > 编程语言> > java – Tika – 从docs中检索主要内容

java – Tika – 从docs中检索主要内容

作者:互联网

Apache Tika的GUI实用程序提供了获取给定文档或URL的主要内容(除了格式文本和结构化文本之外)的选项.我只想知道哪个方法负责提取docs / url的主要内容.这样我就可以在我的程序中加入该方法.另外,他们是否在从HTML页面提取数据时使用任何启发式算法.因为有时在提取的内容中,我无法看到广告.

更新:我发现BoilerPipeContentHandler负责它.

解决方法:

Tika GUI中的“主要内容”功能是使用依赖boilerpipe library进行繁重工作的BoilerpipeContentHandler类实现的.

标签:java,apache-tika
来源: https://codeday.me/bug/20190610/1208476.html