编程语言
首页 > 编程语言> > Java API:下载和计算给定网页的tf-idf

Java API:下载和计算给定网页的tf-idf

作者:互联网

我是IR技术的新手.

我正在寻找基于Java的API或工具来执行以下操作.

>下载给定的URL集
>提取令牌
>删除停用词
>执行词干
>创建倒置索引
>计算TF-IDF

请告诉我Lucene怎么能对我有所帮助.

问候
Yuvi

最佳答案:

你可以试试Word Vector Tool – 自最新发布以来已经有一段时间了,但它在这里工作正常.它应该能够执行您提到的所有步骤.但是,我自己从未使用过履带部件.

标签:java,solr,lucene,tf-idf
来源: https://codeday.me/bug/20190515/1109669.html