我是IR技术的新手.
我正在寻找基于Java的API或工具来执行以下操作.
>下载给定的URL集
>提取令牌
>删除停用词
>执行词干
>创建倒置索引
>计算TF-IDF
请告诉我Lucene怎么能对我有所帮助.
问候
Yuvi
最佳答案:
你可以试试Word Vector Tool – 自最新发布以来已经有一段时间了,但它在这里工作正常.它应该能够执行您提到的所有步骤.但是,我自己从未使用过履带部件.
标签:java,solr,lucene,tf-idf
来源: https://codeday.me/bug/20190515/1109669.html