首页 > 其他分享> > Lucene中的token和term的区别

Lucene中的token和term的区别

2021-12-27 22:34:20 作者：互联网

Term是一个最小搜索单元，Lucene中有个Term和对应的TermQuery；Token应该是分词过程中记录一些分词信息的对象。

Token类的说明是这样的

简单的翻译下：token由字段文本的term产生，包含term的内容，起始，结束位移和类型字符串。

起始和结束偏移能够通过原来的text，连接起来，用于高亮或者匹配文本段等。

type是一个字符串，被词语解析器指定，命名了token属于的词语类型，例如，在一个句子的结尾，token使用“eos”类型实现，缺省的token类型是word。

从Lucene2.9开始，Token这个类就不建议使用了，推荐使用Attributes的实现类代替。尽管token不在使用，但是可以使用TokenStream API可以轻松实现所有的Attribute。

新版取得分词信息方式如下：

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_47);

String text = "利用 Lucene 进行搜索就像建立索引一样也是非常方便的。";

TokenStream tokenStream = analyzer.tokenStream("keyword",text);
tokenStream.reset();
whiel(tokenStream.incrementToken(){
    CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
}

Term的注释是这样的

Term表示文本中的一个词语，是搜索单元，它由两个元素组成，词语的内容和文本所在的field(域)，Term不仅仅表示字符串词语，还可以代表日期，邮件地址，或者url。

总结一下：

Term用于查询，下面就是一个query。

Term query = new Term("keyword","Lucene");

Token是在分词过程中产生的对象。

标签：Term,Token,Lucene,token,term,tokenStream,分词
来源： https://www.cnblogs.com/kevin-lee123/p/15738167.html