其他分享
首页 > 其他分享> > 倒排索引简单理解

倒排索引简单理解

作者:互联网

传统的线性查找:是进行全局扫描的,如果关键字在文档的后面那么查找的速度也相对较慢。

倒排索引:记录每个词条出现在哪些文档,及文档中的位置,可以根据词条快速定位到包含这个词条的文档以及出现的位置。

创建倒排索引的步骤

首先对原始文档数据进行编号(DocID),形成列表,就是一个文档列表

创建倒排索引列表

对文档中数据进行分词,得到词条。对词条进行编号,以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)

当用户输入任意的词条时,首先对用户输入的数据进行分词,得到用户要搜索的所有词条,然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。

标签:词条,倒排,列表,索引,理解,文档,分词
来源: https://www.cnblogs.com/JoJo1021/p/16099329.html