倒排索引简单理解
作者:互联网
传统的线性查找:是进行全局扫描的,如果关键字在文档的后面那么查找的速度也相对较慢。
倒排索引:记录每个词条出现在哪些文档,及文档中的位置,可以根据词条快速定位到包含这个词条的文档以及出现的位置。
- 文档:索引的每一条数据。
- 词条:原始数据按照算法进行分词。
创建倒排索引的步骤
首先对原始文档数据进行编号(DocID),形成列表,就是一个文档列表
创建倒排索引列表
对文档中数据进行分词,得到词条。对词条进行编号,以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)
当用户输入任意的词条时,首先对用户输入的数据进行分词,得到用户要搜索的所有词条,然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。
标签:词条,倒排,列表,索引,理解,文档,分词 来源: https://www.cnblogs.com/JoJo1021/p/16099329.html