2词项词典及倒排记录表
作者:互联网
提示:
词项词典及倒排记录表
文章目录
词项词典及倒排记录表
相关概念
词条:在文档中出现的字符序列的一个案例
词条类:相同词条构成的集合
词项:信息检索系统词典中所包含的某个可能经过归一化处理的词条类
词条化
确定正确的词条
给定字符序列拆成一系列子序列,每个子序列是一个词条
*URL(uniform resourse locator)
统一资源定位器是www页地址
格式:scheme://host:port/path
eg:http://sohu.com/domain/HWXZ
名词 | 概念 |
---|---|
scheme | Internet资源类型:WWW客户程序用来操作的工具 |
host | 服务器地址:WWW页所在服务器域名 |
port | 端口 |
path | 路径 |
端口和路径并非总是需要
词项集合的确定
去除停用词:
按词频排序,手工去除停用词。
词条归一化
将看起来不一致的词条归纳为一个等价类。(同义,大小写,格式,特殊符号)
常规做法:隐式建立等价类
关联词不对称拓展:
词条归一化问题(简要了解):
✳(重点)基于跳表的倒排记录表快速合并算法
合并算法
中间过程省略:就是建立两个表头指针,指针对应元素相同就加入交集中,如果不同,数值小的指针位置加一,继续比较,知道两个指针都达到末尾。显然如果倒排记录表大小分别为x,y,那么操作数为O(x+y);
基于跳表指针快速合并
在什么位置设置跳表指针? 启发式策略:在每个log2P处均匀放置跳表指针,P为倒排表长度
过程:与普通合并基本相似,不过如果跳表指针指向的目标仍然小于另一个表的比较项时,采用跳表指针直接跳转。
✳含位置信息的倒排记录表及短语查询
最后的这条查询结果明显不是我们想要的结果,我们想要的是Stanford University 明显是个有顺序的词组。而布尔查询查询到的是含有这两个词项的句子即可,没有考虑顺序问题。
解决:二元词索引 将文档中的连续对看成一个短语
那么更长的短语查询:查询A B C D
转化“A B” AND “B C” AND “C D”
二元词索引可以扩展为更长词索引,称为短语索引。
位置信息索引
倒排索引表存储文档ID和词项位置信息:文档ID(位置1,位置2)
单词be的文档频率是178239;在文档1中出现2词,位置是17,25.以此类推。
to be位置查找,在相同文档中至少存在一个be的位置大于to位置1,那么文档为所求。
普通布尔查询和基于位置查询的结果区别
k词近邻搜索
a /k b :a词和b词之间相距k个词,k=1意味着a,b相邻
to /1 be即查询to be
位置索引能用于邻近搜索,而二元词索引不能。但位置索引大大增加了倒排记录表的存储空间和计算复杂性。
标签:词条,倒排,索引,跳表,记录表,词项 来源: https://blog.csdn.net/qq_45783383/article/details/121402757