其他分享
首页 > 其他分享> > 2词项词典及倒排记录表

2词项词典及倒排记录表

作者:互联网

提示:
词项词典及倒排记录表

文章目录


词项词典及倒排记录表

相关概念

词条:在文档中出现的字符序列的一个案例
词条类:相同词条构成的集合
词项:信息检索系统词典中所包含的某个可能经过归一化处理的词条类
概念关系图

词条化

确定正确的词条
给定字符序列拆成一系列子序列,每个子序列是一个词条
词条化
词条化难点

*URL(uniform resourse locator)

统一资源定位器是www页地址
格式:scheme://host:port/path
  eg:http://sohu.com/domain/HWXZ

名词概念
schemeInternet资源类型:WWW客户程序用来操作的工具
host服务器地址:WWW页所在服务器域名
port端口
path路径

端口和路径并非总是需要

词项集合的确定

去除停用词:
按词频排序,手工去除停用词。

词条归一化

将看起来不一致的词条归纳为一个等价类。(同义,大小写,格式,特殊符号)
常规做法:隐式建立等价类
隐式建立等价类举例
显示建立等价类
关联词不对称拓展:
在这里插入图片描述
词条归一化问题(简要了解):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

✳(重点)基于跳表的倒排记录表快速合并算法

合并算法

在这里插入图片描述
在这里插入图片描述
中间过程省略:就是建立两个表头指针,指针对应元素相同就加入交集中,如果不同,数值小的指针位置加一,继续比较,知道两个指针都达到末尾。显然如果倒排记录表大小分别为x,y,那么操作数为O(x+y);
在这里插入图片描述

基于跳表指针快速合并

在什么位置设置跳表指针? 启发式策略:在每个log2P处均匀放置跳表指针,P为倒排表长度
过程:与普通合并基本相似,不过如果跳表指针指向的目标仍然小于另一个表的比较项时,采用跳表指针直接跳转。
跳表合并算法

✳含位置信息的倒排记录表及短语查询

在这里插入图片描述

布尔查询
最后的这条查询结果明显不是我们想要的结果,我们想要的是Stanford University 明显是个有顺序的词组。而布尔查询查询到的是含有这两个词项的句子即可,没有考虑顺序问题。
解决:二元词索引 将文档中的连续对看成一个短语
示例
那么更长的短语查询:查询A B C D
 转化“A B” AND “B C” AND “C D”
二元词索引可以扩展为更长词索引,称为短语索引。

位置信息索引

倒排索引表存储文档ID和词项位置信息:文档ID(位置1,位置2)
在这里插入图片描述
单词be的文档频率是178239;在文档1中出现2词,位置是17,25.以此类推。
在这里插入图片描述
to be位置查找,在相同文档中至少存在一个be的位置大于to位置1,那么文档为所求。
在这里插入图片描述
普通布尔查询和基于位置查询的结果区别
在这里插入图片描述

k词近邻搜索

a /k b  :a词和b词之间相距k个词,k=1意味着a,b相邻
to /1 be即查询to be
位置索引能用于邻近搜索,而二元词索引不能。但位置索引大大增加了倒排记录表的存储空间和计算复杂性。
在这里插入图片描述

标签:词条,倒排,索引,跳表,记录表,词项
来源: https://blog.csdn.net/qq_45783383/article/details/121402757