其他分享
首页 > 其他分享> > 词汇挖掘与实体识别(未完)

词汇挖掘与实体识别(未完)

作者:互联网

文章目录

1 概述

实体:是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的,守株待兔。
具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。

2 词汇挖掘

2.1 关键词提取

2.1.1 基于特征统计

2.1.2 基于主题模型

主题模型的核心假设是:存在隐含变量(文本主题),决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
在这里插入图片描述

2.1.3 Text-Rank算法提取

基于PageRank
在这里插入图片描述

在文本中词与相邻词之间,可以类比于有跳转关系的2个网页。

改进:直接设窗口半径,改进到从句法分析的角度定义链接关系。

2.2 同义词挖掘

2.2.1 同义词类型

1 不同国家的互译(自行车、bike)
2 相同含义的词(花朵、花儿)
3 不同称呼(周董、周杰伦;番茄、西红柿;上海、沪)

2.2.2 挖掘

1 字典:wordnet、汉语大词典、大词林(特点:质量高、不完整)
2 百科
3 基于模式匹配
X又称Y;X(Y);X简称Y,X,亦称Y;X俗称Y等等
特点:准确率高,召回率低(不能找到的同义词很多)
4 基于bootstrapping(自举法)
模式匹配,发现同义词对;
根据同义词对,发现更多的模式。
半监督模式,可以自己学习到一些模式。

2.3 缩略词挖掘

2.4 新词挖掘

3 实体识别(NER)

3.1 基于概率图模型

3.2 基于深度学习

标签:词汇,同义词,基于,挖掘,2.2,2.1,识别
来源: https://blog.csdn.net/flying_all/article/details/114915028