首页 > 其他分享> > 词汇挖掘与实体识别（未完）

词汇挖掘与实体识别（未完）

2021-03-17 09:02:02 作者：互联网

文章目录

1 概述
2 词汇挖掘
3 实体识别(NER)
- 3.1 基于概率图模型
- 3.2 基于深度学习

1 概述

实体：是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的，守株待兔。
具体措施：挖掘尽可能多高质量的词汇，筛选目标知识图谱中的实体。

2 词汇挖掘

2.1 关键词提取

2.1.1 基于特征统计

词频
TF-IDF
位置特征
词跨度
词的固定属性：词长、词性、是否全部大小写等

2.1.2 基于主题模型

主题模型的核心假设是：存在隐含变量（文本主题），决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
在这里插入图片描述

2.1.3 Text-Rank算法提取

基于PageRank
在这里插入图片描述

在文本中词与相邻词之间，可以类比于有跳转关系的2个网页。

改进：直接设窗口半径，改进到从句法分析的角度定义链接关系。

2.2 同义词挖掘

2.2.1 同义词类型

1 不同国家的互译（自行车、bike）
2 相同含义的词（花朵、花儿）
3 不同称呼（周董、周杰伦；番茄、西红柿；上海、沪）

2.2.2 挖掘

1 字典：wordnet、汉语大词典、大词林（特点：质量高、不完整）
2 百科
3 基于模式匹配
X又称Y；X(Y);X简称Y，X，亦称Y；X俗称Y等等
特点：准确率高，召回率低（不能找到的同义词很多）
4 基于bootstrapping（自举法）
模式匹配，发现同义词对；
根据同义词对，发现更多的模式。
半监督模式，可以自己学习到一些模式。

2.3 缩略词挖掘

2.4 新词挖掘

3 实体识别(NER)

3.1 基于概率图模型

3.2 基于深度学习

标签：词汇,同义词,基于,挖掘,2.2,2.1,识别
来源： https://blog.csdn.net/flying_all/article/details/114915028