词汇挖掘与实体识别(未完)
作者:互联网
文章目录
1 概述
实体:是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的,守株待兔。
具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。
2 词汇挖掘
2.1 关键词提取
2.1.1 基于特征统计
- 词频
- TF-IDF
- 位置特征
- 词跨度
- 词的固定属性:词长、词性、是否全部大小写等
2.1.2 基于主题模型
主题模型的核心假设是:存在隐含变量(文本主题),决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
2.1.3 Text-Rank算法提取
基于PageRank
在文本中词与相邻词之间,可以类比于有跳转关系的2个网页。
改进:直接设窗口半径,改进到从句法分析的角度定义链接关系。
2.2 同义词挖掘
2.2.1 同义词类型
1 不同国家的互译(自行车、bike)
2 相同含义的词(花朵、花儿)
3 不同称呼(周董、周杰伦;番茄、西红柿;上海、沪)
2.2.2 挖掘
1 字典:wordnet、汉语大词典、大词林(特点:质量高、不完整)
2 百科
3 基于模式匹配
X又称Y;X(Y);X简称Y,X,亦称Y;X俗称Y等等
特点:准确率高,召回率低(不能找到的同义词很多)
4 基于bootstrapping(自举法)
模式匹配,发现同义词对;
根据同义词对,发现更多的模式。
半监督模式,可以自己学习到一些模式。
2.3 缩略词挖掘
2.4 新词挖掘
3 实体识别(NER)
3.1 基于概率图模型
3.2 基于深度学习
标签:词汇,同义词,基于,挖掘,2.2,2.1,识别 来源: https://blog.csdn.net/flying_all/article/details/114915028