读书笔记(六)智能问答系统
作者:互联网
前言:本文是【读书笔记|大数据时代的数据挖掘】系列的第六篇,是关乎第六章智能问答系统的读书笔记。智能问答系统在我们的生活中很常见,比如智能音箱等。
目录
一、发展历史
- 智能技术诞生于20c50s-60s。
- 20c90s,检索式问答时代。搜索引擎等之类的。
- 21c后,智能聊天机器人发展。
二、句法分析
1、中文分词技术
1987年第一个实现中文分词的系统CDWS,主要算法有以下几种:
-
词典法
基于一定策略将待切分的字符串与词典中词条进行匹配,从而实现对字符串的切分。
匹配原则:逐词匹配、最大匹配、最小匹配、最佳匹配。 -
统计法
上下文中相邻字同时出现的次数越多,就月可能构成一个词。
主要有- N-gram模型:假设第n个词的出现只与前面n-1个词相关;
- 马尔可夫模型:假设第n个词的出现只与前面的几个词相关。如果认为与前面一个词相关,就是bi-gram,两个词就是tri-gram;
- 隐马尔可夫模型.
-
语义理解法
NLPIR分词;
张华平博士开发,前身为ICTCLAS词法分析系统.
2、词的分类和兼类
-
词的分类
开放类:像名词和动词这样的,具有大量成员,而且包含的词的数量不限定;
封闭类:介词、冠词、限定词等。 -
词的标注集
英语的词性标注集:最好的是brown语料库使用的brown标注集;
中文词性标注集:目前还没有一个统一的,比较有影响力的有《现代汉语语法信息词典》。 -
汉语词的兼类问题
具有两类或两类以上的句法分布特征,这些词属于不同的分类就叫兼类。包括:同形不同音,同形同音不同义,同形同音的兼类词。 -
分析方法
主要是基于统计的方法。
3、汉语句法分析
-
多叉多标记树形图分析法
自动分词——自动标注(根据分析结果在字典中查找各词语的静态特征)——合一运算(把静态特征相容的词语合并成词组,并给出词组特征)————计算出句法功能特征,语义关系特征,逻辑关系特征,并输出最后的分析结果。 -
汉语完全语法树
-
汉语句型分析
现根据谓语将句子分为两部分,对前面部分分析主状,后面分析宾语和补语,若句中出现兼语词或小句做宾语,则采用递归方法分析子句。 -
一体化的汉语句法分析
三、问题理解
1、句法分析
2、问题分类
| 应用最广的向量空间模型
3、关键词扩展与抽取
4、答案抽取
词袋方法、模式匹配、基于语法结构的抽取方式、基于大数据的数据集扩展、基于数理逻辑的抽取、多模型结合的抽取方式
四、问题的检索
1、基于词法
2、基于句法
3、基于语义
4、常见问题集的问句检索
五、信息抽取
1、抽取的对象
结构化文本:按特定形式存储在数据库中,一般不需要做信息抽取的
半结构化文本:怎么书上没有介绍它的信息抽取方法呢
非结构化文本:一般智能提取一些简单的命名实体,需要预处理才可
2、抽取的种类
3、抽取的方法
- 知识工程方法
- 自动学习方法
六、知识库构建
体系结构
Tim Berners-Lee于2000年提出了语义网络的系统结构,共7层:
第一层 | unicode&URI | unicode是一个字符集,URI是统一资源定位符 |
---|---|---|
第二层 | XML+NS+XmlSchema | 精简的标准通用标记语言+命令空间+document data type的替代品 |
第三层 | RDF+RDF Schema | 资源描述框架 |
第四层 | 本体向征 | 在RDF基础上定义概念及其关系的描述 |
第五到第七层 | 逻辑、证明、信任关系 | —— |
七、知识推理
在知识图谱上不断挖掘,不断完善的手段。包括三个方面:
- 线索挖掘
- 关系推理
- 关系预测
标签:基于,抽取,读书笔记,句法分析,兼类,智能,问答,分词 来源: https://blog.csdn.net/weixin_49927325/article/details/118708856