其他分享
首页 > 其他分享> > 读书笔记(六)智能问答系统

读书笔记(六)智能问答系统

作者:互联网

前言:本文是【读书笔记|大数据时代的数据挖掘】系列的第六篇,是关乎第六章智能问答系统的读书笔记。智能问答系统在我们的生活中很常见,比如智能音箱等。

目录

一、发展历史

二、句法分析

1、中文分词技术

1987年第一个实现中文分词的系统CDWS,主要算法有以下几种:

  1. 词典法
    基于一定策略将待切分的字符串与词典中词条进行匹配,从而实现对字符串的切分。
    匹配原则:逐词匹配、最大匹配、最小匹配、最佳匹配。

  2. 统计法
    上下文中相邻字同时出现的次数越多,就月可能构成一个词。
    主要有

    • N-gram模型:假设第n个词的出现只与前面n-1个词相关;
    • 马尔可夫模型:假设第n个词的出现只与前面的几个词相关。如果认为与前面一个词相关,就是bi-gram,两个词就是tri-gram;
    • 隐马尔可夫模型.
  3. 语义理解法
    NLPIR分词;
    张华平博士开发,前身为ICTCLAS词法分析系统.

2、词的分类和兼类

3、汉语句法分析

三、问题理解

1、句法分析
2、问题分类
| 应用最广的向量空间模型
3、关键词扩展与抽取
4、答案抽取
词袋方法、模式匹配、基于语法结构的抽取方式、基于大数据的数据集扩展、基于数理逻辑的抽取、多模型结合的抽取方式

四、问题的检索

1、基于词法
2、基于句法
3、基于语义
4、常见问题集的问句检索

五、信息抽取

1、抽取的对象
结构化文本:按特定形式存储在数据库中,一般不需要做信息抽取的
半结构化文本:怎么书上没有介绍它的信息抽取方法呢
非结构化文本:一般智能提取一些简单的命名实体,需要预处理才可

2、抽取的种类
3、抽取的方法

六、知识库构建

体系结构
Tim Berners-Lee于2000年提出了语义网络的系统结构,共7层:

第一层unicode&URIunicode是一个字符集,URI是统一资源定位符
第二层XML+NS+XmlSchema精简的标准通用标记语言+命令空间+document data type的替代品
第三层RDF+RDF Schema资源描述框架
第四层本体向征在RDF基础上定义概念及其关系的描述
第五到第七层逻辑、证明、信任关系——

七、知识推理

在知识图谱上不断挖掘,不断完善的手段。包括三个方面:

标签:基于,抽取,读书笔记,句法分析,兼类,智能,问答,分词
来源: https://blog.csdn.net/weixin_49927325/article/details/118708856