统计自然语言处理08:句法分析、语义分析、文本分类与情感分类概述
作者:互联网
文章目录
1 句法分析
- 句法结构分析(成分结构分析,短语结构分析)
- 完全句法分析(完全短语结构分析)
- 局部分析(浅层分析)
- 依存关系分析(依存句法分析,依存结构分析,依存分析)
1.1 句法结构分析概述
1.1.1 基本概念
- 句法分析:对输入的单词序列(一般为句子)判断其构成是否符合给定的语法,分析出合乎语法的句子的句法结构。
- 句法分析树(分析树):句法结构一般用树状数据结构表示。
- 句法结构分析器(分析器):完成这种分析过程的程序模块。
- 任务:
- 判断输入的字符串是否属于某种语言
- 消除输入句子中词法和结构方面的歧义
- 分析输入句子的内部结构,如成分结构,上下文关系等
1.1.2 语法形式化
- 上下文无关文法(CFG)
- 基于约束的文法(合一语法):
- 功能合一语法
- 树链接语法
- 词汇功能语法
- 广义的短语结构语法
- 中心语驱动的短语结构语法
1.1.3 基本方法
-
基于规则的分析方法
- 基本思路:由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除
- 分类:
- 自顶向下的分析方法
- 自底向上的分析方法
- 两者相结合的分析方法
-
基于统计的分析方法
- 语法驱动的分析方法的基本思路:由生成语法定义被分析的语言及其分析出的类别,在训练数据中观察到的各种语言现象的分布以统计数据的方式与语法规则一起编码。当遇到歧义情况时,统计数据用于对多种分析结果的排序或选择。
2 语义分析
语义分析的基本任务:
- 词:词义消歧
- 句子:语义角色标注
- 篇章:指代消歧(共指消解),篇章语义分析
2.1 语义消歧概述
- 基本观点:一个词的不同语义一般发生在不同的上下文中。在有监督的消歧方法中,可以根据训练数据得知一个多义词所处的不同上下文与特定词义的对应关系,那么,多义词的词义识别问题实际上就是该词的上下文分类问题,一旦确定了上下文所属的类别,也就确定了该词的词义类型。因此,有监督的学习通常也称为分类任务。在无监督的词义消歧中,由于训练数据未经标注,因此,首先需要利用聚类算法对同一个多义词的所有上下文进行等价类划分,如果一个词的上下文出现在多个等价类中,那么,该词被认为是多义词。然后,在词义识别时,将该词的上下文与其各个词义对应上下文的等价类进行比较,通过上下文对应等价类的确定来断定词的词义。因此,无监督的学习通常称为聚类任务。
- 伪词:为了避免手工标注的困难,人们通常采用制造人工数据的方法来获得大规模训练数据和测试数据,这些制造出来的人工数据称为伪词。(将两个自然词汇合并)
3 文本分类与情感分类
3.1 文本分类概述
-
获得这样一个函数 Φ : D × C → { T , F } \Phi:D\times C \rightarrow\{T,F\} Φ:D×C→{T,F},其中 D = { d 1 , d 2 , … , d ∣ D ∣ } D=\{d_1,d_2,…,d_{|D|}\} D={d1,d2,…,d∣D∣}表示需要进行分类的文档, C = { c 1 , c 2 , … , c ∣ C ∣ } C=\{c_1,c_2,…,c_{|C|}\} C={c1,c2,…,c∣C∣}表示预定义的分类体系下的类别集合。T值表示对于 < d j , c i > <d_j,c_i> <dj,ci>来说,文档 d j d_j dj属于 c i c_i ci,而F值表示对于 < d j , c i > <d_j,c_i> <dj,ci>来说,文档 d j d_j dj不属于 c i c_i ci。
-
最终目的:找到一个有效的映射函数,准确的实现域 D × C D\times C D×C到T或F的映射,这个映射函数实际上就是我们通常说的分类器。
-
两个关键问题:
- 文本的表示
- 分类器设计
-
分类:
- 基于知识工程的分类系统
- 基于机器学习的分类系统
3.2 文本表示
-
向量空间模型VSM的基本概念:
- 文档:通常是文章中具有一定规模的片段,如句子、句群,段落、段落组直至整篇文章。
- 项 / 特征项:特征项是 VSM 中最小的不可分的语言单元,可以是字、词、词组或短语等。一个文档的内容被看成是它含有的特征项所组成的点、集合,表示为∶ D o c u m e n t = D ( t 1 , t 2 , … , t n ) Document=D(t_1,t_2,…,t_n) Document=D(t1,t2,…,tn),其中 t k t_k tk是特征项, 1 ≤ k ≤ n 1\leq k\leq n 1≤k≤n。
- 项的权重:对于含有n个特征项的文档 D ( t 1 , t 2 , … , t n ) D(t_1,t_2,…,t_n) D(t1,t2,…,tn),每一特征项 t K t_K tK都依据一定的原则被赋予一个权重 w k w_k wk,表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示∶ ,简记 D = D ( t 1 , w 1 ; t 2 , w 2 ; … , t n , w n ) D=D(t_1,w_1;t_2,w_2;…,t_n,w_n) D=D(t1,w1;t2,w2;…,tn,wn)为 D = D ( w 1 , w 2 , … w n ) D=D(w_1,w_2,…w_n) D=D(w1,w2,…wn),其中 w k w_k wk就是特征项 t k t_k tk的权重, 1 ≤ k ≤ n 1\leq k\leq n 1≤k≤n。
-
向量空间模型:
给定一个文档 D ( t 1 , w 1 ; t 2 , w 2 ; … , t n , w n ) D(t_1,w_1;t_2,w_2;…,t_n,w_n) D(t1,w1;t2,w2;…,tn,wn),D符合以下两条规定:
- 各个特征项 t k ( 1 ≤ k ≤ n ) t_k(1\leq k\leq n) tk(1≤k≤n)互异(即没有重复)
- 各个特征项 t k t_k tk无先后顺序关系(即不考虑文档的内部结构)
在以上两条约定下,可以把特征项 t 1 , t 2 , … , t n t_1,t_2,…,t_n t1,t2,…,tn看成一个n维坐标系,而权重 w 1 , w 2 , … w n w_1,w_2,…w_n w1,w2,…wn为相应的坐标值。因此一个文本就表示为n维空间的一个向量。我们称 D = D ( w 1 , w 2 , … w n ) D=D(w_1,w_2,…w_n) D=D(w1,w2,…wn)为文本D的向量表示或向量空间模型。
-
向量的相似性度量:
任意两个文档 D 1 , D 2 D_1,D_2 D1,D2之间的相似系数 S i m ( D 1 , D 2 ) Sim(D_1,D_2) Sim(D1,D2)指两个文档内容的相关程度。设文档
D 1 = D 1 ( w 1 , w 2 , … w n ) D 2 = D 2 ( w 1 , w 2 , … w n ) D_1=D_1(w_1,w_2,…w_n)\\ D_2=D_2(w_1,w_2,…w_n) D1=D1(w1,w2,…wn)D2=D2(w1,w2,…wn)
则:
S i m ( D 1 , D 2 ) = ∑ k = 1 n w 1 k × w 2 k Sim(D_1,D_2)=\sum^n_{k=1}w_{1k}\times w_{2k} Sim(D1,D2)=k=1∑nw1k×w2k
考虑归一化:
S i m ( D 1 , D 2 ) = c o s θ = ∑ k = 1 n w 1 k × w 2 k ∑ k = 1 n w 1 k 2 ∑ k = 1 n w 2 k 2 Sim(D_1,D_2)=cos\theta=\frac{\sum^n_{k=1}w_{1k}\times w_{2k}}{\sqrt{\sum^n_{k=1}w_{1k}^2\sum^n_{k=1}w_{2k}^2}} Sim(D1,D2)=cosθ=∑k=1nw1k2∑k=1nw2k2 ∑k=1nw1k×w2k -
基本步骤:
- 根据训练样本集生成文本表示所需的特征序列 D = { t 1 , t 2 , … , t d } D=\{t_1,t_2,…,t_d\} D={t1,t2,…,td}
- 依据文本特征项序列,对训练文本集和测试样本集的各个文档进行权重赋值、规范化等处理,将其转化为机器学习算法所需的特征向量。
码文不易,如果觉得对你有用的话,点个赞再走吧,谢谢宁!
(才疏学浅,如果有什么说的不对的地方,欢迎大家在评论区或者私信进行指正。)
标签:分析,上下文,08,分类,句法分析,语法,文档,文本 来源: https://blog.csdn.net/weixin_44857688/article/details/113776205