首页 > 其他分享> > NLP学习笔记6--Lecture/语言模型/预处理/独热编码/word2vec/文本特征工程

NLP学习笔记6--Lecture/语言模型/预处理/独热编码/word2vec/文本特征工程

2021-11-10 21:03:27 作者：互联网

语言模型用来判断：是否一句话从语法上通顺

先分词然后算出联合概率怎么算？ chain rule

条件很长的时候会遇到一个问题 sparsity 数据的稀疏性

用马尔科夫假设最简单的假设之前的单词不影响当前单词的条件 unigram model

一阶假设可以理解为只被最近的单词影响 bigram model 不能考虑单词之间的先后顺序

二阶假设只被最近的两个单词影响 trigram model

结合起来就是N-gram model 最常用的可能是bigram 既要考虑数据稀疏性又要考虑准确度

语言模型也是训练的过程就是从语料库中统计概率的过程

给定CORPUS 训练出多个language model

选出一个最好的语言模型 N-gram Smoothy 预处理

有没有更简单的评估方法？比如不需要放到特定的任务中

语言模型本事是有能力预测下一个单词的

一个好的语言模型会使输出的概率越来越大

perplexity perplexity越小 x 越大模型就越好

Add-one Smoothing（Laplace Smoothing）

语言模型在拼写纠错中的应用

怎么纠错？

如果不考虑整句话

通过编辑距离做一个排序得到一个候选集再做一个处理

降低了时间复杂度从输入开始筛选先找出和输入编辑距离为1，2的字符串

怎么过滤？根据上下文

1.词拼写错误

2.没有错词：语法

文本预处理

过滤词

对于NLP的应用我们通常把停用词（的 is the）、特殊的标点符号、出现频率很低的词过滤掉

英文里面词的标准化 normalization

went go going 意思都类似怎么合并？

stemming：one way to normalize 根据规则来但不保证最终出来的词一定在词库

lemmazation：可以保证最后标准化的单词是有效单词词库里的单词

分词算法最大匹配算法 hmm crf

最常用的分词工具

word /sentence representation

文本也要转换成特征向量

最简单的独热编码
句子的独热编码分词后按是否出现排列0,1

如何衡量两个句子之间的关系？欧氏距离表示两个句子之间的相似度

计算相似度（余弦相似度）内积本身就是余弦相似度的特例

并不是出现的越多就越重要并不是出现的越少就越不重要

就要有一个加权再乘以的出现频率于是就有了tf-idf

TF-IDF term frequency TF(一个单词出现了多少次) inverse document frequencyIDF（Y一个单词的重要性）

词向量如何判断两个向量之间的相似度？

sim（爬山运动）> sim（我们昨天）

（1）欧式距离

（2）余弦相似度

但是没有办法表示之间的含义独热编码不能表达出一个单词具体的含义

而且 sparsity 非常多的0 很稀疏

稀疏矩阵处理

用更稠密的方式表示分布式表示法 distributed representation

可以自定义dimension

这样就很容易判断出两个单词之间的相似度

问题为如何训练一个词向量？

Q:100维的one-hot表示法最多可以表示多少个不同的单词？100

Q:100维的分布式表示法最多可以表示多少？无穷个 capacity

通过一个model去训练出词向量

input :corpus(语料库) 多少个文档

output：词向量

model：经典的模型 skipgram、glove、cbow 词向量模型传统方式

考虑上下文的词向量训练方法 elmo、bert、xlnet

假设我们训练出一个词向量我们把词向量映射到一个二维空间里面

通过降维的方式把一百维的向量降维到一个二维空间里面然后可视化

降维的方法：T-sne（在词向量领域用的最多） PCA等等

有了词向量的表示之后句子的向量字母表示？

词向量是一个向量

最简单的方法加和求平均也叫average pooling

也可以在句子向量后面加上一些 tf-idf特征或者n-gram

词向量怎么学习？review里面详解

词向量学习的逻辑

分布式假设当我去理解一个单词的时候我们可以根据他周围的单词去理解猜测

假设我们要训练的单词为h今天 h疫情 h由于

根据h今天和h 疫情预测出h由于如果词向量训练的很好我们是可以预测的

相邻的单词之间在语义上类似

后面的所有的算法都是基于分布式假设

skip gram model

能不能用中间的单词预测周围？？ skip gram的中心思想肯定给cbow更难

刚才的思想是根据周围的单词预测中间的单词也叫cbow

希望有一个词向量模型可以得到一个词向量预测的能力越大越好

skip gram训练的方式

概率的乘积就是我们的目标函数我们要最大化我们的概率就是训练的过程

具体的细节

语料库：AI 的发展很快 window_size=1

maximize：用AI 来预测的用的来预测AI 用的来预测发展用发展来预测的用发展预测很用很来预测发展用很来预测快用快来预测很

每个概率我们需要用一个参数表示这样才能最终优化

简化一下上面的式子

每个单词有两个角色一个叫上下文词一个叫中心词为了区分用u代表上下文矩阵 v代表中心词矩阵 w表示中心词 c表示上下文词用w预测c

字母表示类似softmax 内积越大相似度越高条件概率越大也满足设计理念分母就是做一个归一化的操作

为什么非要定义成这样的形式？只要c和w意思相近只要输出的概率越大就行内积距离都行

整个skipgram目标函数的推导过程

优化的过程用梯度下降法求解 log sum没办法简化时间复杂度很高没办法解决

简化的方式：Negative sampling 和Hierarchical softmax

总结 skipgram 用中心词预测周围的词不断用这种方式训练模型最终可以得出一个向量

CBOW 和Skip Gram 区别之前讲过

skip gram 最经典效果也是最好的之一还有 glove

Subword Model with Skipgram

Fasttext 刚才讲的skipgram那些问题不能解决？

OOV: out of vocabulary 语料库里有大量单词测试库里有很复杂的单词但是没有出现在语料库里面或者说出现的次数很少那自然预测出来的不准确

这时候就要用到一个fasttext 用到N-gram features

假设手里面已经知道了几个单词的向量或者含义

walk study studying typing（及中文意思）以上是训练集中出现的

但是walking 没有出现在训练数据里面没办法得到词向量但是人类一眼可以看出根据训练集中的数据可以推测出

如何让模型也知道这件事情呢？

walking 分解为 4-gram features

walking整体没有出现但是walking的子模块可能出现过

glove（global vectors for word representation ）

结合了矩阵分解MF 和 skipgram

一词多义怎么办

contexualized embedding 动态调整当前单词的词向量之后会讲

语言模型在分词中的应用

贪心算法不会考虑语义只考虑匹配的关系

考虑语义的方法：

但是生成所有可能的分割是非常多的（指数级的）

viterbi算法使计算变得更加高效

word segmentation with unigram model ，using viterbi

找路径最短 dp动态规划

文本特征工程

可以把以下特征结合在一起

TF-IDF特征、embedding特征（word2vec）、n-gram特征、pos（词性特征）、主题特征（LDA模型学习一个主题的分布）、Task-specific feature （一句话里面多少个单词，大写有多少个，是否有人名、整个字符的长度）

具体的特征就看具体任务

就是把每个句子对应到一个embedding里面

测试集是拿不到的

n-gram的s和v怎么理解

如bi-gram 就是把两个单词结合看成一个单词然后把s对应成向量

降维的两种方式

特征选择

高维特征映射到低维

CBOW更符合根据上下文填空为什么skipgram效果更好

从样本的角度

从难易度

CBOW简单 SKIPGRAM 难

从smoothing effects

对于出现次数少的单词效果不太好

但是出现次数多的效果还是可以

标签：NLP,word2vec,预测,--,模型,单词,gram,model,向量
来源： https://blog.csdn.net/m0_53292725/article/details/121222245