cs224n学习笔记1
作者:互联网
目录
Continuous Bag of Words 连续词袋模型
word vector 词向量
one-hot vector 独热码:仅依靠1的位置区分单词,词向量无法相互关联
于是考虑用点积结果表征单词相似性,也就有了word2vec模型
word2vec 模型
生成词向量算法:Skip-grams(SG),Continuous Bag of Words(CBOW)
训练方法:Hierarchical softmax,Negative sampling
Skip-gram 模型
对每个词汇,计算以其作为中心词时上下文出现其他词汇的概率分布
为了使上下文中出现的单词在词向量模型中计算出的概率尽可能高,有如下损失函数:
其中,使用softmax方式表征单词o在中心词c的上下文出现的概率为:
每个单词有两个向量表示,上下文中使用u,中心词时使用v
随后使用梯度下降计算参数J(θ),即各个单词的u向量和v向量
Continuous Bag of Words 连续词袋模型
与SG模型类似,思路是根据上下文词汇预测中心词,即将上下文词向量相加与中心词向量内积计算中心词概率
共现矩阵作为词向量
维度高,维护成本高
解决方案:SVD method 奇异值分解
优点:训练快,高效使用统计数据
缺点:只能粗浅捕捉单词相似性,大数据集上乏力
组合模型:Glove
遍历所有共现矩阵中的单词对,得到损失函数:
最终将u向量与v向量相加就能得到最能表征单词特征的向量
词向量的评估
内在评估:评估内在的向量表征效果,如单词相似性
外在评估:应用于具体任务中,如命名实体识别
p.s. 考研11408一战折戟,决定二战的同时记录下自己的学习历程,便有了这篇文章,共勉
标签:单词,中心词,表征,模型,笔记,学习,cs224n,上下文,向量 来源: https://blog.csdn.net/TARO_ZERO/article/details/123072719