其他分享
首页 > 其他分享> > 词向量

词向量

作者:互联网

转载:https://www.cnblogs.com/MartinLwx/p/10005520.html#4209708

为什么需要词向量?

众所周知,不管是机器学习还是深度学习本质上都是对数字的数字,Word Embedding(词嵌入)做的事情就是将单词映射到向量空间里,并用向量来表示

一个简单的对比

对应的词所在的位置设为1,其他为0;

例如:King, Queen, Man and Woman这句里面Queen对应的向量就是[0,1,0,0][0,1,0,0]

不足:难以发现词之间的关系,以及难以捕捉句法(结构)和语义(意思)之间的关系

基本思想是把每个词表征为KK维的实数向量(每个实数都对应着一个特征,可以是和其他单词之间的联系),将相似的单词分组映射到向量空间的不同部分。也就是Word2Vec能在没有人为干涉下学习到单词之间的关系。

举个最经典的例子:

king- man + woman = queen

实际上的处理是:从king提取了maleness的含义,加上了woman具有的femaleness的意思,最后答案就是queen.

借助表格来理解就是:

 animalpet
dog -0.4 0.02
lion 0.2 0.35

比如,animal那一列表示的就是左边的词与animal这个概念的相关性


两个重要模型

标签:century,单词,wt,prose,nineteenth,向量
来源: https://www.cnblogs.com/lzc978/p/10774665.html