词向量

2019-04-26 15:49:18 作者：互联网

众所周知，不管是机器学习还是深度学习本质上都是对数字的数字，Word Embedding(词嵌入)做的事情就是将单词映射到向量空间里，并用向量来表示

对应的词所在的位置设为1，其他为0；

例如：King, Queen, Man and Woman这句里面Queen对应的向量就是[0,1,0,0][0,1,0,0]

不足：难以发现词之间的关系，以及难以捕捉句法（结构）和语义（意思）之间的关系

基本思想是把每个词表征为KK维的实数向量（每个实数都对应着一个特征，可以是和其他单词之间的联系），将相似的单词分组映射到向量空间的不同部分。也就是Word2Vec能在没有人为干涉下学习到单词之间的关系。

举个最经典的例子：

king- man + woman = queen

实际上的处理是：从king提取了maleness的含义，加上了woman具有的femaleness的意思，最后答案就是queen.

借助表格来理解就是：

	animal	pet
dog	-0.4	0.02
lion	0.2	0.35

比如，animal那一列表示的就是左边的词与animal这个概念的相关性

功能：根据当前词预测上下文
原理分析
- 和CBOW相反，则我们要求的概率就变为P(Context(w)|w)P(Context(w)|w)
- 以上面的句子为例，数据集的构成，(input，output)，(input，output)就是(the,prose),(the,of),(the,nineteenth),(the,century)(the,prose),(the,of),(the,nineteenth),(the,century)
损失函数
- 如果假设当前词为ww，那么可以写成P(wt+j|wt)(−m<=j<=m,j≠0)P(wt+j|wt)(−m<=j<=m,j≠0)，每个词都会有一个概率，训练的目标就是最大化这些概率的乘积
- 也就是：L(θ)=∏(−m≤j≤m,j≠0)P(wt+j|wt;θ)L(θ)=∏(−m≤j≤m,j≠0)P(wt+j|wt;θ)，表示准确度，要最大化
- 在概率中也经常有：J(θ)=−1TlogL(θ)=−1T∑Tt=1∑log(P(wt+j|wt;θ))J(θ)=−1TlogL(θ)=−1T∑t=1T∑log(P(wt+j|wt;θ))，加个负号就改成最小
- 概率示意P(o|c)=exp(uTovc)∑vw=1exp(uTwvc)P(o|c)=exp(uoTvc)∑w=1vexp(uwTvc)
  - vcvc：当cc为中心词时用vv
  - ucuc：当cc在ContextContext里时用uu
优点
- 在数据集比较大的时候结果更准确
不足
- 词的顺序不重要，并没有考虑到中文的语法
- 一词多义：比如tie的意思有很多个，要如何聚类，可以分出tie-1，tie-2等

标签：century,单词,wt,prose,nineteenth,向量
来源： https://www.cnblogs.com/lzc978/p/10774665.html