首页 > 其他分享> > 词向量模型word2vec

词向量模型word2vec

2019-10-19 20:55:54 作者：互联网

Word2vec 是一种计算效率特别高的预测模型，用于学习原始文本中的字词嵌入。
它分为两种类型：连续词袋模型 (CBOW) 和 Skip-Gram 模型。
从算法上看，这些模型比较相似，只是 CBOW 从源上下文字词（“the cat sits on the”）中预测目标字词（例如“mat”），
而 skip-gram 则逆向而行，从目标字词中预测源上下文字词。这种调换似乎是一种随意的选择，
但从统计学上来看，它有助于 CBOW 整理很多分布信息（通过将整个上下文视为一个观察对象）。
在大多数情况下，这对于小型数据集来说是很有用的。
但是，skip-gram 将每个上下文-目标对视为一个新的观察对象，当我们使用大型数据集时，skip-gram 似乎能发挥更好的效果。
在本教程接下来的部分，我们将重点介绍 skip-gram 模型。

该模型的数学原理是最大似然率 (ML) 原则，为实际字词分配高概率，并为噪声字词分配低概率时，此目标被最大化。
实际上，我们会利用非常相似的噪声对比估算 (NCE) 损失，TensorFlow 为此提供了一个方便的辅助函数 tf.nn.nce_loss()。
loss = tf.reduce_mean(tf.nn.nce_loss(nce_weights, nce_biases, train_labels, embed,num_sampled, vocabulary_size))

一旦模型学习了良好的单词植入，那么它们实际上可以在任何NLP应用中发挥作用：
毕竟，无论是什么应用，“milk”仍然比较接近“water”，而和“shoes”差距较大。事实上，你可能希望下载预训练的单词嵌入，而不是训练自己的。
正如在重用预训练层一样（参见第11章），可以选择冻结预训练嵌入（例如，创建嵌入变量），或者让反向传播调整应用程序。
第一种选择将会加快培训，第二种可能会提高性能。

嵌入对于代表可能占用大量不同值的分类属性也很有用处，特别是当值之间存在复杂的相似性时，例如，考虑职业、爱好、菜肴、品种、品牌，等等。

我们已经拥有了实现一个机器翻译系统的所有工具。现在一起看看如何实现吧。

标签：嵌入,word2vec,skip,模型,nce,gram,字词,向量
来源： https://www.cnblogs.com/czlong/p/11705112.html