gensim的“ docvecs”是什么?
作者:互联网
上图来自Distributed Representations of Sentences and Documents,介绍Doc2Vec.我正在使用Gensim的Word2Vec和Doc2Vec的实现,它们很棒,但是我希望在一些问题上保持清晰.
>对于给定的doc2vec模型dvm,dvm.docvecs是什么?我的印象是它是包含所有词嵌入和段落向量d的平均或连接向量.这是正确的还是d?
>假设dvm.docvecs不是d,那么可以单独访问d吗?怎么样?
>作为奖励,d是如何计算的?该文件只说:
In our Paragraph Vector framework (see Figure 2), every
paragraph is mapped to a unique vector, represented by a
column in matrix D and every word is also mapped to a
unique vector, represented by a column in matrix W.
感谢您的指导!
解决方法:
Doc2Vec模型的docvecs属性保存在训练期间看到的“文档标签”的所有训练向量. (这些在源代码中也称为“ doctags”.)
在最简单的情况下,类似于“段落向量”文件,每个文本示例(段落)都将序列号整数ID作为其“标签”,从0开始.这将是docvecs对象和模型的索引. docvecs.doctag_syn0 numpy数组与“段落向量”文件摘录中的(大写)D本质上是相同的.
(Gensim还支持将字符串标记用作文档标签,每个文档使用多个标签,并在许多培训文档中重复使用标签.对于字符串标签(如果有的话),它们将通过dict模型映射到文档末尾附近的索引.docvecs.doctags.)
标签:gensim,doc2vec,nlp,python 来源: https://codeday.me/bug/20191111/2022620.html