其他分享
首页 > 其他分享> > Dynamic Meta-Embeddings for Improved Sentence Representations【论文笔记】

Dynamic Meta-Embeddings for Improved Sentence Representations【论文笔记】

作者:互联网

一、摘要

  在很多NLP任务上的首要步骤就是选择使用哪种预训练词向量,我们认为这一步骤留给神经网络自己选择比较好。作者提出了dynamic meta-embeddings,其实就是对embedding做了attention,在各种任务上的相同模型上取得了state-of-the-art的效果。

二、介绍

  毫不夸张地说词向量是NLP的一种革命性的突破。有大量文献研究哪种词向量对哪些任务最有用。首要步骤就是选择使用哪种词向量,人们经常使用别人预训练好的词向量。虽然这通常是很自然的事情,但是词向量是否对下游任务有用往往难以预测,因为下游任务可能与词级别基准无关。一种方法就是尝试结合各种词向量的优点。 最近的研究称为meta-embeddings,融合各种词向量,效果不错。
  **Why is this a good idea?**首先,它是embedding-agnostic,这意味着NLP流程化的一个主要超参数已经过时了。其次,它在各种任务上提升了效果。最后,或许也是最重要的,它使我们能克服当前系统的一些缺陷。

三、相关工作

  有大牛在情感分类任务上尝试过结合无监督和有监督的词向量;结合词级别和字级别的词向量。最近关于meta-embeddings的研究有了新的进展。这可用于上下文、句子表示。如何结合多种词向量与多模型和多视角学习有关。比如,结合CNN的视觉特征和词向量已经实验过;不同模型的词向量也通过拼接结合在一起 r=[αu,(1α)v]r=[\alpha u,(1-\alpha)v]r=[αu,(1−α)v]。本篇文章,作者动态的学习权重来结合各种表示。
  已经探索了不同词向量作为初始化的有用性,也实验过不同结构和参数。作者的工作可以看做是attention机制在词向量中的应用,最近的句子级交互的self-attention和inner-attention,attention机制代替了原来对齐句子的方式。这里,作者对每种词向量学习attention权重,然后用于句子表示中。

四、dynamic meta-embeddings

  大多数NLP系统使用一个词向量:word2vec、GloVe、Fasttext,作者使用了多种词向量,根据上下文为每种词向量训练得相应的权重,然后网络根据权重偏好哪种词向量,其实就是embedding attention。
  一个句子s:{tj}j=1s\{t_j\}^s_{j=1}{tj​}j=1s​,有nnn中词向量,那么序列表示为:{wi,j}j=1sRdi(i=1,2,...,n)\{w_{i,j}\}^s_{j=1}\in R^{d_i}(i=1,2,...,n){wi,j​}j=1s​∈Rdi​(i=1,2,...,n)

五、总结

  实验过程不再详细介绍。本篇论文的亮点就是attention在embedding的应用,结合多种embedding的优点,之前比赛的时候也融合过多种embedding:拼接、求和,这种新思路可以在以后的比赛中尝试一波。

标签:...,1s,Improved,Sentence,attention,Dynamic,wi,任务,向量
来源: https://blog.csdn.net/qq_32782771/article/details/85067849