12 Masked Self-Attention(掩码自注意力机制)
作者:互联网
博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看
配套 github 链接:https://github.com/nickchen121/Pre-training-language-model
配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html
上节课回顾
《Attention is all you need》
Attention
Self-Attention(Self--》自--》QKV 同源)
句法结构,语义结构
自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足
Masked(掩码) Self-Attention--》在自注意力模型上面做了改进
为什么要做这个改进:生成模型,生成单词,一个一个生成的
当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的
I have a dream
-
I 第一次注意力计算,只有 I
-
I have 第二次,只有 I 和 have
-
I have a
-
I have a dream
-
I have a dream <eos>
掩码自注意力机制应运而生
掩码后 1
掩码后2
未来我们讲 Transformer 的时候会详细讲!
Multi-head Self-Attention。
标签:12,Self,Attention,生成,单词,掩码,注意力 来源: https://www.cnblogs.com/nickchen121/p/16470723.html