首页 > 其他分享> > 李宏毅DLHLP.26.Audio BERT.2/2

李宏毅DLHLP.26.Audio BERT.2/2

2021-02-12 15:29:21 作者：互联网

文章目录

介绍
AALBERT. BY 纪伯翰
Self-attentions By 杨书文

介绍

本门课程是2020年李宏毅老师新课：Deep Learning for Human Language Processing（深度学习与人类语言处理）
课程网站
 B站视频
公式输入请参考：在线Latex公式
上节课提到了李宏毅老师团队做的一个Mockingjay模型，在Mockingjay的后继工作有三个模型，上节课讲了一个，这节课讲剩下两个。

AALBERT. BY 纪伯翰

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

Recap: ALBERT

是BERT的轻量化版本，用更少的参数来达到BERT的效果。主要有如下三点：
Factorize Embedding Matrix
Share Parameters across layer
Model Configuration between BERT

Factorize Embedding Matrix

参数减少，主要体现在：
Original BERT:
30000 x 768 = 23.04M

ALBERT:
30000 x128 = 3.8M
128 x 768 = 0.098M
Total: 3.898M
原始的BERT的词表大小是3W，每个词向量维度是768.
ALBERT先将768的输入降维到128，在进行计算时，先加一个投影层（简单的linear的变换），把128还原回768大小，这样做可以节省很多内存。
在这里插入图片描述

Share Parameters across layer

原始的BERT有12层transformer，参数都不一样。
ALBERT则把这12层transformer改为一个，然后loop 12次。这样做表现也没掉太多。这个是减少参数最大的地方。
在这里插入图片描述

Model Configuration between BERT

ALBERT提供了四种模型选择。下表中可以看到不同模型在设置上有什么不一样的地方。
在这里插入图片描述
二者在几个下游任务的表现：

这里虽然ALBERT看上去，它的xxlarge模型效果不错，而且参数量也没有BERT的large多，但是它的hidden layer维度很大，是4096，因此它的速度是要慢不少的。

AALBERT

先把AALBERT和ALBERT做一下比较：
在这里插入图片描述
ALBERT的输入带有Mask的句子，而AALBERT则是Mask的Mel Spectrogram。
与mockingjay的比较：

可以看到，在参数共享上二者有不同

预训练阶段，二者都是用mask过的mel spetrogram进行训练，得到结果经过最后那个黄色的predict head，得到的结果和groud truth进行L1 norm loss。
LibriSpeech 360 hours dataset, 500k step, batch size 48.
下面看下下游任务的效果：

Phoneme Classification

有两个场景：
Weighted-sum and fine-tune feature extraction
前者是将每一层设置一个权重，然后学习这个权重，每层的参数不变，最后将每层的结果加权求和做平均得到最后的表征。
在这里插入图片描述
后者是将下图中蓝色的部分的参数进行finetune

其实和mockingjay套路一样
分类器描述：Utilizing MLP classifier behind representation to train phoneme classification task.
结果：

不同训练数据量的实验

Speaker Identification

也有两种场景：
Utterance-level
Frame-level
前者：
一段声音信号经过模型会抽取得到一排vector，然后再对这一排vector应用一个mean pooling，合成一个vector，然经过linear classifier进行分类。
Utilizing mean pooling over an utterance to generate utterance-level representation.
Simple linear classifier need to train in the Utterance-level speaker identification

在这里插入图片描述
后者：
Classify Each frame-level representation to corresponding speaker.
Simple linear Classifier need to train in the frame-level speaker identification
不对抽取出来的vector做pooling操作，而是每个vector都做一次分类操作。

Overall Performance
在这里插入图片描述

Self-attentions By 杨书文

这一节主要是讲用Self-attention来训练reconstruction loss的原理，里面有很多可视化的内容，我就不写太细了，涉及到很多图。因为传统的attention任务中往往是有指定某个attention的对象，例如分辨男女，那么attention可能会关注声音频率，但是在BERT里面，并没有指明什么任务，直接用的是reconstruction loss为目标进行训练的，那么这样训练出来的模型attention到底是什么样子呢？

在这里插入图片描述
最后结论如下，全局attention还在研究中。

标签：BERT,768,level,李宏毅,attention,ALBERT,vector,DLHLP.26,Audio
来源： https://blog.csdn.net/oldmao_2001/article/details/113772330