Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
作者:互联网
本文是观看上海交通大学陈谐老师在《人机语音通信》课程的讲座的笔记,原视频链接,本文参考[3] [4]。
1 Model Overview: Transformer Transducer
语音识别发展背景:
首先是GMM-HMM:混合高斯模型作声学模型,n-gram作为语言模型,hmm做时序建模模型;
12年深度学习发展,声学模型和语言学模型分别都逐渐被深度神经网络替换;
最近流行的是end2end模型(用存粹的神经网络模型进行语音识别,也不用hmm),模型更简单,此时可以将声学模型和语言模型联合起来进行优化,不再需要复杂的字典、声学模型和语言学模型等,性能也比较好(错误率比之前更低),这种模型结构有三大类:LAS、CTC、RNN-T。
这种端到端的语音识别系统在训练的时候也需要考虑以下因素:准确率、是否能实时处理语音信号、是否能流式处理、域适应问题。目前语音识别领域使用较多、性能较好的是transformer transducer模型[1],结构如下图所示,label encoder和audio encoder两个部分使用的结构是transformer的时候,模型结构为transformer transducer:
encoder部分使用的transformer结构如下图所示:
接下来详细解释Neural Transducer的结构如下,一般encoder部分使用transformer结构,predictor部分使用lstm结构,x代表语音信号的输入,y代表识别出来的文字输出,分别经过encoder和predictor之后,代表语音表征f和文字表征g,再将这两个表征进行联合训练(一般是线性层加relu函数)得到表征z,最后利用这个表征z来预测下一个词。
因为输入的语音帧数t一般是远大于文字数u的,因此通常来说,t >> u。为了实现对齐,一般需要在输出的文字中填充blank符号。每一个识别结果填充blank的方式有很多种,对所有填充的可能进行累积起来的概率就是目标函数。
上面这些模型存在两个大问题:
一、流式处理问题
使用transformer做流式处理的时候,由于有attention,会存在两方面的问题:
- 内存和计算量会随着语音帧长的逐渐增加而线性递增;
- 使用未来帧进行预测的时候(允许有一定延迟的情况下,这种方式可以提高识别率),look-ahead window会随着层数的增加而增加。
二、语言自适应问题
此外,传统的声学模型和语言模型分开的情况下,只需要单独在语言模型上进行语言自适应即可,但是transducer模型没有单独的语言模型,因此解决语言自适应问题有困难。
2 Efficient Streaming: Attention Mask is All You Need
针对流式处理问题,使用attention mask is all you need方案来解决,大概是在计算attention weight的时候,设计一个attention mask来决定对哪些帧计算weight,哪些帧不计算weight。
(1)离线系统,对任何一帧的预测都会看到整个句子,此时attention mask设置为全1即可。(非流式识别)
(2)将attention mask设置为下三角,每一帧只能看到历史信息,不能看到未来帧信息,因此不需要等语音结束就可以进行流式识别,但是内存和计算量会随着语音帧长的逐渐增加而线性递增。
(3)将attention mask中太远的历史帧设置为0,只保存有限的历史帧信息(3帧),因为计算代价不会随着时间的增长而增加(比如识别f10和f100的时候计算量是一样的)。
但是某些情况下,允许存在一定的延迟以提高识别性能,即需要对未来的某些帧也计算attention weight。
(4)允许看到未来最多两帧(lookahead window为[0, 2]),历史3帧。
(5)上面的mask可能存在某些帧仍然看不到未来帧的信息,因此有了下面的mask,look-ahead window为[1, 3](这种方式计算量难免会稍微增加)
实验表明,每一层也并不需要看到所有帧的历史信息,只需要看到一定数量的历史帧,识别错误率也和全部历史帧的错误率差别不大。
3 Efficient LM Adaptation: Factorized Neural Transducer
针对语言模型自适应问题,目前存在三个解决方法:
(1)基于TTS的方法
首先将目标语言文本进行语音合成,然后将合成的语音和文本输入模型进行finetune,这种方法的缺点就是计算代价比较大。
(2)external LM fusion
(3)fast LM adaptation
对端到端模型中的内部语言模型进行finetune,但是训练流程比较复杂。
因此[2]提出了一种新的解决办法 Factorized Neural Transducer(如下图),将预测blank和预测词的predictor部分分解成两个部分:predictor_b和predictor_v,分别只预测blank和只预测词。因此黄色结构部分就是一个正确的语言模型,它可以用来做语言模型自适应。训练的时候将transducer和语言模型的loss组合起来一起训练,自适应的时候只针对语言模型的loss进行训练。
利用文本进行语言模型自适应的实验结果表明,这种模型结构能够有效提升性能。
4 Discussion and Future Work
- 验证语言模型是否真的是语言模型;
- 提高benchmark性能;
- 重新考虑RNN-T中的blank是否科学(正是因为blank的存在才会导致transducer做语言自适应比较复杂),考虑是否需要blank或者是否有更好的blank;
- 还有一些提高性能的问题,比如更好地压缩延迟等。
[1] Zhang Q, Lu H, Sak H, et al. Transformer transducer: A streamable
speech recognition model with transformer encoders and rnn-t
loss[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP). IEEE, 2020: 7829-7833.
[2] Chen X , Meng Z , Parthasarathy S , et al. Factorized Neural Transducer for Efficient Language Model Adaptation[J]. 2021.
[3]【Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset-哔哩哔哩】 https://b23.tv/E8FFm4F
[4] Chen X, Wu Y, Wang Z, et al. Developing real-time streaming transformer transducer for speech recognition on large-scale dataset[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 5904-5908.
标签:Transformer,Scale,语言,模型,attention,transformer,Dataset,语音,blank 来源: https://blog.csdn.net/weixin_44070509/article/details/122387404