其他分享
首页 > 其他分享> > ICASSP 2020中的语音合成

ICASSP 2020中的语音合成

作者:互联网

ICASSP2020中与语音合成相关一共有5个Session,分别是:

共计43篇论文。可以看到这些论文的分布:

ICASSP2020语音合成部分的主要发展趋势:

文本前端

Zhang等, 《A Hybrid Text Normalization System Using Multi-Head Self-Attention For Mandarin》.

规则系统和神经网络混合的文本前端。主要探讨的是文本正则化(Text Normalization, TN),将非标准词(Non-Standard Words, NSW)转化为话语词(Spoken-Form Words, SFW)。比如将“打911”转化为“打九幺幺”,“开始于10:30”转化为“开始于十点半”或者“开始于十点三十”。文中使用正则表达式匹配,正则匹配不了了就送到神经文本正则模型(Neural TN Model),然后将原来文本、规则系统输出和神经文本正则模型的输出拼接起来,作为最终的输出。神经文本模型是一个多头自注意力机制的模型。

做词嵌入时,使用预训练的w2v(Wikipeida语料训练,更优)和BERT产生向量。论文中将使用神经文本正则模型的输出模式分为36种,神经模型的输出模式再传入模式读取器转化为SFW,文中还探讨了训练数据集中输出模式的种类不平衡的问题,上采样(在文本窗口内,用padding替换若干个字符,随机改变文本中数字,移动上下文窗口)和损失函数改造。整个混合系统的结构图:

Pan等, 《A Unified Sequence-to-Sequence Front-End Model for Mandarin Text-to-Speech Synthesis》.

统一的seq2seq中文文本前端。这篇的文本正则化部分是使用本文上一篇Hybrid TN With Multi-Head Self-Attention中的方法。中文文本前端主要包括文本正则化(Text Normalization, TN),中文分词(Chinese Word Segment, CWS),词性标注(POS[part of speech] tagging),文本转音素(Grapheme-to-Phoneme, G2P)和韵律预测。韵律预测部分,ByteDance将韵律层级分为3个层级,韵律词(Prosody Word, PW),韵律短语(Prosody Phrase, PP)和语调短语(Intonation Phrase, IP)。这篇论文提出的统一序列到序列的文本前端,输入文本,输出音素、音调和韵律,整体结构类似于Tacotron2。

只不过在Character Embedding之后加入了分词和POS,这两个是通过辅助模块(Auxiliary Module)完成的,这个模块主题是带洞CNN(dilated-CNN, DCNN)或者transformer编码器(Transformer Encoder, TE)组成。分词和POS通过人民日报语料训练,韵律边界和拼音标签是使用内部数据集训练。DCNN由3个带洞卷积层组成,卷积核大小5,卷积核数量128,扩张率分别为1、2和4。TE包含一个256单元LSTM和一个8头自注意力模块,TE中同样包含位置嵌入(Position Embedding)。

文本首先通过词嵌入(Character Embedding)模块转化为300维词嵌入向量,这个词嵌入是通过1GB维基百科预训练的Word2Vec模型实现。词嵌入向量传入辅助模块,辅助模块的输出是分词和词性标注的one-hot向量,其中分词有4个标签,词性标注有99个标签。然后在CRF/Softmax层之前的dense表示和原来的嵌入向量拼接,作为后续主体模块的输入。主体模块的输出是音素、音调和韵律序列,以及停止符(Stop Token),作为后续声学模型的语言学输入。

Conkie和Finch, 《Scalable Multilingual Frontend for TTS》.

多语种文本前端。这个文本前端兼具规范化和Grapheme-to-Phoneme(G2P)的功能,直接将文本normalization和G2P任务作为机器翻译来做,实际上就是照办了Transformaer那一套,提出的框架还是Transformer。论文中尝试了两种做法,分别是将normalization和G2P分开做(Dual Model)以及两个模块联合用一个模型做(Combine),效果前者好一些,毕竟分开做,每个模型负担小一些。论文中还针对长文本,进行了类似于分帧(Splicing)的操作,窗长25个单词,重叠10个单词。同时,利用了字节编码对(Byte Encoding Pair, BEP)技术提升NLP模型的表现。

声学模型

多语种

Zhou等, 《End-to-End Code-Switching TTS with Cross-Lingual Language Model》.

CS(Code-Switching)TTS,编码转换语音合成/跨语种语音合成。从预训练的VecMap[1]中产生跨语种词嵌入(Cross-Lingual Word Embedding, CLWE),CLWE能够将不同语种的文本映射到同样的嵌入空间,分享彼此的上下文信息。产生音素嵌入之后,然后经过残差编码器,这个CLWE是和Speaker Embedding一起拼接到残差编码器输出之后的(见论文Fig3)。

实验数据集:THCHS-30和LibriTTS训练平均声学模型。字符级别的语言标示(Character-Level Language Identity,LID)one-hot之后拼接到音素嵌入向量。跨语种语言模型(Cross-Lingual Language Model, CLLM)是一个2LSTM(650units, dropout0.3),speaker embedding使用factor analysis获取。

[1] Mikel Artetxe, Gorka Labaka, and Eneko Agirre, “A robust selflearning method for fully unsupervised cross-lingual mappings of word embeddings,” arXiv:1805.06297, 2018.

Cao等, 《Code-Switched Speech Synthesis Using Bilingual Phonetic Posteriorgram with Only Monolingual Corpora》.

CS TTS,跨语种语音合成。就是在合成文本中存在不同语言的文本混合的语音合成。使用语音后验图(Phonetic PosteriorGrams, PPGs)建模语种说、话人无关的声学特征,PPG是一个时间-类别矩阵,表示某一特定帧音素类别的后验概率。解码器用线性映射输出PPG、LF0(log F0)、VUV(Voice/Unvoice)和停止符。之后,speaker embedding、双语PPG、LF0和VUV拼接送入2FC和4BLSTM组成的变换模型,speaker embedding和变换模型联合训练。

稳定性

Battenberg等, 《Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis》.

提升TTS生成长句稳定性。谷歌的论文,提出了两种注意力机制,基于GMM的注意力和动态卷积注意力(Dynamic Convolution Attention,DCA)。后者主要是防止动态滤波器后向移动。

Liu等, 《Teacher-Student Training for Robust Tacotron-Based TTS》.

提升端到端TTS模型稳定性问题。这里主要解决的是自回归序列生成模型普遍存在的曝光偏差问题(exposure bias problem)。所谓曝光偏差,就是在使用教师强制的训练方式时,在训练和推断阶段,生成分布和真实数据分布不严格一致,因此条件概率在训练和推断阶段存在协变量偏移的问题,之前的预测结果发生错误,会导致错误传播,后续生成的序列也会偏离真实分布。解决这个问题的常规方案之一就是计划采样(Scheduled Sampling),在一个时间步上以一定概率使用真实数据,一定概率使用前一个时间步的预测值。这篇文章用蒸馏学习的方法解决曝光偏差,就是先训练一个老师模型,老师模型使用用真实数据引导训练,学生模型始终使用预测值作为上一个时间步的结果,引导下一个时间步的预测。知识蒸馏时候,引入了一个损失函数用于度量学生和老师的距离,就是解码器隐状态以及梅尔频谱的MSE。

Focusing on Attention- Prosody Transfer and Adaptative Optimization Strategy for Multi-Speaker End-to-End Speech Synthesis.

提升TTS稳定性,控制发音时长,自适用优化策略。1.提出一种带自反馈的时长控制器;2.提出一种自适用优化机制应对<文本,音频>不一致导致的不稳定问题。由于不发音音素和特殊发音等原因,对齐路径并不一定是一直单调向前的。时长控制器是一个DNN,输入文本部分(c_t,q_t)嵌入部分(词嵌入,韵律嵌入和说话人嵌入)和时长反馈部分(当前时间步、之前时间步。。。)。输出alignment向前、向后和不动的概率。

Yasuda, Wang和Yamagishi, 《Effect of Choice of Probability Distribution, Randomness, and Search Methods for Alignment Modeling in Sequence-to-Sequence Text-to-Speech Synthesis Using Hard Alignment》.

探讨语音合成模型稳定性问题。探讨如何选择良好的概率密度函数(Probability Distribution Fucntion, PDF)和对齐转移的采样方式。这篇文章对端到端TTS的“对齐方式”(注意力机制,alignment)有比较深入的理解和探讨。

韵律和表现力

个性化

在目标说话人语料受限的情况下,合成具有目标说话人特点的语音。

工具箱

Hayashi等, 《Espnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit》.

ICASSP2020中,ESPNet-TTS的论文也发表了。这是一种开源的语音合成合集,囊括了目前主流的语音合成,特别是端到端的语音合成方法,可以作为很好的学习、上线、论文基线。

GitHub地址:https://github.com/espnet/espnet

神经网络声码器

在合成质量和模型复杂度之间取得较好的平衡。

歌声合成

侧重于在声学模型中考虑乐谱中时长、音调等约束:改进网络结构、基频参数化。

其它论文

总结

CCF语音对话与专业组|“语音对话与听觉前沿研讨会”

标签:TTS,模型,Speech,语音,ICASSP,2020,文本,Synthesis
来源: https://www.cnblogs.com/mengnan/p/13200062.html