微软的DeepSinger产生可以英语和中文唱歌的声音
作者:互联网
微软和浙江大学的研究人员团队最近开发了一种多语言,多歌手演唱语音合成(SVS)系统,称为DeepSinger。该系统是使用从音乐网站获取的唱歌训练数据从头开始构建的。
随着深度神经网络的发展,Singing Voice Synthesis(SVS)通过歌词生成歌声,这在近年来的研究和工业界引起了极大的关注。此技术类似于使机器讲话的“文本到语音”方法。
传统的SVS主要依赖于人类的录音和注释,并需要大量高质量的歌唱录音作为训练数据,并且在歌词和歌唱音频之间进行严格的数据对齐以实现准确的歌唱建模。结果,这增加了数据标记的成本,并阻碍了该领域产品的研发。这些持续的挑战导致了新的SVS系统DeepSinger的开发。
在DeepSinger背后
DeepSinger,一种唱歌声音合成系统,通过使用唱歌训练数据从头开始构建。DeepSinger的管道包括几个数据挖掘和建模步骤。他们是:-
- 数据爬网:为了从Internet上获取大量歌曲,研究人员从一个音乐网站上以三种不同的语言(中文,粤语和英语)抓取了成千上万首歌曲和他们的最佳歌手的歌词。
- 唱歌和伴奏分离: Spleeter是一种流行的音乐分离工具,用于将歌声和歌曲伴奏分离。
- 歌词到歌唱的对齐方式:建立对齐模型可以将音频分段为句子,并提取歌词中每个音素的歌唱持续时间。
- 数据过滤:对齐的歌词和歌声然后根据对齐的置信度得分进行过滤。
- 唱歌模型:建立了一个基于FastSpeech的前馈变压器,该模型利用参考编码器处理噪声数据。
研究人员设计了基于自动语音识别的歌词到歌手对齐模型,以自动提取歌词中每个音素的持续时间,从粗粒度的句子级别到细粒度的音素级别。
此外,他们基于称为FastSpeech的前馈变压器设计了一种多语言,多歌手的演唱模型,可以直接从歌词中生成线性声谱图,并使用Griffin-Lim合成语音,Griffin-Lim是一种流行的声码器,可以重构给定线性声音谱图。
DeepSinger的优势
与以前的SVS系统相比,DeepSinger具有许多优势。它们在下面提到:
保持联系
通过共享您的电子邮件获取最新更新和相关优惠。 现在订阅也可以看看
- 根据研究人员的说法,DeepSinger可以节省时间,因为它可以直接从音乐网站中挖掘训练数据。
- 它避免了任何人为的对准标记工作,这是一种经济高效的技术。
- DeepSinger本质上比以前的SVS系统简单高效。
- 它可以合成几种语言和多个歌手的演唱声音。
这项研究的贡献
本文的贡献如下:
- DeepSinger是第一个使用直接从Web上提取的数据构建的SVS系统,没有任何人类录制的高质量歌唱数据。
- 歌词到演唱的对齐模型避免了对齐标签的任何人工工作,并大大降低了标签成本。
- 通过消除参数合成中复杂的声学特征建模并利用参考编码器从嘈杂的歌声数据中捕获歌手的音色,基于FastSpeech的歌声模型简单有效。
- DeepSinger可以合成多国语言和多位歌手的高品质歌声。
包起来
为了评估DeepSinger系统的有效性,研究人员使用了一个纯粹的网络唱歌数据集,其中包括92小时数据,89位歌手和三种语言。据研究人员称,实验结果表明,DeepSinger可以在音调准确度和声音自然度方面合成高质量的歌声。
在这里阅读论文。
标签:微软,歌词,歌手,SVS,DeepSinger,对齐,数据,唱歌 来源: https://blog.csdn.net/c2a2o2/article/details/110184550