其他分享
首页 > 其他分享> > 微软的DeepSinger产生可以英语和中文唱歌的声音

微软的DeepSinger产生可以英语和中文唱歌的声音

作者:互联网

 

 

 


微软和浙江大学的研究人员团队最近开发了一种多语言,多歌手演唱语音合成(SVS)系统,称为DeepSinger。该系统是使用从音乐网站获取的唱歌训练数据从头开始构建的。

随着深度神经网络的发展,Singing Voice Synthesis(SVS)通过歌词生成歌声,这在近年来的研究和工业界引起了极大的关注。此技术类似于使机器讲话的“文本到语音”方法



传统的SVS主要依赖于人类的录音和注释,并需要大量高质量的歌唱录音作为训练数据,并且在歌词和歌唱音频之间进行严格的数据对齐以实现准确的歌唱建模。结果,这增加了数据标记的成本,并阻碍了该领域产品的研发。这些持续的挑战导致了新的SVS系统De​​epSinger的开发。

在DeepSinger背后

 

DeepSinger,一种唱歌声音合成系统,通过使用唱歌训练数据从头开始构建。DeepSinger的管道包括几个数据挖掘和建模步骤。他们是:-

 

研究人员设计了基于自动语音识别的歌词到歌手对齐模型,以自动提取歌词中每个音素的持续时间,从粗粒度的句子级别到细粒度的音素级别。 

此外,他们基于称为FastSpeech的前馈变压器设计了一种多语言,多歌手的演唱模型,可以直接从歌词中生成线性声谱图,并使用Griffin-Lim合成语音,Griffin-Lim是一种流行的声码器,可以重构给定线性声音谱图。

DeepSinger的优势

与以前的SVS系统相比,DeepSinger具有许多优势。它们在下面提到:


保持联系

通过共享您的电子邮件获取最新更新和相关优惠。     现在订阅
也可以看看

 

未分类

在扑克和围棋比赛之后,强化学习正在击败麻将玩家

 

这项研究的贡献

本文的贡献如下:

包起来

为了评估DeepSinger系统的有效性,研究人员使用了一个纯粹的网络唱歌数据集,其中包括92小时数据,89位歌手和三种语言。据研究人员称,实验结果表明,DeepSinger可以在音调准确度和声音自然度方面合成高质量的歌声。

这里阅读论文。

标签:微软,歌词,歌手,SVS,DeepSinger,对齐,数据,唱歌
来源: https://blog.csdn.net/c2a2o2/article/details/110184550