其他分享
首页 > 其他分享> > 《Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networksfor Audio-Visual Speech Se》

《Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networksfor Audio-Visual Speech Se》

作者:互联网

Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker Environments

本文的作者是Yiyu Luo, Jing Wang, Liang Xu , Lidong Yang,School of Information and Electronics, Beijing Institute of Technology, China ,School of Information Engineering, Inner Mongolia University of Science and Technology, China 。

研究动机

语音分离是从带噪语音中提取到目标说话人的语音。本文提出了一个时域上的音频和时频结合的语音分离模型,而且是在多个说话人的场景下实现的。并且引入了一个多流机制和金字塔的卷积。金字塔式的卷积就是让卷积核的到校不固定,这样可以看到不同的视野,类似于金字塔的形状。

INTRODUCTION

         介绍了一下什么是语音分离,多个说话人语音分离存在标签模糊和输出维度不匹配的问题,就会产生网络不知道有多少个说话人的问题。很多人都在解决这些问题。所以本文提出了一个音频和图片结合的方法,图片上的嘴的形状可以给语音分离提供一定的线索。这篇论文建立了一个音视频的网络Conv-Tasnet,主要是由TCN组成的。

模型结构

       模型结构主要是由三大部分组成的,一部分是音频的encoder,一部分是音频的decoder,还有一部分是音视频分离网络,图上用虚线画出来的那一部分。三者的主要作用是从带噪音频中提取相关的语音特征,从音视频的特征表示中学习一个MASK,后者重建增强的波形。

      为什么要选择唇形的图片而不用脸部图片呢?因为唇部的移动和声学信息有关系,因为声音是从嘴里面发出来的嘛,所以用于分离任务比较好。

 TCN的结构

A部分就是普通的结构,B部分是一个多流机制,C部分就是金字塔类型的,可以看到不同的视野。

实验数据和操作 

        用的数据集是GRID和MUSAN(噪声集),前者包含了33个说话人,其中,训练集,验证集集,测试集的划分为25、4、4。还有一部分合成数据。

图片预处理为88*88大小的灰度图片。音频是3秒采样到8000HZ,归一化。Adam优化器,1e-3学习率,采用了四种对比模型。实验结果如下:

 表上AO的意识是只有音频没有视频数据,AV的意思是有音频和视频数据。看结果,第一行和第二行表明有视频数据的结果要比较好一些,第四行采用的金字塔型的网络比较好,说明采用不用视野的卷积效果会比较好。

 

        

标签:Convolutional,Multi,Stream,卷积,音频,分离,音视频,语音,图片
来源: https://blog.csdn.net/qq_46079584/article/details/122707562