其他分享
首页 > 其他分享> > CRUSE: Convolutional Recurrent U-net for Speech Enhancement

CRUSE: Convolutional Recurrent U-net for Speech Enhancement

作者:互联网

CRUSE: Convolutional Recurrent U-net for Speech Enhancement

本文是关于TOWARDS EFFICIENT MODELS FOR REAL-TIME DEEP NOISE SUPPRESSION的介绍,作者是Microsoft Research的Sebastian Braun等。相关工作的上下文可以参看博文

概述

本文设计的是基于深度学习的语音增强模型,工作的贡献点有二:

动机

系统与模型

系统框图如下

要说明如下几点:

算法参数

16 kHz的采样率,20 ms帧长,10 ms帧移以及320点FFT。输入特征是\(Batch_size \times 1 \times num_frames \times num_bins\),卷积层通道数从16开始,依次加倍,直到倒数第二层,最后一层输出通道数则为\(C_L\),比如\(L=4\)层且\(C_L=120\),则卷积层的输出通道数依次为\(16-32-64-120\),转置卷积层的输出通道数依次为\(64-32-16-1\),最后一层始终为1以保证输出是幅度掩蔽。分组GRU的层数为\(N\)分组数为\(P\)。网络命名规则为\(CRUSEL-C_L-N \times RNNP\)

数据集的增广

数据集的增广方法可以参考博文
评估指标是用于评价语音质量的DNSMOS(P.808)和用于评估计算量的MACs,需要注意的是这里的DNSMOS(P.808)应该是与目前(2022/04/24)可用的DNSMOS(P.808&P.835)中的P.808的分数有差异了

实验结果


(图中横轴是MACs,纵轴是\(\Delta\)MOS,因此在图中偏左上的方法更优)
分析结论:

最后是一个消融实验证明设计的跳转连接的有效性

标签:Convolutional,GRU,卷积,模型,Recurrent,times,Speech,语音,分组
来源: https://www.cnblogs.com/VincentLau-blog/p/se_cruse.html