首页 > 系统相关> > 论文翻译：2021_AEC IN A NETSHELL: ON TARGET AND TOPOLOGY CHOICES FOR FCRN ACOUSTIC ECHO CANCELLATION

论文翻译：2021_AEC IN A NETSHELL: ON TARGET AND TOPOLOGY CHOICES FOR FCRN ACOUSTIC ECHO CANCELLATION

2022-01-09 19:35:40 作者：互联网

论文地址：https://ieeexploreieee.53yu.com/abstract/document/9414715

Netshell 中的 AEC：关于 FCRN 声学回声消除的目标和拓扑选择

摘要：

　　声学回声消除(AEC)算法在信号处理中具有长期稳定的作用，其方法可以改善诸如汽车免提系统、智能家居和扬声器设备或网络会议系统等应用的性能。就在最近，第一个基于深度神经网络(DNN)的方法被提出，采用DNN联合进行AEC和残余回声抑制(RES)/噪声降低，在回声抑制性能方面有显著改善。另一方面，在DNN方法方面，降噪算法已经得到了很多关注，其中全卷积循环网络(FCRN)结构是最先进的拓扑结构之一。然而，最近发表的联合AEC/RES DNNs令人印象深刻的回声消除性能，到目前为止，伴随着不可否认的语音质量损害。在这项工作中，我们将解决这个问题，并显著提高近端语音组成部分的质量。此外，据我们所知，我们首次提出了一种以回声估计器形式存在的纯DNN AEC，它基于竞争性FCRN结构，并提供了对实际应用有用的质量。
关键字：声学回声消除，回声抑制，卷积神经网络，ConvLSTM

1 引言

　　诸如汽车免提系统、智能家居和扬声器设备、网络会议系统等应用都面临着类似的潜在挑战:麦克风信号接收了来自系统自身扬声器的不想要的回声部分。在过去的几十年里，AEC算法在信号处理中发挥了稳定的作用，这些算法通常部署一个自适应滤波器来估计扬声器-外壳-麦克风(LEM)系统的脉冲响应(IR)，然后估计回声并且从麦克风信号中减去回声分量，得到一个广泛的无回声增强近端语音信号。

　　传统的AEC算法[1,2,3]在信号处理中有着长期的作用，随着算法的不断发展，由此产生了著名的算法，如NLMS算法[4]或卡尔曼滤波[5,6]，包括RES方法[7,8]。最近，神经网络——尤其是卷积神经网络——在一般的语音增强方面表现出了显著的性能，例如Strake等人在降噪方面的工作。然而，迄今为止，AEC只看到了很少的数据驱动方法。最初，其中只有用于RES的网络[10,11]。

　　就在最近，Zhang等人[12,13]提出了一种完全学习的AEC，显示了令人印象深刻的回声消除性能。这些工作中一个有趣的方面是AEC问题的解决方式。将其作为信号源分离方法，训练网络直接输出估计的增强信号。

　　然而，AEC DNNs的困难在于，它们一直伴随着不可否认的近端语音成分质量的损害。在这项工作中，我们将通过一系列实验来研究这个问题，以显示和揭示不同性能方面在回波抑制、降噪和近端语音质量方面的权衡。以完全卷积循环网络(FCRN)[9,14]及其已被证明的高保真自编码语音的能力为基础，我们将介绍几种克服了早期问题的DNN AEC体系结构，从而显著改进现有方法。我们将提供有用的见解网络设计选择，给读者在尚未广泛探索的DNN AEC领域的指导。

　　本文的其余部分结构如下:在第2节，系统概述，包括框架和一般网络拓扑结构。训练和不同的实验变体，包括新的网络拓扑选择，将在第3节中描述。第4节给出了所有方法的实验验证和讨论。第5节给出结论。

2 网络拓扑结构、仿真框架和数据

2.1 新型FCRN网络拓扑结构

　　与传统的自适应滤波器不同的是，该算法本身是由神经网络实现的。我们实验的基础是在[9]中提出的性能良好的全卷积循环网络(FCRN)编解码器结构。然而，我们在网络拓扑中引入了重要的AEC细节。我们提出的网络在图1的绿框中描述，作用于离散傅里叶变换(DFT)输入\(X_{\ell}(k)\)与帧索引\(\ell\)和频点\(k\)，并包含一些新特性:最初只包含一个编码器(即，在这里，最有可能与麦克风信号\(Y_{\ell}(k)\)执行早期融合和只跟随各自的信号路径)，我们研究了一个并行第二编码器(部分)，包括多达两倍的卷积层，其次是使用步长2在特征维度上进行最大池化。前两个卷积层使用N×1大小的F卷积核(在特征轴上卷积) ，而后两个使用相同大小的2F filter内核。Leaky ReLU激活[15]用于这些层。为便于阅读，在每一层的输入和输出中都可以看到特征维度，即特征图的feature axis×time axis×number。在推理过程中，网络随后处理单个输入帧，时间轴值设为1表示。

图1 具有跳跃连接、编码器融合和训练目标的各种选项的系统模型和网络。卷积层的参数是Conv(# filters, kernel dimensions)，最大池MaxPooling(pool dimensions)在特征轴上，同样用于上采样。跳过连接变体(无，SkipA, SkipB)由具有相同命名的各自开始和结束位置表示。一次只涉及单个虚线路径(- - -)，决定在编码器中参考和麦克风信号的早期、中期或晚期融合。训练目标选项由开关位置soute(语音目标)或outd(回声目标)表示。

　　在编码器的瓶颈处，即特征轴达到 \(M/4\)的最大压缩时，放置一个卷积LSTM[16]，带有大小为 \(N×1\)的F滤波器内核，使网络能够建模时间上下文。解码器被精确地设置为与编码器的逆，然后是一个带有线性激活的最终卷积层，以产生维度\(M×1×C\)的最终输出。为了提取图1中给出的结构的输入特征和训练目标，在采样率为16kHz的情况下，使用了\(k = 512\)个样本的帧长，帧移设置为256个样本。利用平方根Hann窗和512点DFT，得到了复谱。分离为实部和虚部，并对高度\(M= 260\)的特征图进行零填充，这导致\(C=2\)个通道用于参考、麦克风和估计的回声或(干净的)语音信号。

2.2 仿真框架和数据

　　为了模拟图1所示的声学设置，我们采用了[13]中描述的程序，并进行了一些修改。因此，为了模拟典型的单和双说话场景，使用TIMIT数据集[17]建立远端语音\(x(n)\)和近端语音\(s(n)\)。背景噪声\(n(n)\)取自QUT数据集[18]进行训练和验证，babble、白噪声和操作室噪声取自NOISEX-92数据集[19]作为测试集。噪声n(n)与近端语音\(s(n)\)在麦克风上叠加，将扬声器非线性[13]施加于远端信号\(x(n)\)，并将其与512样本长度的脉冲响应(IRs)卷积，从而产生回波信号\(d(n)\)。IRs使用图像方法[20]创建，混响时间\(T_{60} \in\{0.2,0.3,0.4\} \mathrm{s}\)用于训练和验证，测试混合物使用0.2s，从而跟随[13]。由于篇幅的原因，这里省略了带有额外真实IRs的测试，因为[13]中令人印象深刻地显示，显然对于DNN AECs，真实和模拟IRs都获得了可比较的结果。对于各种各样的模拟，每个混合物的信噪比(SER)在\(\{-6,-3,0,3,6, \infty\}\)dB之间随机选择，每个混合物的信噪比(SNR)在\(\{8,10,12,14, \infty\}\)dB之间随机选择。注意，我们在SER和SNR值中包含了\(\infty\)dB，因为在实际应用中，网络也可以处理无回声或噪声的情况，这是绝对必要的。在我们的设置中，总共有3000个训练、500个评估和280个测试混合，而后者与[13]不同，是由来自CSTR VCTK数据库[21]的未见扬声器组成，具有未见的语音、脉冲响应和噪声序列。试验混合料的SER和信噪比分别设置为0db和10db。为了更深入地了解网络性能，我们额外评估测试文件，但只包含回声，或近端噪声或近端语音。

3 实验变量和训练

3.1 训练目标变量

　　我们调查的一个主要问题是相当重要的，涉及到训练目标的选择。这里，[13]与AEC的传统概念不同，在AEC中产生一个估计的回波\(\hat{d}(n)\)，然后从麦克风信号中减去这个回波，(理想情况下)得到一个无回波增强信号\(e(n)\)。然而，在[12,13]中，回波问题是通过训练直接输出估计的增强信号\(E_{\ell}(k)\)的源分离方法来解决的，从而使回归训练目标\(\bar{E}_{\ell}(k)\)在DFT域中有两种有意义的可能性:复值目标可以选择\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)(即，只由网络执行回声抵消)，或只\(\bar{E}_{\ell}(k)=S_{\ell}(k)\)(即，执行回波和噪声消除)。这就导致了上述目标中哪一个是最合适的，以及是否存在需要处理的折衷问题。

　　由图1中的网络输出开关表示，我们研究了在频域(开关位置outE)中具有MSE损失\(J_{\ell}=\frac{1}{K} \sum_{k \in K}\left|E_{\ell}(k)-E_{\ell}(k)\right|^{2}\)的两种不同变体的训练目标，\(\hat{E}_{\ell}(k)\)为各自的网络输出。作为第三种变体，MSE 损失\(J_{\ell}=\frac{1}{K} \sum_{k \in K}\left|\hat{D}_{\ell}(k)-\bar{D}_{\ell}(k)\right|^{2}\)是使用回声分量训练目标\(\bar{D}_{\ell}(k)=D_{\ell}(k)\)直接从麦克风信号(开关位置outD)中减去后续的。

3.2 跳过连接变量

　　在整个工作过程中，我们将实验从编码器到解码器的跳转连接的不同位置。原始模型在红色标记的点skipB1和点skipB2[9]之间有一个跳跃连接。以下，此设置将表示为SkipB。由于特征图的尺寸不同，第二种可能性是通过对称的方式放置跳跃连接，即，一个在skipA1点之间，另一个在skipA2点之间。这个设置将被标记为SkipA。最后一种变量是根本不使用跳过连接，它将被表示为NoSkips(-)。

3.3 编码器融合变量

　　传统的AEC算法以参考信号作为输入，用自适应滤波器复制IR信号。麦克风信号\(y(n)\)(更确切地说是基于其上的错误信号)作为自适应滤波器的控制输入。相比之下，对于[13]的网络，对于我们使用组合编码器(早期融合)的网络，参考和麦克风信号的特征映射直接连接在网络输入处，记为EarlyF。

　　然而，使用编码器-解码器结构的最初想法是允许网络对其输入信号进行预处理，并在整个编码器中找到合适的表示，然后由其瓶颈层很好地处理。在这一点上，重要的是要注意沿频率轴带有\(N×1\)核的卷积层不能建模延迟，我们认为这对处理参考和麦克风信号之间的时间移位至关重要。由于我们在瓶颈层的主要处理单元是一个卷积LSTM，它确实可以建模延迟，我们实验了在编码器的不同位置进行参考和麦克风信号的融合。这将允许网络在一定程度上分别处理麦克风和参考信号，然后将各自的特征图连接在一起，并在剩余的网络中一起处理。

　　编码器融合的两种变体将被考虑:第一个是中间融合，在下面表示为MidF，其中只涉及各自的虚线信号路径。第二种变体复制整个编码器，并在卷积LSTM的输入处执行特征映射连接。这里，只使用最后一个各自的虚线信号路径。该方法在实验中被称为LateF。

　　如果结合跳跃连接进行中后期融合，则跳跃连接将从麦克风信号路径分支出来，如图1所示。我们还考虑将它们的起始点放在参考信号路径中，但正如可以预期的那样，这不会导致任何有意义的结果。当进行早期融合时，跳过连接从共同编码器的各自位置分支出来。

3.4 训练参数

　　使用Adam优化器[22]的标准参数对网络进行训练。批量大小和序列长度分别设置为16和50。当初始学习率为0.00005时，如果损失在3个epoch内没有改善，学习率乘以0.6。当学习率低于0.000005或损失在10个epoch内没有改善时，训练就停止。参数的数量随编码器融合位置而变化，EarlyF和MidF的参数分别为5.2M和5.6M, LateF的参数为7.1M。

4 结论与讨论

　　表1-3显示了我们提出的所有变量组合的实验结果，使用三种方法对不同类别的性能进行评级:采用最近更新的宽带PESQ MOS LQO[23,24]用于评估语音质量；采用[dB]中的dSNR 用于评估降噪；\(E R L E(n)=10 \cdot \log \left(d^{2}(n) /(d(n)-\hat{d}(n))^{2}\right)\)用于评估回声抑制。最终的ERLE如[25]中那样计算，对每个样本分量\(d(n)\)和\(\hat{d}(n)\)进行使用带有因子0.9996的一阶IIR平滑法，并在整个文件中取平均值。

　　每个表被分为两个主要部分:当输入文件只包含echo (\(d(n)\)，用ERLE评定)，或近端噪声(\(n(n)\)，用dSNR评定)或近端语音(\(s(n)\)，用PESQ评定)时，最右边的三列提供网络性能。这些结果使我们能够深入了解每个网络模型:如果没有其他信号存在，它如何处理回声或近端噪声?最重要的是:模型能“简单地”通过清晰的近端语音吗?

　　四个中心列提供了正常的前面描述的测试集的结果，即，全混合输入信号。这里,PESQ MOS的全面评估输出信号,和所谓的黑盒方法根据ITU-T建议P .1110 [26, sec. 8]和[27 28 29]用于获得增强信号的处理分量\(e(n)=\tilde{d}(n)+\tilde{n}(n)+\tilde{s}(n)\),从而使计算ERLE dSNR,属于\(\tilde{d}(n), \tilde{n}(n)\), 和 \(\tilde{s}(n)\)。这些措施用索引BB(黑匣子)进行了标记。

　　为了更好地评价结果，我们还提供了一种传统的AEC算法的性能，即众所周知的变对角状态空间频域自适应卡尔曼滤波器，包括其残余回波抑制后滤波器[5,30,31,32]，作为参考点。

表1 实验结果:所有具有清晰语音训练目标OutE: \(\bar{E}_{\ell}(k)=S_{\ell}(k)\)[13]的模型的ERLE和deltaSNR为[dB]，以及PESQ MOS LQO。为了更深入地了解，右边的三列显示了麦克风前只有一个组件时各自的性能。每项测量的最佳结果用粗体标出，次最佳结果用下划线标出。

表2 所有模型的实验结果如表1所示，但带有噪声的语音训练目标outE：\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)。每项测量的最佳结果用粗体标出，次最佳结果用下划线标出。最佳模型EarlyF/A的额外结果，从[9]分离随后的噪声降低，在本工作的数据(EarlyF/A+)上重新训练。

表3 所有模型的实验结果如表2所示，但有回波训练目标OutD: \(\bar{D}_{\ell}(k)=D_{\ell}(k)\)，随后从麦克风信号中减去。每项测量的最佳结果用粗体标出，次最佳结果用下划线标出。最佳模型LateF/A的附加结果，从[9]中分离随后的噪声降低，在本工作的数据(LateF/A+)上进行再训练。

　　表1显示了所有具有清晰语音训练目标的模型的结果: \(\bar{E}_{\ell}(k)=S_{\ell}(k)\)。无跳跃连接的模型在麦克风上只有相应的部件时，其回声和噪声抑制性能最高可达21.33 db ERLE和33.62 db dSNR。对于该目标选择，编码器融合位置没有明显的偏好，但早期融合模型earlyf /- 显示了最佳的整体权衡结果;注意Zhang等[12,13]也使用清晰的语音目标进行早期融合。然而，干净语音目标较强的抑制性能是有代价的:当PESQ值不超过3.65 mos时，没有一个模型能够通过干净语音。这一点也可以在完整的混合结果中看到，特别是与卡尔曼滤波器参考的完美近端语音成分评分pesqbb相比。

　　表2中噪声语音目标选择outE：\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)，当麦克风前只有各自的分量时，PESQ分数略有提高，而回声抑制性能略有下降。可以看出，跳过连接对于通过清晰的语音非常有帮助，考虑到近端语音质量，这些目标的最佳总体权衡设计是早期融合模型earlyf /A。然而，完全混合的PESQ分数仍然可以与表1中的分数相媲美。结果的多样性再次表明，为了在抑制性能和近端语音质量之间找到一个好的折衷，设计选择是多么重要。

　　最后，我们新提出的回声训练目标OutD: \(\bar{D}_{\ell}(k)=D_{\ell}(k)\)的结果以及随后从麦克风信号中减去的结果如表3所示。后来的融合位置证明非常有益，并导致这些目标的最佳模型ellatef / a。与前面的表相比，该模型不仅实现了高的回波抑制，同时保持了最佳的近端语音质量。虽然这个特定的模型也优于表2中的最佳权衡模型，但所有模型的混合PESQ分数(最左边一列)显然高于所有其他目标选择。

　　对于表2和表3中的两个最佳权衡模型，我们考虑在AEC之后对输出信号\(e(n)\)执行后续的单独降噪[9]作为后处理器，对该工作的数据(symbol +)进行训练。结果显示在表格的底部。正如预期的那样，它们显示了改进的噪声和残余回波抑制，但有趣的是，再次显示了近端语音的退化——而只有我们提出的latef /ADNN回波目标AEC能够保持近端语音质量。

5 结论

　　我们提出了一个更深入的研究声回波消除与全卷积神经网络。以及一种新的以回声估计器的形式提出的网络结构，该结构比现有方法提供了显著改善的近端语音质量(模型:LateF/A DNN，回波目标，表3)，我们揭示了不同性能方面在回波抑制、降噪和近端语音质量方面的权衡，从而为尚未广泛探索的DNN AEC领域的关键设计选择提供指导。

6 参考文献

[1] E. Hansler and G. Schmidt, ¨ Acoustic Echo and Noise Control: A Practical Approach, Wiley-Interscience, Hoboken, NJ, USA, 2004.
[2] J. Lee and C. Un, “Block Realization of Multirate Adaptive Digital Filters,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, no. 1, pp. 105–117, Feb. 1986.
[3] H. Shin, A. H. Sayed, and W. Song, “Variable Step-Size NLMS and Affine Projection Algorithms,” IEEE Signal Processing Letters, vol. 11, no. 2, pp. 132–135, Feb. 2004.
[4] K. Steinert, M. Schonle, C. Beaugeant, and T. Fingscheidt, ¨ “Hands-free System with Low-Delay Subband Acoustic Echo Control and Noise Reduction,” in Proc. of ICASSP, Las Vegas, NV, USA, Apr. 2008, pp. 1521–1524.
[5] G. Enzner and P. Vary, “Frequency-Domain Adaptive Kalman Filter for Acoustic Echo Control in Hands-Free Telephones,” Signal Processing (Elsevier), vol. 86, no. 6, pp. 1140–1156, June 2006.
[6] J. Franzen and T. Fingscheidt, “A Delay-Flexible Stereo Acoustic Echo Cancellation for DFT-Based In-Car Communication (ICC) Systems,” in Proc. of INTERSPEECH, Stockholm, Sweden, Aug. 2017, pp. 181–185.
[7] F. Kuech, E. Mabande, and G. Enzner, “State-Space Architecture of the Partitioned-Block-Based Acoustic Echo Controller,” in Proc. of ICASSP, Florence, Italy, May 2014, pp. 1295–1299.
[8] J. Franzen and T. Fingscheidt, “An Efficient Residual Echo Suppression for Multi-Channel Acoustic Echo Cancellation Based on the Frequency-Domain Adaptive Kalman Filter,” in Proc. of ICASSP, Calgary, AB, Canada, Apr. 2018, pp. 226– 230.
[9] M. Strake, B. Defraene, K. Fluyt, W. Tirry, and T. Fingscheidt, “Fully Convolutional Recurrent Networks for Speech Enhancement,” in Proc. of ICASSP, Barcelona, Spain, May 2020, pp. 6674–6678.
[10] A. Schwarz, C. Hofmann, and W. Kellermann, “Spectral Feature-Based Nonlinear Residual Echo Suppression,” in Proc. of WASPAA, New Paltz, NY, USA, Oct. 2013, pp. 1–4.
[11] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Multiple- ´ Input Neural Network-Based Residual Echo Suppression,” in Proc. of ICASSP, Calgary, AB, Canada, Apr. 2018, pp. 231– 235.
[12] H. Zhang and D.L. Wang, “Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios,” in Proc. of INTERSPEECH, Hyderabad, India, Sept. 2018, pp. 3239– 3243.
[13] H. Zhang, K. Tan, and D.L. Wang, “Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear Distortions,” in Proc. of INTERSPEECH, Graz, Austria, Sept. 2019, pp. 4255–4259.
[14] Z. Zhao, H. Liu, and T. Fingscheidt, “Convolutional Neural Networks to Enhance Coded Speech,” IEEE/ACM Trans. on Audio, Speech, and Language Processing, vol. 27, no. 4, pp. 663–678, Apr. 2019.
[15] A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier Nonlinearities Improve Neural Network Acoustic Models,” in Proc. of ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, Atlanta, GA, USA, June 2013, pp. 1–6.
[16] X. Shi, Z. Chen, H. Wang, D.-Y. Yeung, W. Wong, and W. Woo, “Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting,” in Proc. of NIPS, Montreal, QC, Canada, Dec. 2015, pp. 802–810.
[17] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, “TIMIT Acoustic-Phonetic Continous Speech Corpus,” Linguistic Data Consortium, Philadelphia, PA, USA, 1993.
[18] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, “The QUT-NOISE-TIMIT Corpus for the Evaluation of Voice Activity Detection Algorithms,” in Proc. of INTERSPEECH, Makuhari, Japan, Sept. 2010, p. 3110–3113.
[19] A. Varga and H. J. Steeneken, “Assessment for Automatic Speech Recognition: II. NOISEX-92: A Database and an Experiment to Study the Effect of Additive Noise on Speech Recognition Systems,” Speech Communication, vol. 12, no. 3, pp. 247–251, 1993.
[20] J. B. Allen and D. A. Berkley, “Image Method for Efficiently Simulating Small-Room Acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[21] J. Yamagishi, C. Veaux, and K. MacDonald, “CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit,” University of Edinburgh. The Centre for Speech Technology Research, 2017.
[22] D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” in Proc. of ICLR, San Diego, CA, USA, May 2015, pp. 1–15.
[23] “ITU-T Recommendation P.862.2, Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” ITU, Nov. 2007.
[24] “ITU-T Recommendation P.862.2 Corrigendum 1, Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” ITU, Oct. 2017.
[25] M.-A. Jung and T. Fingscheidt, “A Shadow Filter Approach to a Wideband FDAF-Based Automotive Handsfree System,” in 5th Biennial Workshop on DSP for In-Vehicle Systems, Kiel, Germany, Sept. 2011, pp. 60–67.
[26] “ITU-T Recommendation P.1110, Wideband Hands-Free Communication in Motor Vehicles,” ITU, Mar. 2017.
[27] T. Fingscheidt and S. Suhadi, “Quality Assessment of Speech Enhancement Systems by Separation of Enhanced Speech, Noise, and Echo,” in Proc. of INTERSPEECH, Antwerp, Belgium, Aug. 2007, pp. 818–821.
[28] T. Fingscheidt, S. Suhadi, and K. Steinert, “Towards Objective Quality Assessment of Speech Enhancement Systems in a Black Box Approach,” in Proc. of ICASSP, Las Vegas, NV, USA, Apr. 2008, pp. 273–276.
[29] K. Steinert, S. Suhadi, T. Fingscheidt, and M. Schonle, “Instru- ¨ mental Speech Distortion Assessment of Black Box Speech Enhancement Systems,” in Proc. of IWAENC, Seattle, WA, USA, Sept. 2008, pp. 1–4.
[30] S. Malik and J. Benesty, “Variationally Diagonalized Multichannel State-Space Frequency-Domain Adaptive Filtering for Acoustic Echo Cancellation,” in Proc. of ICASSP, Vancouver,BC, Canada, May 2013, pp. 595–599.
[31] M. A. Jung, S. Elshamy, and T. Fingscheidt, “An Automotive Wideband Stereo Acoustic Echo Canceler Using Frequency-Domain Adaptive Filtering,” in Proc. of EUSIPCO, Lisbon,Portugal, Sept. 2014, pp. 1452–1456.
[32] J. Franzen and T. Fingscheidt, “In Car Communication: From Single- to Four-Channel with the Frequency Domain Adaptive Kalman Filter,” in Vehicles, Drivers, and Safety, John H. L.Hansen et al., Eds., pp. 213–227. Walter de Gruyter GmbH Berlin/Boston, 2020.

标签：pp,TARGET,ell,回声,FCRN,NETSHELL,AEC,语音,近端
来源： https://www.cnblogs.com/weixiao9349426/p/15765910.html