其他分享
首页 > 其他分享> > Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读

Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读

作者:互联网

Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读

 

 

 

目录

ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介

ICASSP国际声学、语音和信号处理会议

IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介

历年经典论文

X-Vectors: Robust DNN Embeddings for Speaker RecognitionX向量:用于说话人识别的鲁棒DNN嵌入

Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training通过深度对抗训练提高声学模型的噪声鲁棒性

Modality Attention for End-to-end Audio-visual Speech Recognition基于模态注意力的端到端音视觉语音识别

State-of-the-Art Speech Recognition with Sequence-to-Sequence Models先进的序列识别语音识别模型

Deep Audio-visual Speech Recognition深度视听语音识别

Parameter Uncertainty for End-To-End Speech Recognition端到端语音识别中的参数不确定性研究

Stochastic Adaptive Neural Architecture Search for Keyword Spotting面向关键词检出的随机自适应神经网络结构搜索

Adversarially Trained End-to-end Korean Singing Voice Synthesis System基于对抗训练的端到端韩语歌声语音合成系统


 

 

相关文章
NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略
Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读

ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介

ICASSP国际声学、语音和信号处理会议

官网地址https://2020.ieeeicassp.org/
历史ICASSP: International Conference on Acoustics, Speech, and Signal Processing

       IEEE International Conference on Acoustics, Speech and Signal Processing国际声学、语音和信号处理会议 , ICASSP是世界上最大和最全面的技术会议,专注于信号处理及其应用。该系列活动由IEEE信号处理学会主办,自1976年起每年举办一次。会议的特点是世界级的演讲者,教程,展览,展示和讲述事件,以及超过120演讲和海报会议。
       ICASSP是IEEE信号处理协会技术委员会的合作成果:

       ICASSP是世界上最大和最全面的技术会议,专注于信号处理及其应用。2020年大会将以国际知名演讲者的世界级演讲、前沿主题为特色,并为来自世界各地志趣相投的专业人士提供一个绝佳的交流机会。ICASSP 2020将有超过3000名与会者,使今年的活动成为过去45年来最大的ICASSP会议。这将为行业参与和展会提供良好的机会和舞台。在这次会议期间,您将访问世界上最大的国际公司和出版商,他们也将赞助一些著名的奖项。此外,有超过1200人注册了将在会议的头两天举行的教程会议,这是一个很重要的记录。

 

IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介

期刊信息IEEE-ACM Transactions on Audio Speech and Language Processing期刊基本信息
链接IEEE/ACM Transactions on Audio, Speech, and Language Processing

       IEEE Transactions on Audio, Speech, and Language Processing,IEEE音频、语音和语言处理汇刊。IEEE/ACM音频、语音和语言处理事务致力于处理代表音频、语音和语言的信号及其应用的创新理论和方法。这包括对这些信号的分析、综合、增强、转换、分类和解释,以及相关信号处理系统的设计、开发和评估。
       范围:IEEE/ACM音频、语音和语言处理事务包括音频、语音和语言处理以及支持它们的科学。它包括语音和文本处理系统及其相关理论的设计、开发和评估的实践领域。它出版面向应用的研究,调查论文,和小说应用的描述。音频处理主题包括:换能器,室内声学,主动式声音控制,人体听觉,音乐的分析/合成/编码,以及消费者音频。语音处理主题包括:语音分析、合成、编码、语音和说话人识别、语音生成和感知以及语音增强。语言处理主题包括:语音和文本分析、理解、生成、对话管理、翻译、摘要、问题回答和文档索引和检索,以及一般的语言建模。

 

历年经典论文

X-Vectors: Robust DNN Embeddings for Speaker Recognition
X向量:用于说话人识别的鲁棒DNN嵌入

论文作者 David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey and Sanjeev Khudanpur. X-Vectors: Robust DNN Embeddings for Speaker Recognition.
论文出处 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461375
论文摘要 在本文中,我们使用数据扩增来改善深度神经网络(DNN)嵌入说话人识别的性能。DNN被训练用来区分不同的说话者,它将可变长度的话语映射到固定维度的嵌入,我们称之为x向量。先前的研究已经发现嵌入比i-vector更好地利用大规模的训练数据集。然而,为培训收集大量的标记数据可能具有挑战性。我们使用数据增强,包括增加的噪音和混响,作为一种廉价的方法来增加训练数据的数量和提高鲁棒性。将x-vector与野生扬声器和NIST SRE 2016广东话i-vector基线进行比较。我们发现在PLDA分类器中增加是有益的,但在i-vector提取器中则是无益的。然而,由于它的监督训练,x-vector DNN有效地利用了数据扩充。因此,x-向量在评价数据集上具有优越的性能。
研究问题 捕捉说话者特征是语音识别领域具有重大意义的研究内容。大多数说话人识别系统都是基于i-vectors来实现的。标准的基于i-vectors的方法由通用背景模型(UBM)和大型投影矩阵T组成,该模型以无监督方式来学习。在早期的系统中,神经网络经训练后,被用来分离说话者,从网络中提取帧级表示,并将其用作高斯说话者模型的特征。近年来,使用深度神经网络(DNN)捕获说话者特征是当前非常活跃的研究领域。DNN嵌入性能也随着训练数据量的增加而高度扩展。
研究方法 在本文中,研究者们使用数据增强来提高用于说话人识别的深度神经网络(DNN)嵌入的性能。经过训练后,用于区分说话者的DNN将可变长度话语映射到固定维嵌入,并将其称为x矢量。本文使用一系列数据增强的方法,包括增加噪声、增加混响等,用以增加训练数据的数量并提高其鲁棒性。训练后,DNN可对训练数据中的N个说话者进行分类。一个训练示例包括大量语音特征(平均约3秒)和相应的说话者标签。该模型从图层segment6的仿射成分中提取嵌入。不包括softmax输出层和segment7(因为训练后不需要它们),总共有420万个参数。基于i-vector和x-vector的系统均使用了PLDA分类器。x-vector和i-vector需先中心化,其后再使用LDA投影。在SITW开发中将LDA尺寸调整为i-vector为200,x-vector为150。降维后,再使用自适应s范数进行长度归一化和建模。
研究结果 没有数据扩充的系统分别在SWBD和SRE数据集上对提取器进行了训练。不使用增强,SITW上的最佳结果是通过i-vector(BNF)获得的结果,比DCF10-2处的x-vector系统好12%。与SITW上的x-vector系统相比,声学i-vector系统还实现了稍低的错误率。但是,即使不进行扩展,也可以通过x-vector获得SRE16粤语的最佳结果。就DCF10-2而言,这些嵌入比任意i-vector系统效果好约14%。使用了数据增强的对比实验结果表明,PLDA增强对所有系统都有明显的改进。x-vector可以从PLDA增强中获得比baseline系统更高的改进效果。在SITW上,x-vector系统的误码率略低于i-vector(声学),但在大多数工作点上仍落后于i-vector(BNF)。在SRE16上,在DCF10-2中,x-vector比i-vector保持约14%的优势。

 

Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training
通过深度对抗训练提高声学模型的噪声鲁棒性

论文作者 Bin Liu, Shuai Nie, Yaping Zhang, Dengfeng Ke, Shan Liang, Wenju Liu Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training
论文出处

2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)

https://ieeexplore.ieee.org/document/8462093

论文摘要 在现实环境中,语音通常会受到各种噪声和混响的干扰,这极大地降低了自动语音识别系统的性能。为了缓解这一问题,最常见的方法是使用精心设计的语音增强方法作为ASR的前端。然而,更复杂的管道,更多的计算,甚至更高的硬件成本(麦克风阵列)额外消耗这种方法。此外,语音增强会导致语音失真和与训练的不匹配。在本文中,我们提出了一种对抗训练方法来直接提高声学模型的噪声鲁棒性。在训练阶段采用生成对抗网络(GAN)和基于神经网络的声学模型(AM)相结合的合成方案。通过鉴别器的引导,GAN被用来从有噪声的特征中生成干净的特征表示,该鉴别器试图区分真实的干净信号和生成的信号。生成器、鉴别器和AM的联合优化,集中了GAN和AM在语音识别方面的优势。在CHiME-4上进行的系统实验表明,该方法显著提高了AM的噪声鲁棒性,在开发和测试集上的平均相对错误率分别降低了23.38%和11.54%。
研究问题 在真实环境中,语音信号很容易受到噪声和混响的干扰,尤其在远场条件下,由于声波在传播过程中其能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,因此自动语音识别系统性能很难得到有效提升。针对语音识别系统在噪声环境下识别性能下降的问题,作者提出了深度对抗声学模型训练框架,减小了噪声环境语音数据和真实训练数据的分布差异,从而提升声学模型的鲁棒性。
研究方法

语音识别模型的噪声鲁棒性问题主要来源于纯净训练数据和带噪测试数据的分布差异。生成式对抗网络(Generative Adversarial Networks, GAN)可以通过对抗训练的方式,连续逼近指定的数据分布。GAN由生成器和判别器组成,生成器用来生成样本,判别器用来判断样本是否来自真实训练集。二者进行对抗训练,使得生成器生成的样本尽可能逼近真实训练数据。

针对语音识别系统在噪声环境下识别性能下降的问题,作者提出深度对抗和声学模型联合训练的框架,如下图所示,框架由生成器(G)、判别器(D)以及分类器(C)组成。生成器用来把带噪语音数据分布变成纯净语音;判别器用来判定语音信号是否来自真实纯净训练集;声学模型作为分类器,指导生成器提取区分性特征。生成器、判别器和声学模型进行联合对抗训练,三者相互配合相互促进。

通过深度对抗的联合训练策略,可以减小噪声环境语音数据和真实训练数据的分布差异,提升声学模型的鲁棒性。相对于语音增强方法,该框架没有增加计算的流程和复杂度,而且不需要一一对应的带噪数据和纯净数据,可作为通用训练框架提升已有声学模型的噪声鲁棒性。

研究结果 作者使用了CHiME-4数据及对提出的方法进行测试,结果表明该方法能够有效提升声学模型的鲁棒性,在词错误率(WER)上相比于基线系统有较大的提升。

 

Modality Attention for End-to-end Audio-visual Speech Recognition
基于模态注意力的端到端音视觉语音识别

论文作者 Pan Zhou, Wenwen Yang, Wei Chen, Yanfeng Wang, Jia Jia.
论文出处

2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

https://ieeexplore.ieee.org/document/8683733

论文摘要 视听语音识别系统被认为是鲁棒语音识别最有前途的解决方案之一,尤其是在噪声环境下。本文提出了一种新的基于多模态注意的视听语音识别方法,该方法可以根据两种模式的重要性自动学习它们的融合表示。我们的方法是使用最先进的序列到序列(Seq2seq)架构来实现的。实验结果表明,在不同的信噪比下,相对于单独的听觉模态有2%到36%的相对改进。与传统的特征拼接方法相比,该方法在无噪声和无噪声条件下都能取得较好的识别效果。我们认为基于模态注意的端到端方法可以很容易地推广到其他具有相关信息的多模态任务。
研究问题 随着语音识别的快速发展,纯粹靠声音的识别技术越来越成熟,识别准确率达到95%以上,但是在嘈杂环境中语音识别的准确率会明显下降。而人在嘈杂环境中不仅靠声音信息,还结合讲话者的嘴唇和面部视觉信息来理解讲话者的意思。解决嘈杂环境下的语音识别问题可以通过在语音基础上加入视觉信息,通过视、听模态信息的融合来增强语音识别的效果(Automatic Visual Speech Recognition)。
利用视觉信息来增强语音识别的效果需要解决两个难题:一是两者帧率不同,如何将两种模态信息融合在一起,二是如何选择音频和视频的权重。
研究方法

作者提出一种基于模态重要程度的注意力机制,可以根据模态的信息含量自适应调整模态的权重来融合音视觉特征。

具体方法是分别使用两个神经网络编码器对输入的不同模态的序列进行逐层特征抽取,得到高层特征表达。然后,由解码器分别对不同模态的特征表达进行注意力计算,得到声音和视觉模态信息中对应于当前解码时刻的上下文向量(context vector)。不同模态的上下文向量经由模态间的注意力自动对不同模态的信息进行融合,最后输入到输出层得到解码输出预测。
在编解码框架下,由于融合的是不同模态的上下文向量,而不是对原始特征或者编码器输出的高层特征进行直接融合,解决了不同模态的特征长度不同的问题。
同时,这种模态注意力(Modality Attention)依据不同模态各自的重要程度计算出相应的融合系数,反应了不同模态在当前解码时刻的不同贡献度,可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重,得到更加鲁棒的融合信息。

研究结果 作者在150小时的电视新闻类音视觉数据上进行了测试,在信噪比为0dB(信号与噪声大小相当)时,多模态识别将准确率有很大程度的提高。而且模型在不同噪声下,体现出了对语音和视频两种不同模态间的依赖。随着噪声的提升,模型在融合音视觉时,对视觉信息的依赖比例在逐渐提升。

 

State-of-the-Art Speech Recognition with Sequence-to-Sequence Models
先进的序列识别语音识别模型

论文作者 Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Ekaterina Gonina, Navdeep Jaitly, Bo Li, Jan Chorowski, Michiel Bacchiani.
论文出处

2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)

https://ieeexplore.ieee.org/abstract/document/8462105

论文摘要 基于注意力的编码-解码器结构,如Listen、Attend和Spell (LAS),将传统的自动语音识别(ASR)系统的声学、发音和语言模型组件合并到一个单一的神经网络中。在以前的工作中,我们已经证明了这样的体系结构在听写任务上可以与最先进的ASR系统相媲美,但是还不清楚这样的体系结构是否适用于语音搜索等更具挑战性的任务。在这项工作中,我们探索了各种结构和优化的改进,我们的LAS模型,显着提高性能。在结构方面,我们展示了字块模型可以用来代替字元。我们还介绍了一个多头注意架构,它提供了改进的常用单头注意。在优化方面,我们探索了同步训练、计划抽样、标签平滑和最小字错误率优化,这些都显示出提高准确性。我们提出的结果与单向LSTM编码器流识别。在一项12500小时的语音搜索任务中,我们发现提议的修改将回答率从9.2%提高到了5.6%,而最好的传统系统可以达到6.7%;在听写任务中,我们的模型的回答率为4.1%,而传统系统的回答率为5%。
研究问题 序列到序列模型已经在自动语音识别(ASR)社区中获得了普及,这是一种将常规ASR系统的分离的声学,发音和语言模型(AM,PM,LM)折叠到单个神经网络中的方法。但到目前为止,我们还不清楚这样的方法是否可以取代当前基于HMM的最新技术的神经网络声学模型。尽管序列到序列模型是完全神经网络化的,无需有限的状态转换器、词典或文本规范化模块。训练这种模型比传统的ASR系统更简单:它们不需要决策树进行引导,也不需要从单独的系统生成的时间对齐。但是,迄今为止,这些模型都无法在大型词汇连续语音识别(LVCSR)任务上胜过最先进的ASR系统。
研究方法 本文的目的是探索各种结构和优化方面的改进,以允许序列到序列模型在语音搜索任务上明显优于传统的ASR系统。在此工作中我们将重点放在对LAS模型的改进上。LAS模型是一个单一的神经网络,其中包括类似于常规声学模型的编码器。我们既考虑对模型结构的修改,也考虑优化过程。在结构方面,首先,我们探索单词模型(WPM),我们比较了LAS的字素和WPM,并发现WPM有适度的改进。接下来,我们探索合并多头注意力,它使模型能够学习到编码特征的多个位置。
研究结果 实验结果显示,结构改进(WPM,MHA)后,在WER方面提高了11%,而优化改进(MWER,SS,LS和同步训练)后又提高了27.5%,而语言模型记录的改进又提高了3.4%。应用于Google语音搜索任务后,我们的WER为5.6%,而混合HMM-LSTM系统的WER为6.7%。在命令任务中测试了相同的模型,在WER指标方面,我们的模型达到4.1%,混合系统达到5%。

 

Deep Audio-visual Speech Recognition
深度视听语音识别

论文作者 Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman.
论文出处 IEEE Transactions on Pattern Analysis and Machine Intelligence
https://ieeexplore.ieee.org/abstract/document/8585066
论文摘要 这项工作的目标是要识别出说话的人所说的短语和句子,不管有没有音频。与之前专注于识别有限数量的单词或短语的作品不同,我们将唇读视为一个开放世界的问题——无约束的自然语言句子,以及狂野的视频。我们的主要贡献是:(1)我们比较了两种唇读模型,一种使用CTC损失,另一种使用序列到序列损失。两个模型都建立在transformer的self-attention架构之上;(2)我们研究了唇读在多大程度上对语音识别的补充,特别是当音频信号是有噪声的;(3)我们引入并公开发布了两个新的视听语音识别数据集:LRS2-BBC,由英国电视上的数千个自然语句组成;还有LRS3-TED,包括从YouTube上获得的数百小时的TED和TEDx演讲。我们训练的模型的性能大大超过了之前所有唇读基准数据集的工作。
研究问题 唇读,作为一种仅凭视觉信息就能识别所说内容的能力,是一项令人印象深刻的技能。由于同音字的存在,它在字面上本质上是模棱两可的-不同的字符会产生完全相同的口音序列(例如“ p”和“ b”)。合理的使用句子中相邻单词的上下文和/或语言模型在一定程度上解决此类歧义。唇读技术可以应用于许多场景:例如,在嘈杂的环境中“命令”向手机发送指令或消息;转录和重新复制档案无声电影;解决多人同时语音并且总体上改善了自动语音识别的性能。由于在计算机视觉任务中众所周知的两个发展,使得上述这些应用成为可能。基于为语音识别和机器翻译而开发的最新编码器-解码器体系结构——唇读模型变得尤为重要。
研究方法

与以前的工作着重于识别有限数量的单词或短语不同,我们将唇读作为一个开放世界的问题来解决-无限制的自然语言句子和野外视频。首先,我们比较了两种唇读模型,一种使用CTC损失,另一种使用序列间损失。两种模型都建立在变压器自我关注架构的基础上。其次,我们研究了唇读在多大程度上与音频语音识别相辅相成,特别是当音频信号有噪声时;再次,我们引入并公开发布了两个用于视听语音识别的新数据集:LRS2-BBC,由英国电视台的数千个自然句子组成;和LRS3-TED,其中包括从YouTube获得的数百小时的TED和TEDx演讲。我们训练的模型在唇读基准数据集上大大超越了所有先前的工作。

研究结果 实验结果显示,效果最佳的网络是TM-seq2seq,使用语言模型进行解码时,LRS-BBC的WER达到50%,与之前的70.4%的最新水平相比,提高了20%以上。在LRS2-BBC上进行评估时,TM-seq2seq模型展示出增加波束宽度的效果。对比实验表明,当音频信号有噪声时,嘴巴的运动为语音识别提供了重要线索。甚至在音频信号干净的情况下也可以提高性能。例如,使用视听TM-CTC模型时,单词错误率从仅音频的10.1%降低到LRS2-BBC的8.2%,从LRS3-TED的6.0%降低到5.0%。与仅音频模型相比,使用视听TM-seq2seq时获得的收益相似。当在原始话语中添加噪声来合成的嘈杂音频与两个数据集的纯音频情况相比时,性能下降了60%以上。这表明在仅限于音频模型的性能上,该模型对单词错误率的评分与仅使用嘴唇获得的错误率相似。但是,将这两种方式组合起来可带来显着的改进,所有模型和数据集的字错误率均下降20%-30%。因此,在存在较大背景噪音的情况下,视听模型的性能要比仅视频或仅音频的模型好得多。

 

Parameter Uncertainty for End-To-End Speech Recognition
端到端语音识别中的参数不确定性研究

论文作者 Stefan Braun and Shih-Chii Liu.
论文出处 2019 IEEE International Conference on Acoustics, Speech and Signal Processing.
论文摘要 最近关于具有概率参数的神经网络的研究表明,参数的不确定性提高了网络的正规化。由参数分布推导出的参数特异性信噪比(SNR)水平与任务重要性有较高的相关性。然而,这些研究大多集中在自动语音识别(ASR)以外的任务。这项工作研究了带有ASR概率参数的端到端模型。我们证明了在华尔街日报和CHiME-4数据集中进行的剪枝和领域适应实验中,概率网络比传统的确定性网络表现更好。我们使用参数特定的信噪比信息来选择剪枝的参数,并在自适应过程中对参数更新进行条件设置。实验结果进一步表明,具有较低信噪比参数的网络(1)在参数剪枝过程中能够容忍较高的稀疏水平,(2)在域自适应过程中能够减少灾难性遗忘。
研究问题 近期端到端(End-to-End)的自动语音识别(Automatic Speech Recognition, ASR)研究相比于DNN-HMM混合系统,在模型结构和训练过程方面有了明显简化。传统的端到端模型通常使用确定性参数(Deterministic Parameters), 即每个参数对应一个确定的实数值。然而在对相关任务进行训练过程中,该类方法仅对参数大小进行编码,没有直接对参数的不确定性(Uncertainty)或重要性(Importance)进行直接编码,但是这些内容也包含重要的信息。因此学者们开始研究将参数以概率的形式进行编码,来探索神经网络中的参数不确定性。相关研究工作表明,在自动语音识别之外的其他多个任务的剪枝实验中,参数信噪比(Signal-to-Noise Ratio, SNR)与参数重要性展现出很高的相关性。目前在语音识别领域相关的研究还很少,已知仅有的一项研究从贝叶斯模型角度使用变分推断框架(variational inference framework)导出概率网络图。本文从参数角度提出另一种概率网络,避免了对贝叶斯模型解释的需求。
研究方法 本文研究使用不确定性参数的端到端方法将自动语音识别任务的领域适用性,包括纯净语音和带噪语音;提出基于信噪比(SNR-based)的正则化方案来控制参数根据其重要性来更新;使用不同的信噪比水平的概率网络来评估;对比了在领域适用过程中不同信噪比水平的网络如何容忍(tolerate)参数剪枝及灾难性遗忘(catastrophic forgetting)程度在网络中是如何变化的。
基础端到端的模型包括5层的双向LSTM网络(每个方向包含320个单元)和最终640×59的网络映射至输出标签。
研究结果 本文对使用具有概率权重参数的LSTM 对端到端的语音识别模型进行了评估。测试集使用Wall Street Journal(在纯净条件下的数据)和CHiME-4的语音识别任务(含有噪音数据)。实验结果表明在参数剪枝和领域适用性方面概率模型获得了比确定性模型更好的结果。概率模型的关键优势是对特定参数信噪比的可用性,在训练时与参数的重要程度相关性较高。

 

Stochastic Adaptive Neural Architecture Search for Keyword Spotting
面向关键词检出的随机自适应神经网络结构搜索

论文作者 Tom Véniat, Olivier Schwander and Ludovic Denoyer
论文出处

2019 IEEE International Conference on Acoustics, Speech and Signal Processing.

https://ieeexplore.ieee.org/document/8683305

论文摘要 关键字发现问题,即在实时音频流中识别关键字,主要是通过在连续滑动窗口上应用神经网络来解决的。由于任务的难度,基线模型通常很大,导致计算成本和能源消耗水平很高。我们提出一个新方法叫做萨那(随机自适应神经结构搜索),能够适应动态神经网络的架构在推理时,小架构将使用流时容易过程(沉默,低噪音,…)和更大的网络将使用当任务变得更加困难。我们证明,这种自适应模型可以通过优化预测性能和单位时间的平均计算成本之间的权衡端到端的学习。在语音命令数据集[1]上的实验表明,这种方法比传统的网络体系结构是静态的方法更快(和/或节能),具有更高的识别水平。
研究问题 目前关键词定位(Keyword Spotting)问题(如在实时音频流中确定关键词)的主要方法是在连续的滑动窗口中使用神经网络模型进行识别。在目前神经网络搜索(Neural Architecture Search)的研究中发现的网络结构都是静态的(相同的神经网络结构在预测时重用)。由于任务的复杂性,目前基准模型通常很大,导致预测阶段计算资源及能源消耗水平较高。
研究方法 文章提出了随机自适应神经网络结构搜索(Stochastic Adaptive Neural Architecture Search, SANAS)模型,能够在模型推断阶段自适应地在线调整神经网络的结构(当任务简单时使用较小的结构,当任务复杂时使用较大的结构)。关键词定位(Keyword Spotting)可以抽象为一个音频流序列标注问题,在每个时间步长(timestep),系统接收一个数据点

标签:训练,模型,ACM,vector,语音,ICASSP,识别,音频
来源: https://blog.csdn.net/qq_41185868/article/details/106442028