其他分享
首页 > 其他分享> > INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

作者:互联网

Abstract & Introduction & Related Work

提出下面两种语音主题模型:

  1. 局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
  2. 全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响

AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征
在这里插入图片描述

AAC Model Architecture

在这里插入图片描述

Audio encoder

十层CNN来做audio tagging
五层CRNN来做声音事件检测

Text decoder

隐藏状态h,WE表示word embedding
在这里插入图片描述
c n c_n cn​由embedding sequence跟前一秒的隐藏状态 h n − 1 h_{n-1} hn−1​做注意力之后的总和得到
在这里插入图片描述

EXPERIMENTAL SETUP

Datasets

  1. AudioSet
  2. DCASE
  3. Clotho
  4. Audiocaps

System configuration

在这里插入图片描述

RESULTS AND DISCUSSION

在这里插入图片描述
实验结果表明局部声音主题比全局信息更重要

CONCLUSION

据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象

Remark

一个简单清晰又work的框架,用了迁移学习,总体还不错

标签:CAPTIONING,INFORMATION,AAC,TRANSFER,音频,主题,抽象,CRNN,CNN
来源: https://blog.csdn.net/Raki_J/article/details/123056891