INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING
作者:互联网
Abstract & Introduction & Related Work
- 研究任务
自动音频字幕 - 已有方法和相关工作
- 面临挑战
- 创新思路
- 本文首先提出了一个音频描述的主题模型
- 实验结论
发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键
提出下面两种语音主题模型:
- 局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
- 全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)
TRANSFER LEARNING FOR AAC
我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响
AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征
AAC Model Architecture
Audio encoder
十层CNN来做audio tagging
五层CRNN来做声音事件检测
Text decoder
隐藏状态h,WE表示word embedding
c
n
c_n
cn由embedding sequence跟前一秒的隐藏状态
h
n
−
1
h_{n-1}
hn−1做注意力之后的总和得到
EXPERIMENTAL SETUP
Datasets
- AudioSet
- DCASE
- Clotho
- Audiocaps
System configuration
RESULTS AND DISCUSSION
实验结果表明局部声音主题比全局信息更重要
CONCLUSION
据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象
Remark
一个简单清晰又work的框架,用了迁移学习,总体还不错
标签:CAPTIONING,INFORMATION,AAC,TRANSFER,音频,主题,抽象,CRNN,CNN 来源: https://blog.csdn.net/Raki_J/article/details/123056891