首页 > 其他分享> > [论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

2021-02-09 20:05:14 作者：互联网

论文主要工作

该论文的主要贡献有两点：一是提出了一个基于Transformer的交叉模式的架构模型；二是建立了一个新的3D舞蹈数据集AIST++。

在这里插入图片描述
输入：AIST++ 3D 舞蹈数据集（用于训练）
网络：Cross-Modal Transformer-based Network
输出：不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果：给出一段音乐和一个短的seed motion，通过网络可以产生较长时间的3D舞蹈动作

AIST++是一个大规模的3D人体舞蹈动作数据集，包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上，作为动作生成和预测两个任务的benchmark，其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集，共有1.1M帧3D有音乐的舞蹈动作，包括基础和高级舞蹈艺术的1408个序列，涵盖了30个人物和10个流派，视频时长约为5小时。

补充：其他舞蹈数据集

本文的核心网络是基于Transformer的交互模式的架构，按照功能分为两个部分：

按照不同的Transformer，我们可以把网络看作以下结构：
在这里插入图片描述
如图有三个Transformer：

在这里插入图片描述

本文的所有Transformer都采用了这种Attention结构，具体的context vector C的计算如下。

在这里插入图片描述