其他分享
首页 > 其他分享> > [论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

作者:互联网

论文学习:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

论文主要工作

论文主要贡献有两点:一是提出了一个基于Transformer的交叉模式的架构模型;二是建立了一个新的3D舞蹈数据集AIST++

技术亮点

核心任务:Task

在这里插入图片描述
输入:AIST++ 3D 舞蹈数据集(用于训练)
网络:Cross-Modal Transformer-based Network
输出:不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果:给出一段音乐和一个短的seed motion,通过网络可以产生较长时间的3D舞蹈动作

AIST++数据集

AIST++是一个大规模的3D人体舞蹈动作数据集,包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上,作为动作生成和预测两个任务的benchmark,其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集,共有1.1M帧3D有音乐的舞蹈动作,包括基础和高级舞蹈艺术的1408个序列,涵盖了30个人物和10个流派,视频时长约为5小时。

补充:其他舞蹈数据集

核心网络:Transformer-based learning framework

本文的核心网络是基于Transformer的交互模式的架构,按照功能分为两个部分:

Deep cross-modal transformer部分

按照不同的Transformer,我们可以把网络看作以下结构:
在这里插入图片描述
如图有三个Transformer:

Full-attention with future-N supervision mechanism部分

在这里插入图片描述

本文的所有Transformer都采用了这种Attention结构,具体的context vector C的计算如下。

在这里插入图片描述

Evaluation Metrics

相关工作:Baseline Method

3D Human Motion Synthesis

Cross-Modal Sequence-to-Sequence Generation

交互感知多用于自然语言处理,端对端的处理不同种类的sequence,本文则是将audio到3D motion, 在该处理的过程中我们最初使用的是CNN、RNN,最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。

Audio To Human Motion Generation

2D pose

3D pose

标签:Transformer,动作,Dance,AIST,++,Motion,Generation,Learn,3D
来源: https://blog.csdn.net/qq_43580325/article/details/113757186