首页 > 其他分享> > 视频理解领域小样本学习调研报告

视频理解领域小样本学习调研报告

2021-03-21 22:30:16 作者：互联网

视频理解领域小样本学习调研报告

标签（空格分隔）：学习笔记

文章目录

视频理解领域小样本学习调研报告

0 前言

本篇调研了小样本学习在动作识别领域的进展，旨在快速掌握最新研究进展，方便评估小样本学习是否能够有效应用到行为识别领域。
术语解释
- N-way K-shot：在测试时，从测试集中随机选出N个类，从N个类中任意选取K+X个样本，其中K个样本N类（共KN个样本）组成Support Set, X个样本N类（共XN个样本）组成Query Set。支撑集Support Set中的视频为Query Set提供参考信息。
参考资料
- 这是一个复旦CV博士的总结：小样本视频动作识别论文整理 few-shot video action recognition
其他
- 能用的数据集
- 别人已经实现的demo
- 开源代码
- 如果要用在摔倒上要怎么做
- 方法原理上可行否？比如是否适用于目前的问题：有一些样本很多，有一些类别样本很少。方向很重要！发现不行及时止损。
- 工业上有什么应用？

1. 分类

Action Genome(li Feifei2019)提出的分类：

1. 用样本较多的类别数据学习一个分类器，然后用该分类器去鉴别少样本类别。4.2论文属于第一种。
2、通过学习不变性或者分解来实现少样本分类。CMN\TARN、ProtoGAN都属于第二类方法。

ProtoGAN提出的分类

1.元学习：
在训练阶段模仿小样本推理过程。CMN
2.表征学习：
尝试学习新样本与已知小样本间的相似性。OTAM
3.生成模型：
通过生成模型合成数据来增强新类别的样本量。ProtoGAN

2. 常用数据集总结

数据集	动作类别数	总视频数	train:val:test 或train:test	SOTA
UCF101	101	13320	51:50	95.5%(by AMeFu-Net)
HMDB51	51	6766	26:25	75.5% (by AMeFu-Net)
Olympic-Sports	16	783	8:8	86.3%(by ProtoGAN)
miniMIT	200	200*550	120:40:40	56.7%(by ARN)
小样本版Kinetics	100	100*100	64:12:24	86.8%（by AMeFu-Net）
小样本版Something-Something V2	100	100*100	64:12:24	52.3%(by OTAM)

结论

需要准备多少数据：每类准备50-100个视频片段

3. 开源代码

TRX

重点查看：CVPR2021-Temporal-Relational CrossTransformers for Few-Shot Action Recognition
- Github-trx
- 基于以下文章和repo：
  - CNAPS: 图像分类任务的小样本学习
  - GitHub
  - NIPS2019-Fast and Flexible Multi-Task Classification Using Conditional Neural Adaptive Processes
  - ICML2020-TASKNORM: Rethinking Batch Normalization for Meta-Learning
  - google-research/meta-dataset：谷歌repo, 数据集，Github

Few-shot-action-recognition

4. 论文简述

4.1 ProtoGAN: Towards Few Shot Learning for Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：印度理工学院 & 奔驰印度研发
- 发表期刊和时间：ICCV2019
- 谷歌引用量：13
一句话总结：
- 提出ProtoGAN结构，**在UCF101（80.2%）, HMDB51（54%）和 Olympic-Sports（86.3%）**达到SOTA效果。
简述
- 思想：通过ProtoGAN生成制定新类别的视频特征解决小样本视频识别问题。且首次提出Generalized Few-Shot Learning(G-FSL) 设置Benchmark.
- G-FSL：与FSL不同之处在于，FSL只考虑新类别(Novel Classes)的识别效果，G-FSL将在训练中拥有足够样本量的类别也考虑进去了（Seen Classes）。
- 效果：
  - 在FSL设置下对比效果

4.2 A Generative Approach to Zero-Shot and Few-Shot Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：印度理工学院马德拉斯分校
- 发表期刊和时间：2018WACV
- 谷歌引用量：56
一句话总结：

4.3 TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：伦敦玛丽女王大学
- 发表期刊和时间：BMVC2019
- 谷歌引用量： 15
一句话总结：
- 提出TARN结构，小样本版Kenetics数据集上精度达80.66%。

4.4 CMN: Compound memory networks for few-shot video classification.

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：悉尼科技大学
- 发表期刊和时间： ECCV2018
- 谷歌引用量：47
一句话总结：
- 提出Compound Memory Network(CMN)结构，在小样本版Kinetics数据集上精度达78.9%。
补充
- 数据集制作：在Kinetics数据集上随机挑选100类，每类100个样本视频作为小样本数据集。其中64类为训练集，12类为验证集，24类为测试集。

4.5 OTAM: Few-shot video classification via temporal alignment

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：斯坦福
- 发表期刊和时间：CVPR2020
- 谷歌引用量：24
一句话总结：
- 提出OTAM结构，小样本版Kinetics精度达85.8%。

4.6 ARN: Few-shot Action Recognition with Permutation-invariant Attention

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：牛津&澳大利亚国立&香港大学
- 发表期刊和时间：CVPR2020
- 谷歌引用量：11
一句话总结：
- 提出 Action Relation Network(ARN) 结构，在 HMDB51, UCF101, miniMIT 三个数据集上达到SOTA，UCF101数据集精度为84.8%

4.7 AMeFu-Net：Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition

相关资料：
- Github
论文基本信息：
- 领域：小样本学习
- 作者单位：复旦&牛津
- 发表期刊和时间：ACM2020
- 谷歌引用量：–
一句话总结：
- 提出AMeFu-Net，小样本版Kinetics精度达86.8%.

标签：视频,Shot,样本,Few,Action,shot,Recognition,调研
来源： https://blog.csdn.net/qq_39213580/article/details/115057697