其他分享
首页 > 其他分享> > 小方案蕴藏大改变,人物识别挑战赛TOP2团队依靠创新突围

小方案蕴藏大改变,人物识别挑战赛TOP2团队依靠创新突围

作者:互联网

Abstract

Video Identification是目前产业界和实际应用过程中的一个亟须解决的任务和需求,本次爱奇艺与ACM MM官方依托于iQIYI-VID-2019数据集,举办了Multi Media Challenge,旨在解决实际场景下的视频识别问题。本团队提出了一种新的数据集特征融合方式,并设计了一种新的残差全连接网络,最终仅利用人脸特征就达到了0.9035的分数,取得了第二名的好成绩,这也是所有参赛队伍中仅利用官方特征的最好成绩。在模型方面,flops仅为0.5G ,测试整个数据集时间仅需2~5min,精度与速度兼具,具有较高的落地价值与实际意义。

 

Introduction

如今,互联网消费以视频为主。与单纯图像相比,视频通过提供视觉和听觉以及时间维度的信息来丰富内容。在视频理解中,人物识别是多媒体领域最重要的任务之一。在实践中,由于人体姿势、人脸清晰度、衣着、装扮等方面的差异很大,所以针对人物的身份识别非常具有挑战性。

 

iQIYI-VID-2019数据集是当前最大的多模态人物识别数据集,总时长超过200小时,共计20多万个视频。据统计,训练集有60566个视频,验证集有76013个视频,测试集有74911个视频,总计10034个不同人物。由此可见,该数据集视频数目多,人物种类多,识别难度大。

 

考虑到庞大的视频数据量,为了尽可能减少选手提取特征的时间与计算消耗、并保证基线一致,官方预先对视频数据进行了特征提取,鼓励基于此类提取特征技术进一步辅助、以别的方法来显著提高准确率,并规定模型需要以docker形式进行提交,内存、显存及运行时间均有限制。iQIYI-VID-2019数据集提供了原始视频片段以及官方提取的head,body,video,face等特征信息,它们都是使用现阶段各领域的state-of-the-art方法而提取得到的。比如最重要的人脸特征便是先利用ssh进行人脸检测,再使用Arcface进行特征提取。

 

目前,从人物识别的角度来说,最重要的信息是人脸特征,别的特征可以从一些角度来辅助人脸特征的识别。在论文中,官方提出了一种新的state of the art的方法,能够融合多模态特征,对一个视频生成的对应的特征向量,处理流程如下图所示:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图一:iQIYI多模态识别流程

 

该方法融合了多个模型的特征进行统一训练,并成功通过netVLAD等手段将视频帧特征转化为视频的特征,压缩了维度,最终通过self-attention开展学习并进行最终的分类。

 

但如果不加入rnn等相关手段来利用帧之间的时序相关信息,仅使用cnn提取的特征帧做聚合,相比基于帧特征训练而言,会导致视频帧数带来的样本数量优势与特征的表达的多样性被抹去(例如样本特征中的侧脸和模糊会被平滑为质量较高帧的清晰特征),原有特征信息被压缩,不管以avg的形式还是以netVLAD的形式,均不能完全还原压缩所带来的信息量损失,训练出来的模型鲁棒性会出现下降。

 

本团队采用帧特征去训练模型,并研究了一种新的数据处理方式,通过多帧信息融合,有效利用不同帧之间的差别,提高了模型对数据处理的鲁棒性;还借鉴了ResNet的思想,提出了一种全新的网络架构——residual dense net,在全连接网络的基础之上引入跳跃连接,减轻了过拟合,有效地利用了不同层的特征。

 

Algorithm

本团队操作流程主要如下图所示:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图二:我们的算法操作流程

 

1.预实验

将官方提供的训练集及验证集进行合并按照9:1的比例重新划分了训练集验证集,并对各个特征进行了测试,在验证集上,head特征能达到60%左右的准确率,body能达到35%左右的准确率,声音特征只能达到25%的准确率,而人脸的准确率最高,能达到81%~88%。

 

各特征存在不同缺点:

 

因此我们主要使用人脸特征,以身体特征作为缺少人脸时的辅助手段。但由于身体特征本身准确率不高,而且会影响到mAP评价指标,所以最终方案只使用了人脸特征进行人物识别。

 

2.模型介绍

模型如下图所示:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图三:我们的模型结构

 

使用全连接层及softmax函数针对官方特征训练一个简单的分类网络,在实验中发现,深层的全连接网络会捕获更多的信息,但是随着层数增加,参数增多,会存在过拟合情况,而全连接层层数较少时的拟合能力又不尽如人意。我们借用ResNet的思路,设计了一个残差式的全连接模型,如图所示,增加了第一层到第三层的shortcut连接,使网络的信息流同时能接收到浅层及深层信息,并适当添加了dropout及bn层,既增加了网络的拟合能力,也解决了网络较深的训练问题及过拟合问题。

 

3.数据处理

考虑到人脸特征中存在着较低质量的人脸,我们首先对训练数据进行划分,根据人脸质量的不同,划分为全部人脸特征、人脸质量高于20的特征、人脸质量高于40的特征这三个子数据集,以使模型能够有针对性地学习不同质量的人脸特征。随后再分别对每个子数据集进行数据增强,将每个类中所有视频的帧进行shuffle操作,分别与另外的[1,2,3,4]帧进行融合,将融合所得到的新特征与原有特征一起组成训练集。进行这样的数据增强可以将不同场景下同一人物的特征整合,弱化场景、妆容、光线之间的差别,缩小类内差距,并同时使得视频数目较少的类帧数增加,增强模型鲁棒性。增强之后的数据与原数据、官方采用处理方法的对比如下:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图四:左图为原始特征分布,中间为我们的数据增强之后数据的分布,右图为官方所用帧平均方法整合的特征

 

4.训练流程

在三个子数据集上分别进行训练,产生了3个不同的模型文件,为之后的模型融合做准备。在模型训练细节方面,使用Adam优化器,交叉熵损失函数,初始学习率为0.01,学习率每周期下降为原来的0.7倍,总计经历八个周期,训练完成。

 

5.测试流程

读入相应的测试数据,采用与训练集数据增强相同的方式进行数据增强。首先对同一视频中的所有帧进行shuffle,之后将每一帧随机与该视频的其余若干帧进行特征融合,得到的新特征与原特征合并,成为新测试集。由于筛选高质量帧可以减少噪声数据的影响,故对于每个视频,取人脸质量较高的前70%的帧进行预测,再对每个视频各帧的预测概率加和求平均,得到该视频的所属类别概率分布。每类别取概率最大的前100个作为该类输出结果。

 

Result and Prospect

1.结果

单模型的测试分数最终可达0.875。之后采用了模型融合,在三个不同质量分数上的测试集分别预测,然后将他们所预测的视频概率进行加和求平均,以其作为最终的结果,达到0.889;进一步地加入特征融合后分数又可达到0.9019。我们团队同样也是唯一一支在仅使用官方特征的情况下mAP突破0.9的团队。

模型方法

mAP

单模型

0.875

三个子数据集训练的模型进行融合

0.889

加入特征融合与数据增强

0.9019

残差模型与普通全连接网络进行融合

0.9035

 Table 1:模型的迭代过程

 

2.总结与展望

本团队设计了一个特征残差分类网络,通过一种通用化的特征增强方法与专职专用的子数据集分割方法提高模型表现力。与更替特征提取网络不同的是,其仅需要较小的计算量增加便能取得精度的大幅提升,而且能广泛适用于各个模态特征的特征训练与预测,方便移植与落地,支持多模态结果融合,与官方的特征提取网络适配性较高。相信官方通过优化一些特征提取方面的网络性能,比如优化特征的选取与提取、对检测出的人脸进行人脸对齐、进一步提高特征准确性等,与我们的分类方案相结合,最终能取得更好的效果。

 

本团队还有一系列的未实现的想法,相信这些处理方法在实际应用场景中也能取得不错的效果,以下列出,供各位读者参考:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图五:Attention机制的应用

 

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

图六:mixup效果对比

 

end

 

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

 

标签:视频,训练,特征,模型,TOP2,人脸,突围,挑战赛,数据
来源: https://blog.51cto.com/u_15282126/2971930