其他分享
首页 > 其他分享> > 视频目标检测AAAI19新文Video Object Detection with Locally-Weighted Deformable Neighbors

视频目标检测AAAI19新文Video Object Detection with Locally-Weighted Deformable Neighbors

作者:互联网

1.提出了一个flow-free的端到端视频目标检测框架,平衡了速度和准确性,在ImageNet VID上达到了76.3mAP和20fps。

2.借鉴可变形卷积网络的思想,提出一个Light-Weight Deformable Neighbors框架进行连续帧之间的warp,用来替代光流。

LWDN框架介绍:将CNN分为两个部分,lower-part部分提取low-level特征,higher-part部分提取high-level特征,文章中采用固定设置的关键帧,每隔10帧为一个关键帧。

对于关键帧k,进行一个完整的CNN特征提取,会得到low-level特征,high-level特征;对于非关键帧k+i,仅提取其low-level特征,然后将关键帧和非关键帧的low-level特征一同送入一个

 Weight Predictor Network,得到一个position-sensitive kernel weights和corresponding kernel offsets.然后用position-sensitive weight在关键帧的high-level特征上作用得到非关键帧的task -feature,这个task-feature就是对非关键帧的high-level特征的估计。

文章里对非关键帧的high-level特征进行估计时没用用到WPN得到的offsets,这个offsets会在后面的关键帧与关键帧融合中用到。

标签:Neighbors,关键帧,level,特征,Locally,offsets,high,新文,low
来源: https://www.cnblogs.com/hf19950918/p/10529536.html