其他分享
首页 > 其他分享> > 论文阅读--Semantic Grouping Network for Video Captioning

论文阅读--Semantic Grouping Network for Video Captioning

作者:互联网

Semantic Grouping Network for Video Captioning

abstract

提出了Semantic Grouping Network(SGN)网络:

以前:丢弃或者合并重复视频信息

SGN:检索最有鉴别能力的单词短语,然后将这些词与视频帧关联 。这样可以让语义差不多的帧聚类在一起。

贡献:

在这里插入图片描述

Introduction

语义群(组)条件:

  1. 语义组的意思应该是具体的、可观察的,不能是is、the之类的;
  2. 语义是可区分的;
  3. 语义和视频帧之间对应;

贡献:

  1. 提出了一种语义分组网络,并提出了新方法(根据分好组、已经生成的词预测下一个)
  2. 提出对比注意力损失(CA loss)
  3. 在常用数据集超过了当前最好的模型。

Semantic Grouping Network

在这里插入图片描述

结构:Visual Encoder、Phrase Encoder、Semantic Grouping、Decoder、Contrastive Attention (CA) loss

Visual Encoder 视频嵌入

获取视频并为每个视频帧生成帧表示。

Phrase Encoder 处理单词为短语

接受部分已解码的标题,并生成由标题中的一组单词组成的短语(组合单词生成短语)

Semantic Grouping 分组(视频帧+筛选后短语)

过滤出相似的短语,并通过围绕前面处理后的短语与视频帧之间对应,构建语义组(处理前面Phrase Encoder生成的短语)

Decoder 根据分组预测下一个词

解码器利用语义组来预测部分解码的标题的下一个单词

数据集

标签:Captioning,视频,Semantic,Network,短语,语义,单词,Grouping
来源: https://blog.csdn.net/chenzhiwen1998/article/details/122201795