首页 > 其他分享> > 论文阅读--Semantic Grouping Network for Video Captioning

论文阅读--Semantic Grouping Network for Video Captioning

2021-12-28 20:30:51 作者：互联网

Semantic Grouping Network for Video Captioning

提出了Semantic Grouping Network(SGN)网络：

以前：丢弃或者合并重复视频信息

SGN：检索最有鉴别能力的单词短语，然后将这些词与视频帧关联。这样可以让语义差不多的帧聚类在一起。

贡献：

在这里插入图片描述

语义群（组）条件：

贡献：

在这里插入图片描述

结构：Visual Encoder、Phrase Encoder、Semantic Grouping、Decoder、Contrastive Attention (CA) loss

获取视频并为每个视频帧生成帧表示。

接受部分已解码的标题，并生成由标题中的一组单词组成的短语（组合单词生成短语）

过滤出相似的短语，并通过围绕前面处理后的短语与视频帧之间对应，构建语义组（处理前面Phrase Encoder生成的短语）

解码器利用语义组来预测部分解码的标题的下一个单词

标签：Captioning,视频,Semantic,Network,短语,语义,单词,Grouping
来源： https://blog.csdn.net/chenzhiwen1998/article/details/122201795