首页 > TAG信息列表 > captioning

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

Abstract & Introduction & Related Work 研究任务 自动音频字幕已有方法和相关工作面临挑战创新思路 本文首先提出了一个音频描述的主题模型 实验结论 发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键 提出下面两种语音主题模型: 局部音频主题

论文阅读--Semantic Grouping Network for Video Captioning

Semantic Grouping Network for Video Captioning abstract 提出了Semantic Grouping Network(SGN)网络: 用部分已经解码的字幕中,选择可可以区分的单词短语对视频帧进行分组,也就是将表达不同意思的帧分组(与聚类相似);对语义对齐的组进行解码,以预测下一个单词;(根据前面的已经生成

Awesome-Visual-Captioning

目录Table of ContentsPaper RoadmapACL-2021CVPR-2021AAAI-2021ACMMM-2020NeurIPS-2020ECCV-2020Video CaptioningCVPR-2020ACL-2020AAAI-2020 Awesome-Visual-Captioning Table of Contents ACL-2021 CVPR-2021 AAAI-2021 ACMMM-2020 NeurIPS-2020 ECCV-2020 CVPR-2020 ACL-2

[paper reading][CVPR 2020] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

目录2 Related WorkGeneral Video Classification33.2 Spatio-Temporal Graph CVPR 2020 https://openaccess.thecvf.com/content_CVPR_2020/papers/Pan_Spatio-Temporal_Graph_for_Video_Captioning_With_Knowledge_Distillation_CVPR_2020_paper.pdf spatio-temporal graph m

Image captioning评价方法之ROUGE-L

文章地址:ROUGE: A Package for Automatic Evaluation of Summaries 代码地址(非官方):https://github.com/tylin/coco-caption 文章由University of Southern California发表在2004ACL上。 ROUGE为 Recall-Oriented Understudy for Gisting Evaluation的缩写。文章ROUGE提出了

文献阅读_image caption_Knowledge-Based Systems2021_Reasoning like Humans: On Dynamic Attention Prior in

Reasoning like Humans: On Dynamic Attention Prior in Image Captioning   一言以蔽之:引入前一时序的注意力(ADP),引入 整个句子作为输入(LLC),以基本相同的参数和算量,实现CIDER-D提升2.32%   Abstract & Conclusion 1. most conventional deep attention models perform attention

【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning 附: 论文下载地址 论文主要贡献 提出了一种新的双层协同Transformer网络(DLCT),实现了区域特征和网格特征的互补性。在MS-COCO数据集上的大量实验证明了该方法的优越性。提出了位置约束交叉注意(LCCA)

MemCap:Memorizing Style Knowledge for Image Captioning

MemCap:Memorizing Style Knowledge for Image Captioning 论文主要贡献 提出了一种基于MemCap的风格化的图像描述方法,使用style memory module(风格记忆模块)来记忆关于语言风格的知识,并根据图片中的内容来检索这些知识。提出了一种sentence decomposing algorithm(句子分解算法

Auto-Encoding Scene Graphs for Image Captioning

原文地址时间:2018年Introductionend-to-end encoder-decoder模型存在一个问题:当将一张包括未见过的场景输入到网络中时,返回的结果仅仅就是一些显著的object,比如“there is a dog on the floor”,这样的结果与object detection几乎没有区别认知上的证据表明,基于视觉的语言并非是end-

用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》

《Attention on Attention for Image Captioning》 Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏: 计算机视觉 VQA 最后发布:2019-11-17 23:21:10 首次发布:2019-11-17 19:32:31 版权 目录 一、文献摘要介绍 二、网

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

先来了解soft attention 与 hard attention的含义:https://blog.csdn.net/ccbrid/article/details/79730645 这个总结很清楚:https://zhuanlan.zhihu.com/p/36151033

图像理解(Image Captioning)(1)CNN部分

目录一、 应用领域二、 原理三、使用的环境与数据集3.1. 环境3.2. 数据集四、网络模型4.1 理想⽹络模型4.1.1 CNN网络模型五、实现步骤总体步骤:5.1 使⽤keras创建VGG16定义的CNN⽹络结构5.2 提取图像特征 一、 应用领域 图像搜索 安全监控 鉴黄 二、 原理 CNN(卷积神经⽹络

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

题目:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 作者: Long Chen等(浙大、新国立、山大) 期刊:CVPR 2017 1       背景   注意力机制已经在自然语言处理和计算机视觉领域取得了很大成功,但是大多数现有的基于注意力的模型只考

(CV学习笔记)看图说话(Image Captioning)-2

实现load_img_as_np_array def load_img_as_np_array(path, target_size): """从给定文件[加载]图像,[缩放]图像大小为给定target_size,返回[Keras支持]的浮点数numpy数组. # Arguments path: 图像文件路径 target_size: 元组(图像高度, 图像宽度).

Video Captioning 综述

  1.Unsupervised learning of video representations using LSTMs 方法:从先前的帧编码预测未来帧序列 相似于Sequence to sequence learning with neural networks论文 方法:使用一个LSTM编码输入文本成固定表示,另一个LSTM解码成不同语言 2.Describing Videos by Exploiting Temp