captioning

首页 > TAG信息列表 > captioning

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

Abstract & Introduction & Related Work 研究任务自动音频字幕已有方法和相关工作面临挑战创新思路本文首先提出了一个音频描述的主题模型实验结论发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键提出下面两种语音主题模型：局部音频主题

论文阅读--Semantic Grouping Network for Video Captioning

Semantic Grouping Network for Video Captioning abstract 提出了Semantic Grouping Network(SGN)网络：用部分已经解码的字幕中，选择可可以区分的单词短语对视频帧进行分组，也就是将表达不同意思的帧分组（与聚类相似）；对语义对齐的组进行解码，以预测下一个单词；（根据前面的已经生成

Awesome-Visual-Captioning

目录Table of ContentsPaper RoadmapACL-2021CVPR-2021AAAI-2021ACMMM-2020NeurIPS-2020ECCV-2020Video CaptioningCVPR-2020ACL-2020AAAI-2020 Awesome-Visual-Captioning Table of Contents ACL-2021 CVPR-2021 AAAI-2021 ACMMM-2020 NeurIPS-2020 ECCV-2020 CVPR-2020 ACL-2

[paper reading][CVPR 2020] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

目录2 Related WorkGeneral Video Classification33.2 Spatio-Temporal Graph CVPR 2020 https://openaccess.thecvf.com/content_CVPR_2020/papers/Pan_Spatio-Temporal_Graph_for_Video_Captioning_With_Knowledge_Distillation_CVPR_2020_paper.pdf spatio-temporal graph m

Image captioning评价方法之ROUGE-L

文章地址：ROUGE: A Package for Automatic Evaluation of Summaries 代码地址(非官方)：https://github.com/tylin/coco-caption 文章由University of Southern California发表在2004ACL上。 ROUGE为 Recall-Oriented Understudy for Gisting Evaluation的缩写。文章ROUGE提出了

文献阅读_image caption_Knowledge-Based Systems2021_Reasoning like Humans: On Dynamic Attention Prior in

Reasoning like Humans: On Dynamic Attention Prior in Image Captioning 一言以蔽之：引入前一时序的注意力（ADP），引入整个句子作为输入（LLC），以基本相同的参数和算量，实现CIDER-D提升2.32% Abstract & Conclusion 1. most conventional deep attention models perform attention

【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning 附：论文下载地址论文主要贡献提出了一种新的双层协同Transformer网络(DLCT)，实现了区域特征和网格特征的互补性。在MS-COCO数据集上的大量实验证明了该方法的优越性。提出了位置约束交叉注意(LCCA)

MemCap：Memorizing Style Knowledge for Image Captioning

MemCap：Memorizing Style Knowledge for Image Captioning 论文主要贡献提出了一种基于MemCap的风格化的图像描述方法，使用style memory module（风格记忆模块）来记忆关于语言风格的知识，并根据图片中的内容来检索这些知识。提出了一种sentence decomposing algorithm（句子分解算法

Auto-Encoding Scene Graphs for Image Captioning

原文地址时间：2018年Introductionend-to-end encoder-decoder模型存在一个问题：当将一张包括未见过的场景输入到网络中时，返回的结果仅仅就是一些显著的object，比如“there is a dog on the floor”，这样的结果与object detection几乎没有区别认知上的证据表明，基于视觉的语言并非是end-

用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》

《Attention on Attention for Image Captioning》 Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏：计算机视觉 VQA 最后发布:2019-11-17 23:21:10 首次发布:2019-11-17 19:32:31 版权目录一、文献摘要介绍二、网

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

先来了解soft attention 与 hard attention的含义：https://blog.csdn.net/ccbrid/article/details/79730645 这个总结很清楚：https://zhuanlan.zhihu.com/p/36151033

图像理解（Image Captioning）（1）CNN部分

目录一、应用领域二、原理三、使用的环境与数据集3.1. 环境3.2. 数据集四、网络模型4.1 理想⽹络模型4.1.1 CNN网络模型五、实现步骤总体步骤:5.1 使⽤keras创建VGG16定义的CNN⽹络结构5.2 提取图像特征一、应用领域图像搜索安全监控鉴黄二、原理 CNN(卷积神经⽹络

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

题目：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 作者： Long Chen等（浙大、新国立、山大）期刊：CVPR 2017 1 背景　　注意力机制已经在自然语言处理和计算机视觉领域取得了很大成功，但是大多数现有的基于注意力的模型只考

(CV学习笔记)看图说话(Image Captioning)-2

实现load_img_as_np_array def load_img_as_np_array(path, target_size): """从给定文件[加载]图像,[缩放]图像大小为给定target_size,返回[Keras支持]的浮点数numpy数组. # Arguments path: 图像文件路径 target_size: 元组(图像高度, 图像宽度).

Video Captioning 综述

1.Unsupervised learning of video representations using LSTMs 方法：从先前的帧编码预测未来帧序列相似于Sequence to sequence learning with neural networks论文方法：使用一个LSTM编码输入文本成固定表示，另一个LSTM解码成不同语言 2.Describing Videos by Exploiting Temp