其他分享
首页 > 其他分享> > VQA视觉问答基础知识

VQA视觉问答基础知识

作者:互联网

本文记录简单了解VQA的过程,目的是以此学习图像和文本的特征预处理、嵌入以及如何设计分类loss等等.

参考资料:

https://zhuanlan.zhihu.com/p/40704719

https://www.youtube.com/watch?v=ElZADFTer4I

https://www.youtube.com/watch?v=cgOmpgcELPQ https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/

https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/

VQA定义:

给定一张图像和一个相关文字问题,从若干候选文字回答中选出正确答案.

常用策略是CNN提取图像特征,RNN提取文本特征,将图像特征和文本特征进行融合,然后通过全连接层进行分类.关键在于如何融合这两个模态.

Visual Question Answering (VQA) by Devi Parikh

Why Words and Pictures?

Image captions即为图片加上文字描述,可能存在的问题是,文字描述太过通用,无法详细地描绘出图像中的细节.

构建VQA:

What such a model can‘t do?

Introduction to Visual Question Answering: Datasets, Approaches and Evaluation

A multi-discipline problem:

Available datasets:

Current Approaches:

Evaluation metrics:

标签:基础知识,com,dataset,问题,图像,VQA,问答,图片
来源: https://www.cnblogs.com/limitlessun/p/11773341.html