其他分享
首页 > 其他分享> > #阅读#FiLM: Visual Reasoning with a General Conditioning Layer

#阅读#FiLM: Visual Reasoning with a General Conditioning Layer

作者:互联网

 

前言:为了记录方便本文FiLM均用FM记录

单层CNN的FM。这个点表示一个阿达玛乘积<1>。γ和β的各种组合可以以各种方式调节单个特征图。

 

 

FM学习函数 f 和 h 输出 γ 和 β ,函数输入假设为x,f h可以是任意函数,对于CNN来说f和h根据不可知的空间位置,调节激活每个特征图分布。

γ和β通过特征仿射变换,调节神经网络的激活F

 

FM通过放大或者缩小目标的特征图,有选择地给他们设定阙值,每个特征图都是独立设置的。每个调制特征图只需要两个参数,是一种可扩展的、计算效率高的调节方法。

 

model

FiLM模型由一个FiLM生成语言管道和一个FiLM生成视觉管道组成.

生成器使用门通循环单元(GRU)网络处理一个问题,该网络包含4096个隐藏单元,其中包含已学习的200维单词嵌入。最终的GRU隐藏状态是一个问题嵌入,模型从中进行预测.

 可视管道从调整大小的224×224image输入中提取128个14×14image特征图,使用从头训练的CNN或使用固定的,预先训练的特征提取与学习层3×3的卷积。 从头开始训练的CNN由4个层(每个层有128个4× 4核)、ReLU激活和批处理归一化组成。固定的特征提取器输出在ImageNet 上预先训练的ResNet101 的conv4层,以匹配先前在clever上的工作。利用128个特征图和一个最终分类器,我们的模型- FiLM-ed残差块(ResBlocks)由4个图像特征块进行处理。该分类器由1×1卷积到512个特征映射、全局最大池和带有1024个隐藏单元的两层MLP组成,该MLP对最终答案输出softmax分布。

 

 

 

*不太确定的翻译、理解

1.FiLM model ablations still outperform prior state-of-the-art. Notably, we find there is no close link between normalization and the success of a conditioned affine transformation, a previously untouched assumption. Thus, we relax the conditions under which this method can be applied.

这个模型‘融合’技术仍然是行业内领先,值得注意的是,我们发现标准化和条件仿射变换的成功之间没有密切的联系,这是一个以前未触及的假设。 因此,我们放宽了应用这种方法的条件。

 2.Gated Recurrent Unit (GRU)封闭重复单元 

*相关基础知识

<1>阿达玛乘积:不同于传统矩阵相乘计算方式,它是对应矩阵元素相乘,值得注意的是两个相乘的矩阵必须行列数相同。

 

标签:Layer,GRU,特征,General,128,Visual,CNN,FM,FiLM
来源: https://www.cnblogs.com/tanyahuang/p/15334492.html