首页 > 其他分享> > #阅读#FiLM: Visual Reasoning with a General Conditioning Layer

#阅读#FiLM: Visual Reasoning with a General Conditioning Layer

2021-09-27 13:33:06 作者：互联网

前言：为了记录方便本文FiLM均用FM记录

单层CNN的FM。这个点表示一个阿达玛乘积<1>。γ和β的各种组合可以以各种方式调节单个特征图。

FM学习函数 f 和 h 输出 γ 和 β ，函数输入假设为x，f h可以是任意函数，对于CNN来说f和h根据不可知的空间位置，调节激活每个特征图分布。

γ和β通过特征仿射变换，调节神经网络的激活F

FM通过放大或者缩小目标的特征图，有选择地给他们设定阙值，每个特征图都是独立设置的。每个调制特征图只需要两个参数，是一种可扩展的、计算效率高的调节方法。

model

FiLM模型由一个FiLM生成语言管道和一个FiLM生成视觉管道组成.

生成器使用门通循环单元(GRU)网络处理一个问题，该网络包含4096个隐藏单元，其中包含已学习的200维单词嵌入。最终的GRU隐藏状态是一个问题嵌入，模型从中进行预测.

可视管道从调整大小的224×224image输入中提取128个14×14image特征图，使用从头训练的CNN或使用固定的，预先训练的特征提取与学习层3×3的卷积。从头开始训练的CNN由4个层(每个层有128个4× 4核)、ReLU激活和批处理归一化组成。固定的特征提取器输出在ImageNet 上预先训练的ResNet101 的conv4层，以匹配先前在clever上的工作。利用128个特征图和一个最终分类器，我们的模型- FiLM-ed残差块(ResBlocks)由4个图像特征块进行处理。该分类器由1×1卷积到512个特征映射、全局最大池和带有1024个隐藏单元的两层MLP组成，该MLP对最终答案输出softmax分布。

*不太确定的翻译、理解

1.FiLM model ablations still outperform prior state-of-the-art. Notably, we find there is no close link between normalization and the success of a conditioned affine transformation, a previously untouched assumption. Thus, we relax the conditions under which this method can be applied.

这个模型‘融合’技术仍然是行业内领先，值得注意的是，我们发现标准化和条件仿射变换的成功之间没有密切的联系，这是一个以前未触及的假设。因此，我们放宽了应用这种方法的条件。

2.Gated Recurrent Unit (GRU)封闭重复单元

*相关基础知识

<1>阿达玛乘积：不同于传统矩阵相乘计算方式，它是对应矩阵元素相乘，值得注意的是两个相乘的矩阵必须行列数相同。

标签：Layer,GRU,特征,General,128,Visual,CNN,FM,FiLM
来源： https://www.cnblogs.com/tanyahuang/p/15334492.html