#阅读#FiLM: Visual Reasoning with a General Conditioning Layer
作者:互联网
前言:为了记录方便本文FiLM均用FM记录
单层CNN的FM。这个点表示一个阿达玛乘积<1>。γ和β的各种组合可以以各种方式调节单个特征图。
FM学习函数 f 和 h 输出 γ 和 β ,函数输入假设为x,f h可以是任意函数,对于CNN来说f和h根据不可知的空间位置,调节激活每个特征图分布。
γ和β通过特征仿射变换,调节神经网络的激活F
FM通过放大或者缩小目标的特征图,有选择地给他们设定阙值,每个特征图都是独立设置的。每个调制特征图只需要两个参数,是一种可扩展的、计算效率高的调节方法。
model
FiLM模型由一个FiLM生成语言管道和一个FiLM生成视觉管道组成.
生成器使用门通循环单元(GRU)网络处理一个问题,该网络包含4096个隐藏单元,其中包含已学习的200维单词嵌入。最终的GRU隐藏状态是一个问题嵌入,模型从中进行预测.
可视管道从调整大小的224×224image输入中提取128个14×14image特征图,使用从头训练的CNN或使用固定的,预先训练的特征提取与学习层3×3的卷积。 从头开始训练的CNN由4个层(每个层有128个4× 4核)、ReLU激活和批处理归一化组成。固定的特征提取器输出在ImageNet 上预先训练的ResNet101 的conv4层,以匹配先前在clever上的工作。利用128个特征图和一个最终分类器,我们的模型- FiLM-ed残差块(ResBlocks)由4个图像特征块进行处理。该分类器由1×1卷积到512个特征映射、全局最大池和带有1024个隐藏单元的两层MLP组成,该MLP对最终答案输出softmax分布。
*不太确定的翻译、理解
1.FiLM model ablations still outperform prior state-of-the-art. Notably, we find there is no close link between normalization and the success of a conditioned affine transformation, a previously untouched assumption. Thus, we relax the conditions under which this method can be applied.
这个模型‘融合’技术仍然是行业内领先,值得注意的是,我们发现标准化和条件仿射变换的成功之间没有密切的联系,这是一个以前未触及的假设。 因此,我们放宽了应用这种方法的条件。
2.Gated Recurrent Unit (GRU)封闭重复单元
*相关基础知识
<1>阿达玛乘积:不同于传统矩阵相乘计算方式,它是对应矩阵元素相乘,值得注意的是两个相乘的矩阵必须行列数相同。
标签:Layer,GRU,特征,General,128,Visual,CNN,FM,FiLM 来源: https://www.cnblogs.com/tanyahuang/p/15334492.html