人脸识别系列(十五):COCO Loss
作者:互联网
论文链接:Rethinking Feature Discrimination and Polymerization for Large-scale Recognition
这篇文章其实和NormFace原理完全相同,只是推理的切入点稍微有点不同。两篇论文发表的时间也相近。因此博主就不再详细写分析了,如果有看得不太懂的可以参考我的NormFace阅读笔记。
人脸识别系列(十四):NormFace
值得一提的是,这篇文章有一个亮点就是在LFW上刷到了99.86%的成绩,十分惊艳,让人不得不佩服商汤科技的调参能力。
下面进入正题。
提出COCO Loss
1.naive Loss
假设
是样本i,j的标签,用C(x,y)表示x,y的余弦距离
为了提高类间差距,减小类内差距,先提出naive Loss
文章中说理论上可以用,但是实际上计算复杂度是O(m2)所以用不了,但是我感觉理论上也不行,因为对于不同标签的样本损失直接归零了
2.revised Loss
假设
即Ck是某个类的中心,那么可以使用下面的revised Loss
exp的作用是将余弦距离转化为规范的概率输出
3.进行特征和类心的归一化:
为什么要归一化:见normface一文
此处类心也不像上面写的由统计得出,而是成为一个可训练的参数(这就变得和normface的Softmax层一样了)
损失函数写为
还是原来的交叉熵
关于参数α
定理
假设我们要使总损失L不大于一个数ε,网络共有K个类,那么α必有下界
(绝了,和normface的公式一模一样)
试验
在MINIST和CIFAR-10上的错误率
网络结构:Inception ResNet网络,最后一层接128维的全连接层
训练集:Microsoft-1M 的一个子集,一共越8W人 3M图像
训练过程
a表示MNIST,b表示MS-1M
LFW得分
应该是LFW的满分了,比百度的方法高了0.01%
顺带提一下
LFW test集合 6000 中只有10个样本标错了。
也就是说理论上最高accuracy是 1-(10/6000)=99.83%
也就是说有些方法已经超过了理论上的极限了
MegaFace
成绩也不错
标签:Loss,人脸识别,10,LFW,NormFace,归一化,COCO,normface 来源: https://blog.csdn.net/qwioer/article/details/104677537