人群计数Bayesian Loss for Crowd Count Estimation with Point Supervision文章解读
作者:互联网
摘要
当前的人群计数大多是基于密度图估计,使用高斯核将标注点生成真值(Ground Truth)密度图,以真值密度图为监督信号,通过网络生成的密度图计数求和获得人群计数,以及计算损失。然而由于密集人群的重叠、遮挡和透视等原因,以高斯核生成的真值密度图很难使人群计数达到最佳效果。
本文中提出了贝叶斯损失,从标注点中构造了密度贡献概率模型,将贡献概率和每个像素点的估计密度的乘积相加,计算出每个标注点的期望计数,由真值1进行监督。我们的损失函数是对每个像素点的计数期望进行监督。
介绍
传统方法中,使用高斯核将标注点转换为真值密度图。
其中D(xm)是密度图,xm是像素的位置,m={1,2,…M},M是密度图中的像素总数。yn是标注点的标签,n={1,2,…N},zn是与yn相关联的像素位置。
表示在xm处的二维高斯分布,平均值为zn。如果σ采用固定高斯核,则假设数据集中所有人具有相同的头部大小及形状,由于遮挡、不规则人群分布、透视效果等原因,这显然是不正确的。另一种解决方案是对每个n:σn∝dn使用自适应高斯核,其中dn是一个距离,取决于在空间域中的最近邻居。
在大多数方法中,使用上述真值密度图作为学习目标,并使用以下损失函数训练估计密度图,
其中F(·)是距离函数,Dgt为真值密度图,Dest是神经网络预测所生成的估计密度图。
贝叶斯损失
训练过程
x表示空间位置的随机变量,y表示标注点的随机变量。我们构造出以下似然函数来替代传统方法中真值密度图的生成。表示为当标签为yn时,它出现在位置xm的概率,
xm是任意像素的位置,yn是任意标注点的标签,zn是与yn相关联的标注点的像素位置。
该公式表示yn对xm的影响,即似然概率。使用高斯分布来表示,xm离zn越近,受到影响越大,即似然概率越大。
为了简化符号,我们在下面的公式中省略了随机变量x和y,
根据贝叶斯定理,给定xm,xm具有yn的后验概率用以下公式计算,
该公式表示了xm对yn的贡献,xm对yn的贡献总值和都为1。
理解:结合上一个公式来理解就是,每个yn对zn的周边位置的影响是高斯分布的似然概率。反过来说,图片中xm对yn的贡献,则是xm受到yn影响的似然概率。
我们假设yn的先验概率p(yn)相等,即p(yn)=1/N,由此第三个等式成立。
相关先验概率、后验概率与似然函数等参考博客link
利用后验概率p(yn|xm)和Dest,我们得出如下的贝叶斯损失。
设cnm表示为xm对yn贡献的计数。cn是与yn相关联的总计数,则cn的期望为(即为出现yn的期望),
理解:cn表示为所有位置处对yn的贡献的总数,即为使用求和∑求出xm从m={1,2,…M}的位置处对yn的贡献总和,表示为cnm。计算cn的期望,可先计算cnm的期望,再进行求和运算。cnm的期望是xm对yn贡献(即为p(yn|xm) )与Dest(x)(即为在xm出现人的概率密度)中在xm的密度值相乘。
已知真实情况下,所有位置对某个标注点的贡献和为1。则我们有以下损失函数,
其中F(·)是一个距离函数,在实验中采用了l1距离函数(曼哈顿距离,两数相减求绝对值),将每个标注点的损失相加。
特殊情况,当训练图像中没有标注点时,直接强制密度图的和为零。
我们的损失函数可以很好的被应用在使用标准的误差逆传播算法的卷积神经网络上。
在推断阶段,我们不需要预先知道后验概率p(yn|xm),因为当我们对估计的密度图求和时,公式如下,
理解:交换求和公式后,p(yn|xm)表示xm对yn的贡献,根据贝叶斯公式的原理可知,对p(yn|xm)从m={1,2,…M}求和,即求所有位置对某个标注点的贡献和为1。即可得到最后简化后的公式。我们只需要对输入图片的人群密度估计图Dest(x)求和,即可得到该图片的预测目标计数,保证了我们方法具有好的可推广性。
背景像素建模
对于远离任何标注点的背景像素,将其指定给任意的标注点是没有意义的。通过上述计算将会得到一个较高的后验概率,表明该方法对于这些背景像素不太理想。为了解决该问题,更好的模拟背景像素,我们引入一类特殊的背景标签y0。
图中xm表示密度图中的某个像素位置,znm表示为距离xm最近的标注点yn的位置zn,z0m是定义的虚拟背景点。
为了定义背景的可能性,我们为每个像素构造一个虚拟背景点,
其中d是控制标注点和虚拟背景点之间的边距的参数。在上图中,对于定义的虚拟背景点,对于远离标注点的像素xm,可以将xm指定给背景标签y0(z0m表示为背景标签y0对应的像素位置)。
同样的,我们使用高斯核来定义以下公式,表示为当标签为y0时,它出现在位置xm的概率,
那么根据贝叶斯定理,后验概率可以重写为,
最后一个方程简化,我们假设p(yn)=p(y0)=1/(N+1),不失一般性,我们有以下后验概率,
该公式表示了xm对标签y0的贡献。
那么我们同样可以得到背景标签y0的期望定义,
在引入背景像素后,整个密度图Dest的期望总和包括E[cn]和E[c0]。显然我们希望背景期望计数为0,每个标注点的期望计数为1。于是提出了以下增强的损失函数,
实验结果
使用MAE和MSE指标对四个基准人群计数数据集进行的基准评估,使用VGG-19进行训练,结果如下,
贝叶斯+在所有四个基准数据集上都达到了最先进的精确度。在最新和最困难的UCF-QNRF数据集上,它将最佳方法(CL-CNN)的MAE和MSE值分别降低了43.3和36.2。值得一提的是,我们的方法不使用任何外部检测模型或多尺度结构。
基准算法,贝叶斯损失,增强贝叶斯损失函数产生的概率密度图对比如下,颜色越暖,密度越高。
在稀疏区域,基线不能很好地识别每个人,而我们的方法在计数估计和定位方面预测的结果更准确。
文中我们还对似然高斯的标准差以及间隔值d进行了参数敏感度测试,并且评估了不同网络等因素对性能的影响。详情请见文章4.5节。
部分图文来源link
标签:Count,Loss,Crowd,yn,xm,像素,计数,密度,标注 来源: https://blog.csdn.net/Melancholia_/article/details/114520959