其他分享
首页 > 其他分享> > Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

作者:互联网

前言

前期方法的缺陷

        早期rPPG研究多数为“提取—分析”的两阶段方法,首先检测或跟踪人脸以提取rPPG信号,然后分析并估计相应的平均HR。缺点:1)基于纯经验知识自定义的面部区域,不一定是最有效的区域,这些区域应该随数据而变化。2)有些方法中使用了手动制作的特征或过滤器,可能使重要的心跳信息丢失。

        前期使用的深度学习方法也可能有一下缺点:1)HR估计任务被视为一个单阶段回归问题,输出一个简单的平均HR,而个体脉冲峰值信息丢失,限制了它们在高要求的医疗应用中的使用。2)该方法不是端到端系统,仍然包含手动制作的特征的预处理或后处理步骤。3)基于二维空间神经网络,没有考虑时间上下文特征,而时间上下文特征是rPPG测量问题的关键。

本文方法简介

        基于当前医疗工程的需求,rPPG技术除了需要提供平均HR,还可以提供更详细的IBI(搏动间隔,inter-beat-interval)等信息。平均HR是指计算一段时间内心脏跳动次数,是一种粗略的计算方法;而HRV是一种更为精细的脉搏描述方法,它通过脉搏跳动间隔得到。HRV最常见的特征包括低频(LF)、高频(HF)及其低频/高频比值,这些特征被广泛应用于许多医疗领域。此外,还可以通过分析心跳间隔的频率来估计呼吸频率(RF)。

 图1.一种基于时空网络的rPPG信号测量框架

        本文利用一个端到端的深度时空网络Physnet,从原始人脸视频中重建精确的rPPG信号。Physnet网络考虑了以前常被忽略的时间背景,探索并比较了多种常用的时空建模方法。实验表明,在真值信号的约束下,我们的方法可以恢复具有准确脉冲峰值的信号。本文使用两个数据集实验,在HR、HRV、AF检测和情感识别上都取得了很好的结果,同时也具有良好的跨数据集泛化能力。

        heart rate variability (HRV) 心率变异性;atrial fibrillation (AF) detection 心房震颤检测

方法

网络架构

        从人脸视频中获得脉搏信号有两个步骤:1.一是将RGB投影到表现能力更强的颜色子空间中。2.对颜色子空间进行重新投影,去除不相关的信息(如照明或运动引起的噪声),以实现目标信号空间。本文提出了一个端到端时空网络(PhysNet),它能够合并这两个步骤,并最终得到了rPPG信号。

 图2.用于rPPG信号恢复的时空网络框架。

a)基于3DCNN的PhysNet;b)基于RNN的PhysNet;c)它们对应的网络架构。

        图2中展示了PhysNet的总体架构。架构的输入是带有RGB通道的T帧面部图像,经过多次卷积和池化操作后,形成多通道流形来表示时空特征。最后,利用1×1 ×1核的通道卷积运算将潜在流形投影到信号空间,生成长度为T的预测rPPG信号。整个程序可以表述为

[y_{1},y_{2},...y_{T}]=g(f([x_{1},x_{2},...,x_{T}];\Theta );\omega )                                          (1)

其中,[x_{1},x_{2},...,x_{T}]是输入帧,[y_{1},y_{2},...y_{T}]是网络的输出信号,f是用于子空间投影的时空模型,\Theta是该模型所有卷积滤波器参数的集合,g为最终信号投影的信道聚合,w为g的参数集合。本文探索和比较两种主流的时空模型,即基于3D-CNN和基于RNN的PhysNet。

基于3DCNN的Physnet

        使用3DCNN作为时空模型f,该模型采用3×3×3卷积同时提取时空域的语义rPPG特征。3DCNN有助于学习更健壮的上下文特征,在更短的时间内恢复rPPG信号。文中还尝试了一种时间编码器-解码器(ED)结构,标记为“PhysNet-3DCNN-ED”,它能更有效的利用时间上下文,减少时间冗余和噪声。

基于RNN的Physnet

        首先利用2DCNN提取空间特征,然后利用基于RNN的模块在时域上传播空间特征,通过前向/后向信息流改进时间上下文特征。LSTM和ConvLSTM可以表示为:

\\i_{t}=\delta (W_{i}^{X}*X_{t}+W_{i}^{H}*H_{t-1}), \\ f_{t}=\delta (W_{f}^{X}*X_{t}+W_{f}^{H}*H_{t-1}), \\ o_{t}=\delta (W_{o}^{X}*X_{t}+W_{o}^{H}*H_{t-1}), \\ c_{t}=f_{t}\circ c_{t-1}+i_{t}\circ tanh(W_{c}^{X}*X_{t}+W_{c}^{H}*H_{t-1}) \\ H_{t}=o_{t}\circ tanh(c_{t})                          (2)

        其中∗表示LSTM和ConvLSTM的乘法和卷积运算符,◦表示Hadamard乘积。

损失函数

        设计适当的损耗函数来引导网络:我们的目标是恢复具有匹配趋势的rPPG信号,并准确估计出与真值信号匹配的脉冲峰值时间位置,这是详细HRV分析必不可少的。为了最大限度地提高趋势相似度,最大限度地减小峰位误差,采用负Pearson相关作为损失函数:

Loss=1-\frac{T\sum_{1}^{T}xy-\sum_{1}^{T}x\sum_{1}^{T}y}{\sqrt{(T\sum_{1}^{T}x^{2}-(\sum_{1}^{T}x)^{2})(T\sum_{1}^{T}y^{2}-(\sum_{1}^{T}y)^{2})}}                            (3)

        式中,T为信号长度,x为预测的rPPG信号,y为地面真值PPG信号。

        在训练时,我们使用PPG信号而不是ECG信号作为真值。这是因为,从手指测量的PPG与从面部测量的rPPG更类似,它们都用于测量血容量的变化,而ECG测量的电活动rPPG并不关心。在测试阶段,可以使用ECG作为真值进行验证。

实验

        我们在OBF数据集上训练PhysNet。经过训练的PhysNet首先在OBF上测试了HR和HRV测量精度,然后演示了AF检测的扩展应用。最后在MAHNOB-HCI数据集上对训练好的PhysNet进行交叉测试,并探讨了该算法在情感识别中的应用。

在OBF上的实验

        分别评估了该方法的损失函数、时空网络和切片长度,并报告了在HR和HRV水平上的性能。同时报告了使用测量的HRV特征作为一个应用场景的AF检测精度。

损失函数

        为了证明我们提出的负皮尔逊损失(NegPea)函数的优点,我们将其与均方误差(MSE)进行了比较。两个实验都采用基于3DCNN的PhysNet,训练视频切片长度固定为64,结果如表1所示。结果表明,NegPea在HV和HRV水平上的表现都优于MSE。

表1. 两个损失函数—负皮尔逊和均方差的性能比较。RMSE越小,R值越大,表示性能越好。

时空网络

        我们固定视频切片长度为64,损失函数为nepea,以此来评估时空网络的有效性。首先,我们用PhysNet-2DCNN作为评估基线。

        分别评估PhysNet64-3DCNN-ED和PhysNet64-3DCNN(不带解码编码器)模型。模型性能:PhysNet64-3DCNN-ED > PhysNet64-3DCNN > PhysNet-2DCNN。可以解释为,这种类似挤压—拉伸式的编码解码过程能够提取出时间冗余较少的语义特征。

        同时还评估了基于RNN的模型:PhysNet64-LSTM、PhysNet64-BiLSTM、PhysNet64-ConvLSTM。结果显示PhysNet64-LSTM比PhysNet64-2DCNN性能更好,但不如3DCNN,这说明LSTM模块能够提高性能,但在长期上下文聚合方面不如3DCNN; LSTM和ConvLSTM的水平相当,而BiLSTM的水平最差,这表明最高层特性的逆向信息似乎没有必要。

表2. 时空网络的性能对比

视频切片长度

        视频长度可能会对每个网络产生不同的影响,这里我们计算T ={32,64,128,256},结果如图3所示。1.输入视频切片长度越长,PhysNet2DCNN性能越好。2.PhysNet-3DCNN较稳定,不太受视频切片长度的影响。3.在视频切片更短的情况下,PhysNet32-3DCNN性能优于PhysNet-2DCNN,这说明时域卷积滤波器可以在学习时域表示方面提供额外的帮助。4.PhysNet-LSTM网络的长时间传播能力有限,因此只比较T ={32,64}的情况,T = 32时性能更好。5.PhysNet-3DCNN在T = 128和T = 64时HR和HRV分别达到最佳性能。

 图3.不同视频切片长度T = 32,64,128,256的性能比较。均方根误差(RMSE)越小,性能越好。

与先前实验比较

        与之前的三种方法ROI_green、CHROM、POS比较。性能最佳的是PhysNet128-3DCNN-ED,它在HR和HRV水平上优于所有比较方法。

表3. 比较以往方法和我们提出的方法的性能

心房震颤检测

        从恢复的rPPG信号中提取10维HRV特征,用于检测AF患者与健康人。如表4所示,结果显示PhysNet比以前的方法有更好的性能。

表 4.OBF心房颤动检测结果

在MAHNOB上的实验

        PhysNet128-3DCNN-ED模型在OBF上的性能最好,我们用它在MAHNOB-HCI上进行交叉测试,以验证其泛化能力。如表5所示,我们使用本方法的HR结果与之前的方法比较(之前的工作只有HR结果,无HRV水平)。

 表5.MAHNOB-HCI平均HR测量结果

        其中,前四种方法[4,10,14,22]是较早的方法,不涉及神经网络。虽然[10]和[22]的性能很好,但需要对每个输入执行代价高昂的计算处理步骤,这对于实时使用是有限制的。本文提出的方法是一种经过预先训练的端到端系统,在新的测试样本上运行非常快。后三种方法都基于神经网络,且都需要预处理步骤,不易于部署。交叉测试表明,本文方法具有较好的泛化能力。

情感识别

        本文方法的另一个优点是,恢复的rPPG信号可以用于更复杂的应用,如情感识别。我们使用PhysNet128-3DCNN-ED在MAHNOB-HCI数据集上恢复的rPPG信号中提取10维HRV特征,并将其输入支持向量机(带有多项式核),作为分类器来估计每个视频中人的情绪状态。MAHNOBHCI提供了几个情绪标签,其中“Arousal”和“Valence”分为3个水平,“Emotions”包含九个类别。如表6所示,结果非常有前景,特别是“Valence”的识别。

表6.在MAHNOB-HCI上的情感识别准确率结果

可视化和推理速度

可视化

        PhysNet 128-3DCNN-ED从两个数据集样本中提取的中级神经特征如图4 (a)和(b)所示。高光区域是该网络能够学习和选择的,具有最强rPPG信息的皮肤区域(例如,前额、脸颊和下颌)。此外,图4 (c)用PhysNet恢复的rPPG信号(红色)与基线方法“ROI_green”(蓝色)和真值ECG(黑色)进行比较。在峰值位置上,红色曲线比蓝色曲线与地面真值的匹配效果更好,证明了该方法的有效性。

图4.原始人脸可视化,学习神经特征,恢复rPPG信号。 

推理速度

        本文方法不需要任何预处理步骤,工作速度更快,并允许实时rPPG信号恢复。对于30秒的测试视频,“PhysNet64-3DCNN-ED”在Tesla P100 GPU上只需要0.235秒(3830 fps),这适合大多数实时应用。

标签:Remote,rPPG,Videos,HR,Signal,HRV,信号,3DCNN,PhysNet
来源: https://blog.csdn.net/m0_46792836/article/details/123105348