企业网站的制作用到的技术,响应式网页设计例子,国外的设计网站app吗,制作网站的基本步骤是研究背景
基于相机的生理测量是一种非接触式方法#xff0c;用于通过从身体反射的光捕获心脏信号。最常见的此类信号是通过光电体积描记图 (PPG) 测量的血容量脉搏 (BVP)。由此#xff0c;可以推导出心率、呼吸率和脉搏传导时间。神经网络模型是当前最先进的 rPPG 测量方式。…研究背景
基于相机的生理测量是一种非接触式方法用于通过从身体反射的光捕获心脏信号。最常见的此类信号是通过光电体积描记图 (PPG) 测量的血容量脉搏 (BVP)。由此可以推导出心率、呼吸率和脉搏传导时间。神经网络模型是当前最先进的 rPPG 测量方式。这些网络可以学习强大的特征表示并有效地将由于潜在生理过程引起的像素的细微变化与由于身体运动、光照变化和其他“噪声”来源引起的像素变化区分开来。
问题
虽然之前的研究将架构定义为“端到端”方法那些实现最先进性能的方法实际上需要几个预处理步骤然后才能将数据用作网络的输入。例如使用手工制作的归一化差异帧和归一化外观帧作为其卷积注意力网络的输入。或者使用一个复杂的模式来创建称为“MSTmaps”的特征图他们的过程包括面部标志检测使用这些标志提取几个感兴趣区域ROI然后平均像素值在两个RGB 和 YUV 颜色空间。这些预处理步骤有几个缺点
它们对最佳归一化或表示做出假设而不允许网络以数据驱动的方式学习这些特征。它们的计算成本很高并且在许多情况下会向视频处理管道添加大量操作。这些操作通常难以实现使复制和部署变得困难甚至可能比“核心”网络本身具有更高的计算预算。 理想情况下基于视频的生理测量方法即使在移动设备上也能以高帧率运行易于在不同平台上实施并实现状态-最先进的性能。解决上述挑战将有助于实现这些特性。 在本文中作者提出了两种用于基于相机的生理测量的新型高效神经模型称为 EfficientPhys无需面部检测、分割、归一化、色彩空间变换或任何其他预处理步骤。使用原始视频帧的输入模型在三个公共数据集上实现了很高的准确性。
方法
Convolution-based EfficientPhys
为了实现简单、快速和准确的基于设备摄像头的实时生命体征测量本文作者提出了一种一站式解决方案架构该架构将原始视频帧作为网络的输入并输出 PPG 信号。基于卷积的 EfficientPhys 是一个单分支网络包含自定义归一化层、自注意力模块、张量移位模块和 2D 卷积运算以执行高效准确的时空建模同时使其易于部署。
Normalization Module
作者针对图片预处理阶段提出了一个 Normalization 模块它可以在每两个连续的 RGB 原始帧和规范化之间执行运动建模以减少光照和运动噪声。更具体地说所提出的归一化模块包括差异层和批归一化层。 差异层 通过减去每两个相邻帧来计算原始视频帧沿时间轴的第一个前向差异。在每两个连续帧之间执行运动建模和归一化更像是高通滤波可以帮助减少来自光照和运动噪声的全局噪声同时保持 PPG 的细微变化。 然而不同的帧在尺度上可能大不相同使网络难以学习平均特征表示特别是当感兴趣的信号隐藏在沿时间轴的细微像素变化中时噪声伪影会导致更大的相关变化。 为了解决这个问题作者在差异层之后添加一个批量归一化层。添加批量归一化层有两个好处
它在训练期间将批处理中的差分帧归一化为相同的尺度与之前工作中固定归一化不同batchnorm 提供了两个可学习的参数β和γ用于缩放到不同的方差和移位到不同的平均值以及两个不可训练的参数即平均μ和标准差σ。通过学习过程批量范数层可以学习出最佳参数用于放大像素变化同时最小化噪声。
如下图所示。如果没有批处理范数层直接应用差分层意味着帧显示为“黑色”。因为每连续两帧中皮肤像素的细微变化相对非常小。另一方面添加后续的批处理范数层将有助于它学习归一化函数从而大幅放大皮肤像素的细微变化。其结果不仅仅是数值的放大而是规范化和放大。
Self-Attention-Shifted Network
为了有效地捕捉丰富的时空信息作者提出了一个自注意力转移网络SASN。 SASN 建立在以前最先进的光学心脏测量-时移卷积注意网络 (TS-CAN) 中的设备上时空建模方法之上。 TS-CAN 有两个卷积分支其中一个采用预处理的差异帧表示另一个采用归一化外观帧。运动分支执行主要的时空建模和估计外观分支提供注意掩码以指导运动分支更好地隔离感兴趣的像素例如皮肤像素。MTTS-CAN相关内容可以看我另一片博客传送门然而作者认为注意力掩码不必通过单独的外观分支获得它们也可以通过单个分支端到端网络学习。于是作者使用了一个自我注意模块以帮助网络最大限度地减少由时间位移以及运动和光照噪声引入的负面影响。
Transformer-based EfficientPhys
Efficient Spatial-Temporal Video Transformer
由于 Vision Transformer 最近在图像和视频理解方面的成功以及注意力机械对这项任务的重要性作者还提出了 EfficientPhys 的 Vision Transformer 版本。对于这项任务需要一个 Vision Transformer 来学习空间和时间表示。然而计算复杂性使得这些不利于移动设备上的实时高效建模。在卷积版本中作者使用了 TSM 的 2D 卷积这些卷积已被证明可以实现与 3D 卷积相当的性能。受此启发作者提出的基于 Swin Transformer 的 Efficient-Phys。由于 2D SwinTransformer 只能学习将原始单帧 RGB 值映射到潜在表示的空间特征和目标信号脉冲之间的关系它没有能力对连续帧之外的时间关系进行建模。 SwinTransformer 的主要贡献之一是移动窗口模块它具有线性计算复杂度并通过移动窗口分区和将自注意力计算限制在不重叠的局部窗口来允许跨窗口连接。受空间窗口分区移动想法的启发作者在每个 SwinTransformer 块之前添加一个张量移动模块 (TSM)以促进跨时间轴的信息交换。 TSM 首先将输入张量分成三个块将第一个块向左移动一位将时间提前一帧并将第二个块向右移动一位将时间延迟一帧。所有移位操作都沿时间轴进行并在张量被馈送到每个 Transformer 块之前执行。通过将 TSM 模块添加到 SwinTransformer新的 Transformer 架构现在能够执行高效的时空变换通过在空间上组合移动窗口分区和在时间上移动帧来建模和注意。值得注意的是TSM 没有引入任何可学习的参数因此所提出的 Transformer 架构与原始 SwinTransformer具有相同数量的参数。最后为了实现真正的端到端推理和学习作者还在该架构中添加了卷积 EfficientPhys 中提出的相同归一化模块。
实验
尽管视觉变压器已经开始在某些视觉任务中实现最先进的性能但基于视频的生命体征测量任务并非如此。Efficient-C 在 UBFC 中的 MAE 比 Efficient-T1 高 45%在 MMSE 和 PURE 中的性能相似而 Efficient-C 在延迟方面快 7 倍以上。当将基于 Transformer 的 EfficientPhys 缩小到与基于卷积的 EfficientPhys 相似的复杂度时性能会显着降低。基于轻量级 Transformer 的 EfficientPhys-T2 的误差在 UBFC 中增加了 48% 的 MAE在 PURE 中增加了 141% 的 MAE在 MMSE 中增加了 15% 的 MAE。
这些结果表明浅层Transformer架构难以对视频中皮肤像素的细微变化进行建模。这些发现提出了两个潜在的见解。首先为了使 Transformer 在该领域中胜过甚至相对较浅的卷积模型需要进一步优化当没有大量高质量数据可用时这个现象尤其明显。正如之前的研究所示Transformers 通常需要更多的预训练样本才能获得最先进的精度。不幸的是与其他视觉任务相比目前基于相机的生命测量领域的数据量有限。作者在下表中的实验也支持这一假设其中 EfficientPhys-C 仅在 PURE 上进行训练就超过了 EfficientPhys-T1 和 T2。作者相信合成数据是帮助解决这个问题的一种方式。其次如果没有进一步的工作Vision Transformer 的良好精度-效率权衡可能无法扩展到设备上的架构。由于许多设备上的神经网络需要更少的计算资源来执行实时操作因此缩小 Transformer 架构并不理想正如 EfficientPhys-T2 实验结果所显示的那样。 Computational Cost and On-Device Latency
这里展现了EfficientPhys-C的优秀性能处理单帧仅需 40 毫秒并且执行预处理不需要任何额外的计算时间。另一方面由于复杂的模型架构和计算手工标准化原始帧和差异帧的额外时间TS-CAN 每帧需要 63 毫秒。如前所述Dual-GAN 具有复杂的面部标志检测、分割、颜色变换和增强预处理过程。作者对Dual-GAN 的预处理模块进行了基准测试每帧花费 275 毫秒这已经是 EfficientPhys-C 整个计算时间的 7 倍。 Dual-GAN 中的估计网络还包括 12 个 2D 卷积运算和许多 1D 卷积运算。因此作者相信它会在每帧 275 毫秒的预处理时间之上增加大量的计算时间。默认的基于 Transformer 的 EfficientPhys (T1) 由于其深度架构设计而具有不利的推理时间并且需要 300 毫秒来处理每一帧。将深度降低到 EfficientPhys-T2 后可以达到与 EfficientPhys-C 相同的推理时间。然而EfficientPhys-T2 在所有三个基准数据集上的表现最差。
总结
作者提出了一种称为EfficientPhys的新方法以实现简单快速准确的基于相机的非接触式生命体征测量。并且通过使用显着减少的计算能力实现了强大的性能。凭借简洁优雅的一站式设计EfficientPhys 还有助于解决上次机器学习部署的问题并减少健康差距。