首页 > 其他分享> > 弃用基于帧的视觉感知，奔驰/博世/Mobileye瞄准新方向

弃用基于帧的视觉感知，奔驰/博世/Mobileye瞄准新方向

2021-03-17 11:03:28 作者：互联网

从低速到高速，是ADAS一直以来安全演进的基本逻辑。对于高级别自动驾驶也是如此，从奥迪到本田，L3级自动驾驶仍然停留在TJP阶段，系统对限速有非常严格要求。

这背后的核心因素之一，是现有电子架构下，从传感器输入到数据处理、决策以及执行复杂性所需的时间。此外，复杂车流下，任何速度的变化都会使系统难以适应。

近日，美国IIHS发布最新报告称，作为ADAS的主要功能之一，ACC（包括同时配置LKA）可能会因为驾驶的滥用而失去安全的意义。“原因是车辆撞击时的速度，是决定事故严重程度的最关键因素之一。”

高工智能汽车研究院监测数据显示，目前市面上的新车普遍搭载的ACC，通常支持最高到150甚至180km/h范围内的自动跟车，自动刹停。这意味着，在没有限速强制预警的情况下，驾驶员可以设定比道路速限还高的巡航速度。

而目前的ACC（大多数仅仅基于1V1R的传感器配置，有的车型甚至只配置了单摄像头或者单雷达）并不能应付所有路况，仍需要驾驶员时刻作为系统接管的后备，对应的ACC超速将会增加约10%的车祸风险。

一、立体像素或改变视觉感知

解决问题的关键是，改变传统基于帧检测的感知技术路线。

近日，在与梅赛德斯-奔驰的一次联合展示会上，Terranet AB公司展示了其专利技术——3D VoxelFlow，可以实时扫描车辆周围40米半径的区域，并在3毫秒内做出反应。

VoxelFlow使用高速传感器技术，使系统能够快速、准确地识别前方的车辆，增强现有感知系统的性能（大约需要300毫秒），这些系统在30至40米内是最有可能发生事故的范围。

VoxelFlow传感器数据被输入到梅赛德斯-奔驰导航系统“LiveMap”的地图模型中，并进行实时更新。这两种技术结合起来，可以动态感知移动的物体，进而识别事件和危险点。

“与基于2D的视觉系统相比，VoxelFlow目前的处理能力是每秒25万立体像素。”该公司预计，到今年底，传感器技术处理的立体像素将超过100万，实现3D数据点导航。

整套测试系统，采用三个摄像头和一个激光雷达，摄像头可以实现快速跟踪激光束的点，以接近于零的延迟（微秒级）探测半径40米内的物体。

该公司负责人介绍，如果车辆以每小时70公里的速度行驶，新的系统可以在6厘米距离内实现执行动作。而目前使用传统的ADAS技术，车辆至少已经多行驶了5.94米；相应的，驾驶员操作的情况下，这个距离是13米。

众所周知，目前市场采用的基于帧检测的视觉感知，与卷积神经网络配合可以部署识别和分类物体，包括人、动物、车辆、道路标志和各种其他障碍物。

但弊端也比较明显，比如，系统通常成本高昂，并且需要高能耗的CPU或者GPU。其次，以预定的帧率捕获视觉信息，增加了图像处理的数据吞吐量要求。

VoxelFlow技术，采用的是基于事件的成像原理。

这意味着，传感器仅跟踪场景中的变化，不会传输在摄像头视场中保持不变的任何事物。它与传统摄像头不同，没有帧，每当单个像素中光强发生变化时，它就会累积。

“基于事件成像的主要优势是，在检测和跟踪应用中，能够以比基于帧的图像传感器快1000倍的速度捕获运动图像。”一家研发相关技术的公司负责人表示。

在Terranet AB公司看来，VoxelFlow技术能够比激光雷达更准确、更快地检测和分类物体。原因是，使用基于帧的方法感知时受到基本速度限制，尤其是无法检测到近距离、需要低延迟检测的运动物体。

统计数据显示，80%的撞车事故和65%的近距离撞车事故都与驾驶员在撞车前3秒内的注意力不集中有关，因此低延迟的检测能力尤为重要。

VoxelFlow采用的就是基于事件的感知技术，使用非常低的计算能力以极低的延迟对动态移动对象进行分类，每秒产生1000万个3D点，从而在没有运动模糊的情况下快速检测到移动物体。

从技术原理来看，基于事件感知，可以更有效地理解运动物体的轨迹，通过连续逐像素跟踪，而不再是逐帧序列分析。

而传统摄像头在每一帧之间是“盲”的，丢失了移动物体的信息。即使持续在记录，但的每一个“快照”图像不包含任何关于场景中元素运动的信息。更糟糕的是，在每个图像中，相同的不相关的背景物体被重复记录，产生过多无用的数据。

二、博世、Mobileye都已经入局

事实上，去年博世量产的第三代多功能摄像头采用的密集光流法，和上述提到的基于事件感知有一定的相似性。密集光流法，主要是替代目前的稀疏光流法，提高暗光环境下对物体的感知能力以及对小型物体的感知能力。

而基于事件感知的摄像头可用于多种应用，其中之一就是实现单目感知环境下的深度估计。不过，此前，核心的感知芯片体积较大，还不能完全满足汽车行业的要求。

此外，激光雷达也是典型的基于帧的感知技术。它使用不可见的激光束来扫描物体。与人眼相比，激光雷达扫描和探测物体的能力非常快。

不过，瓶颈也恰恰在近距离感知。原因是，目前市场上推出的激光雷达，在30-40米以内距离对障碍物的反应速度还是不够快。

此外，考虑到激光雷达与摄像头的融合，后者的运行速度大部分是每秒30帧（fps），每帧的处理延迟是33毫秒。为了准确地检测行人并预测运动轨迹，需要多帧检测。

而基于事件的传感器系统可自动持续校准，同时也可以提供自动驾驶系统所需的角度和距离分辨率。与激光雷达系统相比，在大雨、雪和雾等恶劣天气也表现良好。

一些行业人士表示，潜伏多年的神经形态（又被称为基于事件感知）视觉传感器行业最近几年又开始卷土重来。两年前，三星为其动态视觉传感器技术提交了商标申请，不过，目标是移动和平板电脑应用。

此外，索尼也几乎在同一时间收购了总部位于苏黎世的Insightness公司，后者的视觉传感器可以在毫秒内检测到运动，即使传感器本身在运动。

捕捉特定场景，减少数据冗余和延迟是基于事件感知的特点之一，这项技术起源于Misha Mahowald于1991年在神经信息学研究所和苏黎世联邦理工学院开发的“硅视网膜”，通过模仿人类视网膜，只检测空间和时间的变化。

这一灵感推动了动态视觉传感器（DVS）概念的研发思路，当外部环境发生变化时，只有局部像素级的变化被采集，从而产生微秒分辨率的事件流，相应的功率、数据存储和计算要求都得到了显著降低，传感器动态范围（超过120 dB）也得到了提高。

由于基于事件的摄像头只传输环境强度的变化。因此，它们不会出现运动模糊，并且可以实现微秒级的延迟，加上非常高的动态范围和非常低的功耗。

目前，这个领域，全球仍只有少数几家公司掌握相关的量产技术，包括Prophesee、三星、Insightness（索尼收购）、Inivation、Celepixel等几家公司。

其中， Prophesee公司是典型代表，累计融资6800万美元，投资者包括英特尔、博世等行业巨头，其上一轮融资就准备用于开发一款面向汽车ADAS及自动驾驶应用的图像传感器。

在投资方英特尔看来，Voxel（立体像素）是大家熟知的Pixel像素的第三维度单位（Volume Pixel），过去大家已经习惯以Pixel描述照片分辨率，而在未来将可以以Voxel纪录包含深度的信息。

事实上，类似的技术已经应用在可以任意改变视角的摄影技术上，比如一些大型体育赛事转播。2016 年英特尔曾收购一家名为Replay Technology的以色列公司并将类似技术应用于VR直播。

弃用基于帧的视觉感知，奔驰/博世/Mobileye瞄准新方向

官方消息显示，目前英特尔旗下的Mobileye公司推出的纯视觉L4方案，正是基于英特尔的立体图像分析技术（不是传统意义上的双目视觉）。

这套名为True VIEW的技术，原理是通过在各个位置安装多个高清摄像头，帮助定义三维空间体积，并拆分成成千上万个数据点（也就是“Voxel”），再通过机器建模，最终得到一个完全虚拟的三维数字世界。

按照目前的商业化量产应用路线图，该技术最初的市场是工业和移动领域，主要是机器人和智能移动设备的实时感知，预计汽车自动驾驶领域的应用将从2024年开始。

按照高工智能汽车研究院调研结果显示，目前部分头部企业正在着手进行第三代AEB系统的研发，并通过增加更多的摄像头（环绕）来实现立体像素识别，而从测试结果来看，基于事件感知的AEB成功率要高于传统帧识别。

标签：基于,弃用,技术,像素,Mobileye,传感器,博世,感知,摄像头
来源： https://blog.csdn.net/GGAI_AI/article/details/114919284