弃用基于帧的视觉感知,奔驰/博世/Mobileye瞄准新方向
作者:互联网
从低速到高速,是ADAS一直以来安全演进的基本逻辑。对于高级别自动驾驶也是如此,从奥迪到本田,L3级自动驾驶仍然停留在TJP阶段,系统对限速有非常严格要求。
这背后的核心因素之一,是现有电子架构下,从传感器输入到数据处理、决策以及执行复杂性所需的时间。此外,复杂车流下,任何速度的变化都会使系统难以适应。
近日,美国IIHS发布最新报告称,作为ADAS的主要功能之一,ACC(包括同时配置LKA)可能会因为驾驶的滥用而失去安全的意义。“原因是车辆撞击时的速度,是决定事故严重程度的最关键因素之一。”
高工智能汽车研究院监测数据显示,目前市面上的新车普遍搭载的ACC,通常支持最高到150甚至180km/h范围内的自动跟车,自动刹停。这意味着,在没有限速强制预警的情况下,驾驶员可以设定比道路速限还高的巡航速度。
而目前的ACC(大多数仅仅基于1V1R的传感器配置,有的车型甚至只配置了单摄像头或者单雷达)并不能应付所有路况,仍需要驾驶员时刻作为系统接管的后备,对应的ACC超速将会增加约10%的车祸风险。
一、立体像素或改变视觉感知
解决问题的关键是,改变传统基于帧检测的感知技术路线。
近日,在与梅赛德斯-奔驰的一次联合展示会上,Terranet AB公司展示了其专利技术——3D VoxelFlow,可以实时扫描车辆周围40米半径的区域,并在3毫秒内做出反应。
VoxelFlow使用高速传感器技术,使系统能够快速、准确地识别前方的车辆,增强现有感知系统的性能(大约需要300毫秒),这些系统在30至40米内是最有可能发生事故的范围。
VoxelFlow传感器数据被输入到梅赛德斯-奔驰导航系统“LiveMap”的地图模型中,并进行实时更新。这两种技术结合起来,可以动态感知移动的物体,进而识别事件和危险点。
“与基于2D的视觉系统相比,VoxelFlow目前的处理能力是每秒25万立体像素。”该公司预计,到今年底,传感器技术处理的立体像素将超过100万,实现3D数据点导航。
整套测试系统,采用三个摄像头和一个激光雷达,摄像头可以实现快速跟踪激光束的点,以接近于零的延迟(微秒级)探测半径40米内的物体。
该公司负责人介绍,如果车辆以每小时70公里的速度行驶,新的系统可以在6厘米距离内实现执行动作。而目前使用传统的ADAS技术,车辆至少已经多行驶了5.94米;相应的,驾驶员操作的情况下,这个距离是13米。
众所周知,目前市场采用的基于帧检测的视觉感知,与卷积神经网络配合可以部署识别和分类物体,包括人、动物、车辆、道路标志和各种其他障碍物。
但弊端也比较明显,比如,系统通常成本高昂,并且需要高能耗的CPU或者GPU。其次,以预定的帧率捕获视觉信息,增加了图像处理的数据吞吐量要求。
VoxelFlow技术,采用的是基于事件的成像原理。
这意味着,传感器仅跟踪场景中的变化,不会传输在摄像头视场中保持不变的任何事物。它与传统摄像头不同,没有帧,每当单个像素中光强发生变化时,它就会累积。
“基于事件成像的主要优势是,在检测和跟踪应用中,能够以比基于帧的图像传感器快1000倍的速度捕获运动图像。”一家研发相关技术的公司负责人表示。
在Terranet AB公司看来,VoxelFlow技术能够比激光雷达更准确、更快地检测和分类物体。原因是,使用基于帧的方法感知时受到基本速度限制,尤其是无法检测到近距离、需要低延迟检测的运动物体。
统计数据显示,80%的撞车事故和65%的近距离撞车事故都与驾驶员在撞车前3秒内的注意力不集中有关,因此低延迟的检测能力尤为重要。
VoxelFlow采用的就是基于事件的感知技术,使用非常低的计算能力以极低的延迟对动态移动对象进行分类,每秒产生1000万个3D点,从而在没有运动模糊的情况下快速检测到移动物体。
从技术原理来看,基于事件感知,可以更有效地理解运动物体的轨迹,通过连续逐像素跟踪,而不再是逐帧序列分析。
而传统摄像头在每一帧之间是“盲”的,丢失了移动物体的信息。即使持续在记录,但的每一个“快照”图像不包含任何关于场景中元素运动的信息。更糟糕的是,在每个图像中,相同的不相关的背景物体被重复记录,产生过多无用的数据。
二、博世、Mobileye都已经入局
事实上,去年博世量产的第三代多功能摄像头采用的密集光流法,和上述提到的基于事件感知有一定的相似性。密集光流法,主要是替代目前的稀疏光流法,提高暗光环境下对物体的感知能力以及对小型物体的感知能力。
而基于事件感知的摄像头可用于多种应用,其中之一就是实现单目感知环境下的深度估计。不过,此前,核心的感知芯片体积较大,还不能完全满足汽车行业的要求。
此外,激光雷达也是典型的基于帧的感知技术。它使用不可见的激光束来扫描物体。与人眼相比,激光雷达扫描和探测物体的能力非常快。
不过,瓶颈也恰恰在近距离感知。原因是,目前市场上推出的激光雷达,在30-40米以内距离对障碍物的反应速度还是不够快。
此外,考虑到激光雷达与摄像头的融合,后者的运行速度大部分是每秒30帧(fps),每帧的处理延迟是33毫秒。为了准确地检测行人并预测运动轨迹,需要多帧检测。
而基于事件的传感器系统可自动持续校准,同时也可以提供自动驾驶系统所需的角度和距离分辨率。与激光雷达系统相比,在大雨、雪和雾等恶劣天气也表现良好。
一些行业人士表示,潜伏多年的神经形态(又被称为基于事件感知)视觉传感器行业最近几年又开始卷土重来。两年前,三星为其动态视觉传感器技术提交了商标申请,不过,目标是移动和平板电脑应用。
此外,索尼也几乎在同一时间收购了总部位于苏黎世的Insightness公司,后者的视觉传感器可以在毫秒内检测到运动,即使传感器本身在运动。
捕捉特定场景,减少数据冗余和延迟是基于事件感知的特点之一,这项技术起源于Misha Mahowald于1991年在神经信息学研究所和苏黎世联邦理工学院开发的“硅视网膜”,通过模仿人类视网膜,只检测空间和时间的变化。
这一灵感推动了动态视觉传感器(DVS)概念的研发思路,当外部环境发生变化时,只有局部像素级的变化被采集,从而产生微秒分辨率的事件流,相应的功率、数据存储和计算要求都得到了显著降低,传感器动态范围(超过120 dB)也得到了提高。
由于基于事件的摄像头只传输环境强度的变化。因此,它们不会出现运动模糊,并且可以实现微秒级的延迟,加上非常高的动态范围和非常低的功耗。
目前,这个领域,全球仍只有少数几家公司掌握相关的量产技术,包括Prophesee、三星、Insightness(索尼收购)、Inivation、Celepixel等几家公司。
其中, Prophesee公司是典型代表,累计融资6800万美元,投资者包括英特尔、博世等行业巨头,其上一轮融资就准备用于开发一款面向汽车ADAS及自动驾驶应用的图像传感器。
在投资方英特尔看来,Voxel(立体像素)是大家熟知的Pixel像素的第三维度单位(Volume Pixel),过去大家已经习惯以Pixel描述照片分辨率,而在未来将可以以Voxel纪录包含深度的信息。
事实上,类似的技术已经应用在可以任意改变视角的摄影技术上,比如一些大型体育赛事转播。2016 年英特尔曾收购一家名为Replay Technology的以色列公司并将类似技术应用于VR直播。
官方消息显示,目前英特尔旗下的Mobileye公司推出的纯视觉L4方案,正是基于英特尔的立体图像分析技术(不是传统意义上的双目视觉)。
这套名为True VIEW的技术,原理是通过在各个位置安装多个高清摄像头,帮助定义三维空间体积,并拆分成成千上万个数据点(也就是“Voxel”),再通过机器建模,最终得到一个完全虚拟的三维数字世界。
按照目前的商业化量产应用路线图,该技术最初的市场是工业和移动领域,主要是机器人和智能移动设备的实时感知,预计汽车自动驾驶领域的应用将从2024年开始。
按照高工智能汽车研究院调研结果显示,目前部分头部企业正在着手进行第三代AEB系统的研发,并通过增加更多的摄像头(环绕)来实现立体像素识别,而从测试结果来看,基于事件感知的AEB成功率要高于传统帧识别。
标签:基于,弃用,技术,像素,Mobileye,传感器,博世,感知,摄像头 来源: https://blog.csdn.net/GGAI_AI/article/details/114919284