我院PI高飞与其合作者在《Science Robotics》上发表最新研究成果
集群机器人自主导航研究中心      浙大湖州研究院     2024年5月31日      点击率:120 次


近年来,事件相机在神经形态视觉方面取得了许多进展,使机器人在光照条件复杂的场景下可以实现微秒级视觉感知。然而事件相机的输出依赖于运动和纹理变化,无法捕捉与其运动平行的物体边缘。这是传感器硬件层面的问题,因此用算法解决颇具挑战性。团队设计了一种新型事件相机,提出了一种软硬件一体的系统级解决方案,称之为人造微眼动感知增强事件相机(Artificial MIcrosaccade-enhanced EVent camera AMI-EV)。通过一个安装在事件相机光圈前面的旋转楔形棱镜,使入射光线持续改变并触发事件;并通过算法补偿棱镜旋转带来的图像运动,实现了独立于外部运动的稳定纹理和高信息输出。其能够在微秒级响应、高动态范围感知(维持事件相机各类优点)的同时保持稳定的纹理。在传统RGB相机和事件相机无法提供良好数据质量的场景中,团队设计的AMI-EV仍能表现优越。

相关工作于5月30日以Microsaccade-inspired Event Camera for Robotics为题发表于国际机器人权威期刊Science Robotics,论文通讯作者为浙江大学控制学院长聘副教授高飞,共同通讯作者为马里兰大学计算机科学系研究员Cornelia Fermüller,第一作者为马里兰大学计算机科学系博士研究生、FAST-LAB实习生何博涛。

1  灵感来源

        人类视觉系统经过数百万年的进化,在视觉感知方面仍然优于最先进的机器人。人类视觉的一个特点是微眼动,在我们注视静态场景时,眼球也在产生微小的无意识运动。它们通过在视觉神经元中产生运动和刺激,以及增强空间细节的感知,确保视觉感知在注视期间不会消退。没有微眼动,人类无法维持对静止物体的感知。、

图1. 微眼动如何抑制视觉消退的演示

当把眼睛集中在红色圆点上时,蓝色的环形区域和背景会逐渐褪色。这是因为在这段时间内,微眼动被抑制了,无法提供有效的视觉刺激来阻止周边区域的褪色。但是当你在紫色圆点之间进行注视跳跃时,即使跳跃很小(通常在0.5°-1.0°之间,取决于观察者与图像的距离),环形区域也能保持相对清晰,不会太快褪色。

由此所引发的思考是,是否可以在机器人视觉中采用这种主动感知机制?

2  现有研究基础

        DVS(动态视觉传感器),也称为事件相机,近年在机器人领域备受关注。受生物启发,通过在每个像素上使用模拟微电路,事件相机可以达到几微秒的时间分辨率,动态范围也远高于普通RGB相机。事件相机在许多视觉导航任务中都展现了巨大潜力,包括动态障碍物感知、在恶劣照明条件下的定位以及自主检查或空间态势感知等特定应用。然而,除了这些功能优势,它的一些固有特性也带来了独特的挑战。事件相机只对运动做出响应,事件只在某像素光强变化超过一定阈值变化时触发的。因此,事件发生在图像中物体的边缘,且同时取决于运动和场景纹理。

图2. 传统事件相机存在的问题,当运动停止或方向变化时,图像纹理会部分丢失,无法保证稳定的成像

当事件相机运动方向与场景边缘平行时,不会记录任何事件,因此水平移动的事件相机无法"看到"水平的场景边缘。结果是,事件相机无法产生稳定持久的纹理,也无法一直保持高信息输出,这使得精确且长期的数据关联变得非常困难。然而,数据关联对于机器人视觉感知系统中采用的大多数算法(如光流估计或特征跟踪)都至关重要,保持数据关联的挑战已成为事件视觉在实际应用中的瓶颈。

在过去的十年里,许多研究尝试使用软件方法来消除这个问题。大多数基于事件的数据关联方法依赖于角点和光流等特征。然而,由于纹理外观的变化,特征检测和跟踪并不准确和稳定,迄今为止很少有机器人能应用。如一些研究工作将事件与之前维护的2D/3D事件地图或重构的亮度图像相关联,并优化新数据与维护数据之间的对应关系。维护的地图或图像包含更多信息,并具有增强的纹理稳定性,从而产生更稳健的性能。然而,当事件相机缓慢移动或静止时,这些方法容易受噪声影响,如果这种条件持续很长时间,会导致严重的稳健性问题。一些工作将事件传感器与普通摄像头相结合,用于光流估计和稳定的特征跟踪。通过将事件与绝对亮度信息融合,可以在强度图像中检测特征,并使用事件进行跟踪。然而,引入普通摄像头会限制系统的动态范围,从而阻碍其在恶劣照明环境中的应用。以上所有方法都试图通过软件解决方案来维持稳定的纹理外观。虽然它们提供了一些缓解,但仍无法提供一个完整的解决方案。可以观察到,纹理不稳定性和信息损失的问题本质上是由传感器特性引起的,而不是算法的不完善。

除了上述在软件算法上的尝试,一些先前的工作通过在事件相机系统中引入额外的运动来模拟人类的微眼动。通过抖动事件相机,并使用平移倾斜机构在不同方向引入运动,从而产生类似眼球微动的运动,可以从多个微动中记录更多信息(事件)。然而,离散的传感器运动很难在机器人系统中实现。这是由于相机系统具有大惯性,实现高频振动需要相当大的扭矩,这对于当前可用的轻量级执行器来说是一个挑战。

因此,为了有效解决纹理感知不稳定(视觉消退)问题,需要的是寻找自然启发的替代方法,探明其中蕴含的作用机理,而不是严格地模仿它。通过微眼动可以实现改变场景纹理与图像运动之间的方向,但相对的,也可以通过操纵图像运动的方向来实现。此外,如果入射光的方向可以连续地进行操作,而不是离散步进,效率也将得到提高。这就是此工作用来创造一种新的事件相机系统的基本思路,它能够"看到"场景中所有的边缘事件,并且不会因为相机运动而丢失任何事件。

3  提出的解决方案


为了从硬件-软件联合设计的角度实现准确和稳定的事件驱动数据关联。团队提出了一种受自然启发的高效解决方案,通过操纵入射光方向来实现的人工微眼动感知增强事件相机(AMI-EV)。

AMI-EV在事件相机前面使用旋转的楔形棱镜主动感知视觉信息。通过在高空间频率区域(即边缘)主动地触发事件,即使传感器不移动,AMI-EV也能保持纹理的外观和高频信息输出。补偿算法使得提出的系统可以即插即用,与现有的基于事件的感知算法兼容。


图3. A系统硬件说明,B旋转楔形棱镜工作原理示意图,C成像原理示意图,D系统组成

首先,为了在所有边缘上产生事件,团队利用了楔形棱镜偏转器的工作原理。当棱镜旋转时,可以通过它主动调整入射光的方向。如图3B所示,在程序开始时,楔形棱镜具有一定的朝向,并以固定角度偏转入射光。然后,执行器模块驱动光学偏转器模块沿相机的Z轴zc旋转,使入射光的偏转角度不断变化。这样,入射光会不断产生事件,因为它在图像平面上形成了类圆周轨迹的运动。因此,可等效于相机在不断产生旋转运动。

由于人造微眼动AMI在图像平面的所有方向上都存在,因此输出事件流包含了场景的所有边界信息,如图3(C和D)所示。与之前旋转相机而不是棱镜的工作相比,团队提出的系统中旋转的部件不包含任何易碎的组件,如相机,这使其在高速旋转下更加稳定。此外,该系统以恒定速度旋转,产生的运动更加平滑连续。

该系统的另一个重要部分是AMI补偿。这是该方法相比于之前工作的一个主要优势,之前工作振动相机而不补偿其振动,不可避免地会产生运动模糊和精度下降的问题。观察通过将事件在短时间间隔内累积而得到的图像(称之为累积事件图像,见图3C),可以看到,如果没有补偿,边界会模糊。为了获得清晰的边缘,由同一入射光线方向触发的事件应该被移动到同一个像素。这需要在记录开始时校准楔形棱镜的朝向,并补偿楔形运动引入的事件的空间位移。补偿过程如图3C第二行和图3D所示。校准和补偿算法过程视频见 (Movie S1)。

       为了验证所提出系统在机器人视觉感知领域的广泛应用潜力,研究团队对多种最先进的基于事件的算法进行了对比测试,涵盖了若干代表性应用场景,结果充分证明了所提出系统在全面提升性能方面的卓越效果。为了进一步推动相关研究的发展,研究团队进行了软硬件的全面开源,包括硬件设计、AMI生成算法、标定补偿软件、仿真平台,以及与公开事件相机数据集的转换接口。有了这些工具,开发者们可以基于仿真环境、现有的事件视觉数据集,乃至实际场景,为自身的特定任务生成定制化的AMI-EV数据集。

        测试视频Movie S2 纹理增强的定量评估展示了在三种不同的视觉表示中的对比实验,包括事件流、累积事件图像以及重构强度图像。在每一组实验中,提出系统的性能都与标准事件相机(S-EV)进行了对比。通过实验结果可以看出,与标准事件相机相比,所提出的系统能够获取更丰富的环境信息。同时,它能够在保持事件相机的固有优势(如高动态范围和高时间分辨率)的基础上,维持更高的信息输出水平。

        测试视频Movie S3 特征检测与匹配展示了所提出系统在特征检测和匹配方面的出色性能。实验结果证明,与标准事件相机相比,该系统不仅能够保持事件相机固有的优势,同时还能够提供高质量且独立于自身运动的特征信息。

测试视频Movie S4 人体检测和姿态估计展示了所提出系统的推断速率明显高于标准事件相机(S-EV),这使得该系统能够输出更高的帧率,从而在一些需要快速响应的应用场景中展现出更好的性能。

4  总结与讨论

这项工作提出并评估了一种通过模仿生物微眼动机制来增强纹理的事件视觉系统。该系统能够实现高质量的数据关联,同时保持了稳定的纹理外观和高频信息输出。该系统在事件相机前放置了一个旋转的楔形滤镜,并提供了一种补偿算法来弥补滤镜产生的运动。实验结果表明,补偿后的输出与大多数代表性的基于事件的数据处理方法兼容,而不会牺牲准确性和延迟。广泛的验证实验表明,该系统在多种机器人应用中都表现出色。它能够在底层视觉任务中实现更好的特征提取,帮助机器人更好地识别和理解环境。

该系统的创新之处在于,它从根本上消除了事件视觉中的运动依赖问题,这得益于其模仿生物微眼动的硬件设计。这使得系统在动态场景中具有出色的性能,能够轻松地获得比标准事件相机更高质量的数据输出。同时,提出的软件解决方案还允许该系统用于复杂的特定任务需求,为机器人领域智能化未来应用提供了广泛的可能性。

下一步的挑战和未来工作

如前所述,这项工作提出的硬件设备和软件解决方案可以为基于事件的视觉提供更好的数据关联能力。然而,由于额外的机械结构,该系统的能效较低。此外,新的数据格式也需要额外的数据处理方法。

为了提高硬件的能效,未来的研究需要改进硬件和软件中的AMI生成机制。这种尺寸的大多数执行器的功耗从瓦特到几十瓦特不等,这高于普通事件相机。为了实现更低的功耗,可以用电光材料取代机械结构,并利用OPA(光相位阵列)技术控制入射光的方向。具体而言,通过动态控制液晶显示器等电光材料的光学性质,可以控制入射光的方向。这种方法可以实现非常高的控制频率(SLM(空间光调制器)可达60Hz以上,MEMS(微电子机械系统)可达5000Hz以上),同时保持较低的功耗。另一种可能的解决方案是优化旋转速度,并根据具体场景进行调整。添加的AMI运动的效果随场景运动速度的增加而降低。高速旋转对于低动态场景更加有效,因此其使用可以根据速度进行调整。对于某些任务,一旦收集到足够的数据进行分析,系统可以以低速或甚至停止运转,或者在纹理减弱时增加旋转速度。但是,如何为不同的应用场景设计特定的行动策略仍然是一个挑战。

该工作提出的设备还创造了一种新的事件数据格式,其中包含周期性运动。这种新格式需要额外的数据处理方法才能与现有的基于事件的计算方法兼容。未来的研究需要开发新的算法和软件来处理这种新的数据格式,并使其与现有的基于事件的计算范式相融合。这种新格式引发了一个问题:是否有更有效和高效的方法来处理这种新数据,而不是对其进行补偿?在这项工作中,补偿算法从输出流中去除了添加的运动,以使其与现有的基于事件的算法兼容。然而,这种方法也引入了一些离散化错误,并增加了计算成本。尽管对于大多数机器人应用来说,这种误差(约1.5到2.0像素)是可接受的,而且该系统仍可在板载计算机上实时工作,但在需要精确测量或小型机器人有限计算资源的应用中,这种额外的错误和计算可能会成为问题。此外,当前的补偿过程将两个极性的事件合并,从而丢失了极性特征。为了解决这个问题,可能需要一种能够直接在生成的事件流上工作,并利用运动信息而不移动像素位置的方法。


上一篇:湖鹰沙龙第2期:销售技能培训,助力科研人才商业成长