港理工团队综述多维视觉传感器机理,为增强其感知和理解能力提供指导

港理工团队综述多维视觉传感器机理,为增强其感知和理解能力提供指导
2024年06月15日 19:22 麻省理工科技评论

当前,传统的图像传感器,已经在消费电子、机器视觉、医疗成像、汽车工业等众多行业领域,获得了广泛应用。

不过,它只能捕捉二维空间图像,无法处理来自物理世界视觉场景下的多维度视觉数据。

因此,相关领域的研究人员在生物视觉系统的启发下,正在加快探索比传统图像传感器具有更多功能和更高效率的多维视觉传感器。

图|柴扬(来源:柴扬)

近期,来自香港理工大学的研究团队,系统地研究了多维视觉传感器背后的本质机理,并分别总结了基于新型器件和成熟硅工艺多维视觉传感器的实现方法。

同时,他们还提供了一些关键指标,用于评估人工视觉系统性能,以及视觉传感器的器件-系统协同设计策略和技术-系统共同优化方法。

在该研究中,他们根据传感器处理数据的形式,将多维视觉传感器分为处理光学信息的元件、处理光电信息的元件,以及处理电学信息的元件三大类。

首先,基于新型光学元件的多维视觉传感器,例如超表面透镜,能够根据其几何结构特征,对不同波长、偏振和相位的光产生不同的散射响应。只要对几何结构进行设计,就能高效提取光的频谱、偏振和相位等信息。

其次,基于新型光电器件的多维视觉传感器,例如半导体材料,能够根据带隙大小,使器件对不同波长的光产生不同的电流响应。只需测量光电流的响应谱,就能解码出入射光的光谱信息,从而高效地提取光谱维度信息。

再次,基于电学元件的多维视觉传感器,例如将具有阻器开关记忆特性的器件与光电器件集成为像素单元,使其能够对动态视觉信息进行时域脉冲编码,进而完成对动态信息的高效传输。

图丨通过器件技术实现多维视觉传感器(来源:Nature Nanotechnology)

近日,相关论文以《用于信息处理的多维视觉传感器》(Multidimensional vision sensors for information processing)为题在 Nature Nanotechnology 上发表[1]。

香港理工大学博士研究生王照清和博士研究生万天晴是共同第一作者,香港理工大学柴扬教授担任通讯作者。

图丨相关论文(来源:Nature Nanotechnology

据了解,多年来,柴扬课题组一直致力于研究传感器内计算。视觉作为数据量最大的一种信息来源,是感算融合计算最主要的一个分支。

针对不同维度的视觉信息处理,该团队不但研发了神经形态视觉传感器,实现静态图像的感知、存储及预处理功能的硬件一体化,并提高了静态图像识别率[2]。

并且,他们也根据外部光照条件来动态调节光响应度,实现了高达 199 分贝的动态感知范围[3]。

不仅如此,还设计了仿生梯级神经元,实现了高达每秒 1200 比特的信息传输速率[4]。

另外,还展示了基于事件驱动视觉传感器的脉冲神经网络,能够直接在传感端以 5 微秒的时间分辨率对动态视觉信息进行识别[5]。

谈及这些年开展多维视觉传感器研究的主要原因,柴扬表示:“现有的图像传感器通常只能获得二维的强度信息,不能获取多维度信息。并且,还会产生大量的冗余数据,进而导致较高的传输能耗和延时。

此外,随着新型器件的创新和集成技术的发展,现有的硬件基础也已经可以支持多维视觉传感器的开发。”

其中,需要说明的是,多维度信息包含空间、时间、偏振、光谱等不同维度,通常表现出非结构化特征。这里的非结构化特征指的是,原始数据没有固定的内在结构或组织形式,表现为分散、杂乱、缺乏固定模式的数据集合。

比如:

空间维度上,物体在图像中的位置、形状等是无规则分布的。

时间维度上,动态场景的运动信息是随机变化的。

光谱维度上,不同波长的光强度分布没有固定模式。

偏振维度上,不同方向上的偏振光强度也是无序的。

而传统的图像传感器之所以无法处理多维度信息,主要是因为受到了硬件结构的限制。

具体来说,此类图像传感器主要由光电转换器件和读出电路组成,硬件结构简单,能将入射光强度映射为电信号,但却无法对如时间、光谱等光的其他维度信息进行感知和编码。

并且,像硅等传统使用的光电转换材料,由于对光的响应特性单一,因此也不能对不同波长、偏振态等进行分辨和编码。

基于此,从图像传感器发展到多维视觉传感器,背后的核心逻辑是赋予传感器更强的视觉信息感知、提取和处理能力,以更好地模拟生物视觉系统的功能。

因为生物视觉系统在视网膜等感知端就能执行初级的视觉信息处理和特征提取,可大幅降低后端的计算压力,所以多维视觉传感器同样需要在前端就提取出有意义的特征,来避免传输过多的冗余数据。

图丨通过系统集成实现多维视觉传感器(来源:Nature Nanotechnology)

就目前多维视觉传感器的发展情况来看,它们在处理不同维度的视觉信息的过程中,所面临的难易程度也不尽相同。

其一,因为不同维度信息的先验结构不同,所以在处理一些本身就具有较强的结构化特征的信息时,比如拥有明确二维坐标结构的空间维度信息,就相对容易。而处理时间、相位等结构较为随机无序的信息,则比较困难。

其二,不同维度的信息对应的物理量不同,像强度等物理量编码起来较为容易,而相位等物理量的编码就比较困难。并且,即便编码成功,用于解码不同维度信息的算法复杂程度也不尽相同。

目前,空间、光谱维度的解码算法较为成熟,时间、相位的解码往往需要更复杂的算法。

其三,由于不同维度的信息对于所需器件的性能指标拥有不同的要求,比如时间信息需要器件拥有良好的动态响应特性,光谱信息需要宽窄带特性等,因此满足这些指标的难易程度也存在区别。

“总的来说,从目前的技术水平来看,处理空间维度信息的难度相对较低,处理相位维度信息的难度相对较高,处理时间、偏振和光谱等维度的信息的难易程度则介于前两者之间。”柴扬表示。

同时,他也指出,随着技术的进一步发展,上述难易程度也可能会发生变化。

那么,令人好奇的是,当多维视觉传感器获得并处理了所需要的信息之后,这些信息最终又将流向哪里呢?

实际上,在视觉传感器系统中,当传感器前端对原始视觉信息进行获取和处理之后,提取出的特征信息将会以模拟或数字电信号的形式,传输到下一级模块进行后续处理。

“这些信息的最终流向取决于器件的应用场景。譬如,在边缘计算领域,电信号通常会先流向高性能计算单元,来完成最后的分类任务。”柴扬解释说。

在研究过程中,该课题组调查了多维视觉传感器的应用情况,在移动器件、娱乐交互、工业制造、智能交通、医疗等诸多领域都实现了应用。

比如:

在智能交通领域,以沃尔沃汽车的智能避让系统为例,多维视觉传感器在不同维度的计算上都能发挥作用。

具体来说,在二维空间维度,可以高精度检测路况、障碍物、行人等的位置和形状信息。

在三维空间维度,能够测量物体与车辆的距离,并估计潜在的碰撞时间。

在时间维度,可以捕捉动态场景中物体的运动轨迹,进而预测碰撞风险。

在光谱维度,能够帮助识别路面标记线、信号灯和车牌等特征。

在偏振维度,可以增强对道路反光体、信号灯、车辆反光镜的识别。

此外,综合这些多维度的信息,还能实时构建车辆周围的三维动态环境模型。

在医疗领域,多维视觉传感器能够在高维度的计算功能上发挥关键作用。

具体来说,在内窥镜成像中,通过光谱和偏振信息,可以精确地分辨正常/病理组织。偏振或相位维度的信息处理,则可以用来提高组织纹理和细微结构的成像对比度,比如用于还原内脏的三维内部结构。

如上所说,由于多维视觉传感器能从不同维度捕捉丰富详细的信息,增强了对环境的感知和理解力,因此它也将为人机交互和智能机器人领域带来革命性的推动作用。

在人机交互方面,多维视觉传感器既可以精确地捕捉人的面部表情、手势、动作等微小细节,构建人体运动的时空姿态模型,又能感知如皮肤血液含量等面部肌理和生理指标的光谱特征信息。

借助多维度信息,人机交互界面也能实现多通道智能感知和融合,不但能通过语音、动作发出指令,还可以通过人体生理信号进行自然交互。这有望促进人机交互朝着智能化、自然化和人性化的方向发展。

在智能机器人方面,多维视觉传感器是智能机器人获取环境丰富信息的重要窗口。融合多维视觉数据以后,机器人可以智能地完成物体抓取、环境理解等复杂任务。

据柴扬介绍,目前多维视觉传感器已经拥有成功应用的案例。

例如,索尼半导体解决方案公司推出一款智能视觉传感器产品,主要用于处理空间、时间和光谱维度的信息,可根据应用场景的需要,灵活切换嵌入于该传感器的 AI 模型。

当将它安装在超市入口处时,能用来计算进入设施的顾客人数;当安装在仓库货架上时,可检测货品的缺货情况;当安装在商场天花板上时,可进行热力图分析,发现人群聚集区域。

面向未来,多维视觉传感器也将迎来广阔的发展机遇。

比如,随着智能终端设备升级,多维视觉传感器将成为关键组件之一,会出现很大的市场需求。

同时,无人驾驶汽车和智能交通系统的普及,也将有助于多维视觉传感器在精确三维重建、移动物体检测等方面扮演关键角色。

另外,在智能制造和工业 4.0 的发展趋势下,工业视觉检测、缺陷分类、动态监控等任务,需要传感器对材料的时空、光谱和偏振特征有更深入的感知,而这也正是多维视觉传感器专注推进的方向。

不过,在如此良好的发展态势下,多维视觉传感器也面临一些亟待解决的挑战。

首先,在硬件方面,要想开发出能高效捕获和编码多维视觉信息的新型传感器器件,必须克服光电材料和集成电路上的工程技术挑战。

在算法方面,只有建立统一的跨模态学习和推理范式,才能高效解码和处理海量的多模态数据,但这对算法的计算复杂度和并行处理能力提出了极高要求。

而在目前研究的基础上,该团队也计划继续优化传感器的信息处理性能,通过深入研究每个维度的信息处理,让多维视觉传感器变得更加可控和高效。

比如,在时间维度,深入研究具有短期记忆效应的器件,增强对快速运动目标的检测和预测能力。在光谱/偏振维度,设计新型器件结构,提高对不同波长和极化态的识别分辨率。

现如今,在图像传感领域,日本索尼和韩国三星这两家公司依然占据主导地位。而在机器视觉领域,美国康耐视和日本基恩士两大巨头公司,几乎垄断了全球 50% 以上的市场。

谈及中国在图像传感和机器视觉两大领域的发展现状,柴扬表示:“中国虽然在这两大领域起步较晚,但近年来正在加速追赶,并已经取得了长足的进步,研发水平和市场发展都有了较大提升,具备了一定的竞争实力。”

具体来看,在图像传感领域,中国在硅基图像传感器芯片的研发上取得突破,如豪威科技、思特威等一批本土企业推出的产品的性能已经接近国际先进水平,在安防监控、车载成像等领域获得广泛应用。

但面对高端数码相机和手机摄像头等市场,这些企业与索尼、三星等公司仍然存在一定差距。

在机器视觉领域,中国的优势是机器视觉系统集成。大恒图像、海康威视等诸多国内企业在视觉检测、智能识别等系统解决方案上颇具实力,国产化率不断提高。

但在高端视觉算法芯片和关键器件方面,与康耐视、基恩士等公司之间仍存在一定的距离。

“只有进行持续的创新投入和生态培育,形成自主可控的产业优势,中国才有望在未来的新一代 AI 视觉感知技术上取得突破,在国际竞争中取得优势。”柴扬如是说。

参考资料:

1.Z.,Wang,T., Wan,S.,Ma, Multidimensional vision sensors for information processing. Nature Nanotechnology (2024).https://doi.org/10.1038/s41565-024-01665-7

2.Zhou, F., Zhou, Z., Chen, J. et al. Optoelectronic resistive random access memory for neuromorphic vision sensors. Nature Nanotechnology 14, 776–782 (2019). https://doi.org/10.1038/s41565-019-0501-3

3. Liao, F., Zhou, Z., Kim, B.J. et al. Bioinspired in-sensor visual adaptation for accurate perception. Nature Electronics 5, 84–91 (2022). https://doi.org/10.1038/s41928-022-00713-1

4. Chen, J., Zhou, Z., Kim, B.J. et al. Optoelectronic graded neurons for bioinspired in-sensor motion perception. Nature Nanotechnology 18, 882–888 (2023). https://doi.org/10.1038/s41565-023-01379-2

5. Zhou, Y., Fu, J., Chen, Z. et al. Computational event-driven vision sensors for in-sensor spiking neural networks. Nature Electronics 6, 870–878 (2023). https://doi.org/10.1038/s41928-023-01055-2

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部