AI研习丨无人驾驶中的交互认知

AI研习丨无人驾驶中的交互认知
2024年02月26日 17:50 中国人工智能学会CAAI

文/马楠

摘 要:

无人驾驶离不开车与车、车与路、车与人之间的交互,然而在实际场景中,人们往往对无人驾驶行为不清楚,对它做出的决策不理解,从而使人对无人驾驶车行驶不够信任。针对复杂、不确定环境下无人驾驶交互认知缺失问题,本文从无人驾驶交互认知的研究意义、组成和基础架构,以及轮式机器人在交互中学习成长、基于人车路协同的无人车智能交互项目应用落地等方面进行介绍,尤其深入解析车如何与人的肢体语言产生交互,并设计多视角连续动态手势识别方法,开展多模态感知和行为理解研究。新一代人工智能具备有感知、有认知、有行为、可交互、会学习、自成长的特点,研究“自主驾驶 + 智能交互”,使无人车成为可交互的轮式机器人,更好地服务于人类社会。

关键词

人车路协同;多模态感知;行为理解;智能交互;自主驾驶

1 无人驾驶交互认知的研究意义

无人驾驶技术正在改变着人们的出行和交通方式,甚至生产和生活方式。当前无人驾驶的核心解决方案中,更多关注于车载计算机平台上实现对驾驶员驾驶技能和技巧的替代,往往忽略了驾驶员在拿到驾照之前已具备丰富的交互认知能力。例如,有人路边招手,示意靠边停车;行人在人行横道区举手,示意要先行;迎面而来的驾驶车有人通过开窗招手,示意请对方先行,互相礼让防止拥堵,这些是文明开车的体现。此外,车辆行驶中,接收到前方路口发生突发事件,需根据实际情况随机应对。这些感知交互无处不在,甚至无时不在,而未来汽车作为人类移动生活的载体,将穿梭于不同民族,甚至不同文化的不同地域,有着更广泛的交互认知需求,且这些需求可能随着时间的变化而不断发展。

未来无人驾驶汽车和谐高效的运营,必将与周边的人、车、路形成双向交互,产生交互智能。2020 年国家发展改革委、中央网信办、科技部、工业和信息化部等多部委联合印发的《智能汽车创新发展战略》中明确指出要突破关键基础技术,开展复杂系统体系架构、复杂环境感知、智能决策控制、人机交互及人机共驾、车路交互等基础前瞻技术研发。由此可见,交互技术是无人驾驶的关键技术。

如果说交互是人类社会形成共同认知的基础,智能交互就是人机行为协同的重要保障,通过媒体感知、机器学习和认知计算等技术,构建与实体世界统一的智能表达与学习方法,从而增强机器的智能化呈现,促进人机融合。

近年来,众多企业都已成功实现无人驾驶商业化落地,在无人驾驶过程中车道跟踪、车辆流量监控、变换车道、车道线保持等技术都已经得到了广泛应用。然而无人驾驶车在行驶过程中是否对人类的行为清楚?我们是否能及时理解车辆的决策方案?如果人车之间的理解没有很好地实现协同一致,最终人类将质疑无人驾驶的可信性,所以要让无人驾驶车更懂得“人情世故”,能交互,会学习,可信任,如图 1 所示。人工智能是无人驾驶的技术核心,“自主驾驶 + 智能交互”,使无人车成为可交互的轮式机器人,真正被大众所接受。

图 1 无人驾驶交互认知的研究意义

2 无人驾驶中交互认知的缺失

随着车载传感器技术的不断突破,以及汽车智能化的发展,自动驾驶已成为全球汽车业新技术标杆,无人驾驶 (unmanned driving)、自驾驶 (self-driving)、自动驾驶 (automated driving)、自主驾驶(autonomous driving)等概念相继提出。无人驾驶和自动驾驶描述的是外在形态,而自动驾驶和自主驾驶却是两条完全不同的技术路线。自动驾驶通过加装多种传感器、计算机系统及相关软件,启动计算机程序,让汽车自动行驶,本质上是程序员通过程序教机器人开车,如果程序不合适,则由程序员来调整程序。通过这样的方式,汽车成为软件定义的机器,实现自动驾驶。自动驾驶的车无需有个性,以特斯拉为代表的自动驾驶车辆利用多相机、多雷达,以及全球定位系统感知周边环境,进行信息融合,判断各种自动驾驶窗口条件。根据国际汽车工程师学会(SAE)的 J3016 标准,自动驾驶从驾驶操作、周边监控、复杂情况下动态驾驶任务的执行者、系统支持的路况和驾驶模式等要素划分为 L0~L5 级共六个等级,如表 1 所示。

表 1 SAE 的 J3016 标准对自动驾驶的分级

从表 1 的自动驾驶分级标准可以看出,随着等级提高,汽车的自动化程度也相应提高。L1、L2 级需人类驾驶员监控驾驶环境,而 L3~L5 级则是自动驾驶系统掌控驾驶,也就是说汽车获得了驾照。例如,碰撞告警为 L0 级的技术,可称其为 Warning Only;自动防碰撞和定速巡航属于 L1 级的辅助驾驶,定速巡航可释放双脚,但手需要放在方向盘上,称其为Hands on;L2 级手脚都可解放,称其为 Hands off,自动泊车技术介于 L1 和 L2 级之间;L3 级自动驾驶需要人类驾驶员待命以响应系统请求,这时可释放驾驶员的注意力,称其为 Eyes off;L4 级指在常态环境下,由一个自动驾驶系统完成所有动态驾驶任务,人类驾驶员能正确响应系统偶尔发出的脱离请求并接管操控,驾驶员可 Mind off;L5 级是指最终能在所有道路和环境条件下代替驾驶员完成全部驾驶操作,称其为 Driver off。可以看出,在 J3016 标准中,从 L2 到 L3 级的转换是明确可度量的,因为自动驾驶系统接管了掌控权,获得驾照,但该标准没有涉及到作为替代驾驶员的自动驾驶仪所具有的任何交互认知能力。有研究表明,当周边驾驶环境发生变化时,自动驾驶仪提出脱离请求,要求人工干预,驾驶员从收到提醒后到拿回驾驶权的平均用时约为 17 秒,而在此时间内车辆行驶所发生的情境变化多种多样,可能造成巨大的事故风险,进一步体现了交互认知的重要性。

自主驾驶作为另一条技术路线,必然存在一个驾驶认知的主体,即驾驶员。作为驾驶员的智能代理,自主驾驶综合利用分布在车体各部位的多传感器感知,形成以驾驶员为中心的驾驶态势,通过规划、决策和控制操控汽车行为。以谷歌 Waymo 公司为代表的自主驾驶利用多个雷达进行近、中、远距离探测,采用多个相机感知周围环境,利用深度学习等方法识别交通信号灯和前方车辆或行人等移动障碍物,重在感知智能,并通过规划和决策最终控制车辆的行为。自主驾驶需要研究驾驶员与环境、周边车辆的交互认知,以及驾驶员的经验和临场处置能力由谁替代。为了解决这两个问题,除了需要解决车的感知智能、信息融合、规划、决策、控制等问题,还需要解决人与无人车,以及无人车与人工驾驶车之间的交互认知。驾驶认知心理学研究表明,自主驾驶应该有技巧、有个性,一个真正的自主驾驶系统应该像驾驶员一样,构建具有学习、决策、交互等行为能力的认知主体。

针对上述交互认知缺失的情况,无人驾驶车要自主应对驾驶过程中常常遇到的具备偶发性质的多样不确定性,其研发的困难,不仅仅是汽车动力学的性质和各式各样的传感器要求,还要模拟实现驾驶员在回路的自主预测和控制等认知能力,拥有驾照,并通过在线学习,积累驾驶技巧,具有丰富的驾驶事故预防处置的记忆能力;还能与车主、乘员、运维人员、开发人员、远程服务请求等之间进行交互,实现驾驶的个性化。可见,实现无人驾驶不仅在车,更难在拟人,因此无人驾驶车要上路,被社会大众接受,需要具备足够的交互认知能力。

3 无人驾驶交互认知的组成及其基础架构

无人车与多种人的交互,从物理空间的角度可分为车内交互、远程云端交互、车外交互,如图 2所示。车内交互指乘客、安全员等不同人员可与车实时交互,指定出行任务、享受车上娱乐及智能服务等;车内人员在线交互干预无人驾驶车,通过语音、文本等媒介的自然语言理解技术实现。远程云端交互可实现智能网约服务、远程指挥调度、远程干预请求,完成无人驾驶任务。无人车与周边人员交互,是指理解和预测行人姿态和交通警察手势等的交互行为,使其具备人的认知能力。这些感知交互需求还存在许多对意外情况处置能力的不确定性,如发出求助信息实现不同的人工干预,或者在迫不得已时做出最小损失的决策等问题,应用于园区观光、无人泊车、厂区通勤、定点物流、社区巡逻、城际高速、市区定点接驳、最后一公里、快速公交等多样化环境,要研究交互不确定性中的基本确定性。

根据无人驾驶车交互认知对象的不同,可以分为车与人交互、车与车交互和车与环境交互三大类,如图 2 所示。车与人交互涉及无人驾驶车对周边人姿态行为的理解,需要解决场景对象多、混杂遮挡和识别速度要求高等难题。例如,车载传感器可获得多视角高质量视觉互补信息,通过多阶段、多分支的卷积神经网络 (CNN) 结构从图片中抽取数据特征;再针对深度特征进行编码,依据时序关系应用循环神经网络对无人驾驶中动态手势进行识别,并结合选择性注意机制有效提升识别效率。车与车交互是无人驾驶实现安全、稳定、舒适、节能的重要环节。针对超车换道、狭路会车等典型驾驶场景存在的多样、时变和不确定等问题,风险抑制的启发式算法可适应未知场景的变化,避免潜在的危险或冲突,多智能体强化学习(MARL)算法解决车辆之间的协同等关键问题,并通过自主奖惩函数设定等技术实现新环境的迁移学习,让机器实现像人一样安全行驶。车与环境交互要充分运用智能网联中的 4G/5G 感知信息进行高效融合,提高路网 V2X 的传感网络覆盖率,以适应复杂的交通环境和不断变化的行驶状况,收集交通信息、快速定位、实现车辆间的协同,以保障驾驶安全。无人驾驶车辆应采用任务驱动和以数据为中心的人工智能测试方法,并具有智能驾驶的认知能力。

图 2 无人车中的交互认知及架构设计

4 车辆与人的肢体语言交互

在车辆行驶中,典型的交互认知行为是对行人姿态、交警手势等进行理解和识别。无人驾驶车需要对具体情况进行判断,并做出停车、转向等决策,因此需要与人的肢体语言产生交互。遗憾的是,车辆经常会行驶在复杂路况环境中,除强光照、阴影、风雨雾、雪霾等天气情况变化外,还可能遇到障碍物遮挡、物体快速移动、道路路口拥堵等开放场景的复杂路况,也会使自驾驶车难以及时准确地识别如行人姿态、交警手势等肢体语言信息,造成车辆难以实时的精准决策。因此,与人的肢体语言产生有效交互,已成为无人驾驶研究中亟需解决的重要问题之一。

近年来,我们智能交互课题组针对车与人之间的交互认知进行了深入研究,聚焦多视角连续动态目标识别,并进行交互控制,将其应用于无人驾驶、智能机器人对人体姿态、手势的智能理解与识别。多视角数据的手势识别与传统单一视角数据识别方法相比,技术关键在于如何整合多视角数据成为一个新整体,减小部分质量较差的视角干扰,从而获得较高识别率。数据整合部分,在每个阶段结束时,可通过其他视角来修正对当前视角数据的识别。例如,当两个人并排行走时,在某个阶段中从一个侧视角中难以分清楚向前挥的手臂来源于哪个人体,可能倾向于左边人体,而另一个偏正面视角的则能识别出是右侧人体向前挥手,从而可以修正前一个视角中的错误判定。针对复杂场景下行人发生遮挡检测困难,以及远距离行人检测精确度低等问题,充分利用多视角数据间的耦合关联,研究基于多视角数据关联的骨架联合提取方法,将这些数据从时间维度和空间维度进行多尺度特征提取,提出了一种多视角数据融合的特征平衡 YOLOv3 行人检测模型(MVBYOLO),包括自监督学习的多视角特征点融合模型(Self-MVFM)和特征平衡 YOLOv3 网络(BYOLO)两部分。Self-MVFM 对输入的两个及以上的视角数据进行自监督学习特征,通过特征点的匹配实现多视角信息融合,在融合时使用加权平滑算法解决产生的色差问题;BYOLO 使用相同分辨率融合高层语义特征和低层细节特征,得到平衡的语义增强多层级特征,提高复杂场景下车辆前方行人检测的精确度,如图 3 所示。

图 3 MVBYOLO 行人检测网络

为了更好地实现多视角图像动作识别,课题组从时间、天气、人员、动作、车人距离和拍摄角度共 6 个维度自采集行人动作的数据集,数据采集设备帧率为 30 fps。针对于不同的光照强度、天气、人员及不同手势,分别以三种不同距离和三种不同视角采集了交通场景下多视角行人路边打车数据信息。在汽车上部署安装 3 个不同角度的摄像头,对车辆前方的行人进行信息采集,从左侧视角、中间视角与右侧视角包含行人动作的图片共计 72 450 张。数据采集见表 2。

设定数据集命名规范:

(1)场景:S(simple)、C(complex ) 分别代表简单场景与复杂有车场景;

(2)视角:L(left)、R(right) 和 C(center) 分别代表左侧视角、右侧视角与中间视角。

例如,SL001 表示简单场景下左侧视角的行人动作数据;CR001 表示复杂场景下右侧视角的行人动作数据;001 表示该动作的第一个视频,而SL001_1 表示该视频下的第一帧图像。我们针对多视角行人动作识别与理解进行了深入研究,针对动态复杂环境下高动态、强对抗、不确定任务的需求,设计了一套连续动态手势识别人机交互的控制指令平台。针对 21 种手势,包括收到、确认执行、加速、减速、停止、前进、后退、加速、减速、左转、右转、警戒、搜索、跟随等进行了实时测试,在指定数据集、静态环境之中达到 91% 以上识别率,识别时间是在 0.5 秒以下,从而促进机器和人更好地产生交互。针对于交通场景还开展了基于时空图卷积神经网络的人体关节点图像特征提取与学习方法,实现对人体姿态和手势识别研究,并基于开源数据集和中国交警手势数据集,力求解决如交警手势在复杂交通场景下的检测效果欠佳和时效性欠佳的问题。通过时空图卷积神经网络提取目标侯选区域的特征,充分捕捉视频中侯选区域的时间特征和空间特征,用来精准高效地检测交通场景的既定任务。

基于上述研究内容,课题组将相关研究成果应用于行人避障、前方车辆识别和车道检测等实际场景,并在 2018-2021 年世界智能驾驶挑战赛等赛项中进行验证,不仅涉及感知交互和行为交互,还要将感知层数据有效传输至决策控制模块,如在虚拟仿真平台上完成行人避障、大曲率道路和高速公路等多项无人驾驶任务。

5 轮式机器人在交互中学习和成长

具有无人驾驶功能的智能汽车也称为轮式机器人。正如智能的最基本特征是能够在与环境的交互过程中学习和成长,轮式机器人亦是如此。未来汽车发展使人们认识到机器人驾驶与有人驾驶将处于长期混合状态,甚至要 20 年或更长。轮式机器人在交互中不断学习,其工作模式可以分成三种状态,第一个状态为机器人向标杆驾驶员学习,可采用示教学习方法获取先验知识,学习标杆驾驶员的驾驶模式;第二个状态为机器人自主驾驶,采用半监督学习或弱监督学习对人类的干预进行强化记忆并形成策略;第三个状态为机器人的全自主驾驶,采用无监督学习对典型案例进行自主学习,形成经验,强化或修改已有经验。机器人将驾驶技巧、典型情况处置、常见事故防范作为先验知识进行传承,实现知识共享和推广。可交互轮式机器人的学习速度,与传统标杆驾驶员培养新驾驶员的速度相比要快很多,充分反映了在交互认知中的进化与迭代发展。

6 交互认知的应用示范

本文针对无人驾驶中交互认知的不可或缺性,对智能交互及意义进行解读和分析,设计了人车路协同无人车交互认知的基本架构,并详细介绍了多视角行为理解与识别如何用于车与人的肢体语言产生的交互认知。自 2016 年开始,课题组先后与北京汽车研究总院有限公司、东风悦享科技有限公司、天津大学、禾多科技(北京)有限公司、北京主线科技有限公司、北京中科原动力科技有限公司等单位合作,所研究的无人驾驶交互认知理论和研发的系列智能交互系统已应用于北汽福田图雅诺电动车、欧马可轻卡电动汽车、北汽新能源 LITE 电动汽车及EU260 电动汽车等多类型无人车。研究成果“无人驾驶智能交互技术与应用”获中国电子学会科学技术奖“技术发明类”二等奖;连续三年获世界智能驾驶挑战赛虚拟场景赛冠军;“无人驾驶云智能交互系统”获第二届中国“AI+”创新创业大赛总决赛特等奖(2 000 多支参赛队)。对交互认知理论的研究和应用,将为无人驾驶被大众所认可起到至关重要的作用,未来汽车也必将是可交互、会学习、自成长的轮式机器人。

感谢李德毅院士引领和指导智能交互课题组;感谢领域专家们一直以来的支持与指导;感谢张欢副教授和李佳洪、徐歆恺、蒋北艳、梁晔、徐成、张津丽、郭聪、林德强、张冰峰老师,以及博士研究生郑颖、陈丽和硕士研究生张国平、吴祉璇、姚永强、汪成、张进、逄桂林等团队成员们精诚协作,投入科学研究和参与科研项目产业落地。基金项目:国家自然科学基金项目 (61871038、61931012), 北京市自然科学基金项目 (4222025)

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第4期

科技前沿

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部