李飞飞:三维感知模型与大数据相结合,创造空间智能

李飞飞:三维感知模型与大数据相结合,创造空间智能
2024年03月26日 12:15 泰伯网

图源:《AI创世者》剧照

撰文 |程子筠

编辑 | 神璐璐

审核 | 刘玉琳

封面 |《AI创世者》剧照

日,在本届英伟达GTC的炉边谈话中,美国国家工程院院士、斯坦福大学教授李飞飞与英伟达首席科学家比尔•达利(Bill Dally)围绕AI发展、AI风险、人类在AI时代的角色定义等话题展开对谈。

李飞飞认为,要真正创造出空间智能,创造出今天仍然缺乏的世界模型,“当我们用大数据进行扩展时,我想看到的是结构化建模,或着说偏向于三维感知和结构的模型与大数据相结合。”

从公开信息看,李飞飞现阶段的工作重点集中在AI智能体上。与十几年前不同的是,这种智能体不仅能接收来自数据集的静态图像,还能在三维虚拟世界的模拟环境中四处移动,并与周围环境交互。

当AI模型从早期ImageNet时代的ContralNets,到用于语言的RNN,再到Transformer,基于世界数据、多模态数据的模型架构持续被李飞飞看好。

早在2007年,李飞飞启动了图像数据集项目ImageNet。彼时,数据集的整理和标注是脏活累活,学术界和产业界并不太关注。

直至两年后,ImageNet正式上线,李飞飞把这个包含1500万张照片,标注了2.2万种物品的数据集免费公开,几乎所有的AI视觉识别学习都受益于此。时至今日,ImageNet仍是全球AI产学界较为知名的大型视觉数据库之一。

以上成果,恰好契合李飞飞曾公开传达的观念:构建视觉智能中的第一个里程碑,是物体识别。数据显示,从2010到2017年,ImageNet挑战赛的物体识别错误率下降到原来的十分之一。到2015年,错误率已经达到甚至低于人类水平。

然而,李飞飞并未止步于ImageNet和物体识别。

2017年,李飞飞在一篇题为《A Quest for Visual Intelligence: Exploration Beyond Objects》的演讲中表示,视觉关系的识别是下一步关键步骤。这项任务的定义是,“把一张照片输入算法模型中,希望算法可以识别出其中的重点物体,找到它们的所在位置,并且找到它们之间的两两关系。”

在李飞飞团队ECCV2016的收录论文中,其模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系,在“列出所有物体”之外,向着场景内物体的丰富关系的理解,迈出坚实的一步。

与此同时,李飞飞当时的目标也包括走出物体本身。

经过多年准备,李飞飞团队于2016年发布大规模图片语义理解数据集Visual Genome(VG),其中包含了10万张图像、420万条图像描述、180万个问答对、140万个带标签的物体、150万条关系以及170万条属性。

他们希望该数据集能像ImageNet那样,推动图片高级语义理解方面的研究,从而走出物体本身,关注更为广泛的对象之间的关系、语言、推理等等。

在Visual Genome数据集之后,李飞飞团队做的另一项研究是重新认识场景识别。

意识到以往建模真实世界物体的局限性,李飞飞在2022年与吴佳俊等一同发布多感官物体数据集OBJECTFOLDER 2.0,旨在构建一个大型、逼真、多感官器的3D物体模型数据集,使利用该数据集中的虚拟物体学习的模型,可以泛化到真实世界的对应物体上。

OpenAI研究人员也曾在2018年证明,智能体在虚拟世界中学到的技能可以迁移到现实世界。

从近两年的成果看,李飞飞对虚拟世界的探索仍旧领先。

2023年,李飞飞和谷歌团队在最新研究中推出新的AI模型ZeroNVS——一个用于从单张真实图片生成360度全景图的3D感知扩散模型,可以实现单个图像零样本360度视图合成,生成真实、自然的新视角,而不需要任何额外的信息或训练数据。比如,输入一张从某个角度拍摄的客厅图片,整个客厅的样貌就出来了。

2024年,李飞飞团队又发布有关3D人体渲染的新进展—— 一种名为Wild2Avatar的新模型,该模型即使在有遮挡的情况下仍然能够完整、高保真地渲染人体。也就是说,即使有遮挡,人的整个身体在AI面前依然是无所遁形。哪怕是蹲在椅子背后只露出头,依然可以被模型完整还原。

在本次炉边谈话的最后,李飞飞仍旧期待AI这一工具可以带来更多可能,“希望你在AI时代中有一个角色。”综合腾讯科技、AI科技评论、泰伯网等

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部