图片来源:Princeton University
理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型
语言里蕴含着丰富的视觉隐喻,诸如“百闻不如一见”、“画中有话”以及“闭目养神”等,揭示了我们从视觉中汲取的大量意义。然而,视觉能力并非自古就有。回溯至约5.4亿年前,所有生物均栖息于水下,且缺乏视觉感知。直至三叶虫的出现,生物界才首次沐浴在周遭阳光的斑斓之中。随后的千万年间,视觉的觉醒引领了一场史无前例的生命大爆发——寒武纪大爆发,其间涌现了众多现代动物的祖先。
如今,我们正亲历人工智能领域的现代版寒武纪大爆发,每周都有新奇而强大的工具问世。起初,这场生成式AI革命由诸如ChatGPT等大型语言模型引领,它们模仿人类的语言智慧。但我深信,基于视觉的智能——我称之为空间智能——更为基础。语言诚然关键,但我们理解和与世界互动的能力,很大程度上依赖于视觉。
计算机视觉,作为AI的一个分支,长期以来致力于赋予计算机与人类相当或更卓越的空间智能。过去十五年,该领域取得了飞速发展。秉承AI以人为本的理念,我将职业生涯投身于这一领域。孩子们无需教导便能学会观看,他们通过经验和实例来理解世界,每秒通过双眼捕捉五幅“画面”,至三岁已累积数亿张视觉记忆。
我们认识到,物体识别是视觉的基础要素之一,因此开始训练计算机掌握这一技能。这并非易事,因为三维物体在二维图像中的呈现方式千变万化,取决于视角、姿态、背景等因素。要让计算机在图片中辨识出猫,它需要海量信息,如同孩子一般。直至2000年代中期,随着卷积神经网络算法与现代GPU的强大计算能力,以及“大数据”——来自互联网、数码相机等的数十亿张图像——的结合,这一切才成为可能。
我的实验室为这一融合贡献了“大数据”资源。2007年,我们创建了ImageNet项目,包含1500万张标注图像,涵盖22000个物体类别。随后,我们与其他研究人员利用图像及其对应的文本标签训练神经网络模型,使其能够用简短语句描述未见过的照片。ImageNet数据库助力图像识别系统取得意外而迅速的进展,推动了现代AI热潮的兴起。
随着技术进步,基于变换器架构和扩散技术的新一代模型带来了生成式AI工具的曙光。在语言领域,这催生了如ChatGPT般的聊天机器人;在视觉领域,现代系统不仅能识别,还能根据文本提示生成图像和视频,尽管目前仍局限于二维。要让计算机具备人类的空间智能,它们需能够建模世界、推理事物与地点,并在时间与三维空间中互动。简而言之,我们需要从大型语言模型转向大型世界模型。
这一趋势在学术界和工业界的实验室中已初见端倪。借助最新的AI模型,这些模型通过来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可通过文本指令控制机器人,如要求它们拔掉手机充电器或制作简单的三明治。给定一张二维图像,模型还能将其转化为用户可探索的无限合理三维空间。应用前景无限广阔,如能在普通家庭中导航并照顾老人的机器人、为外科医生提供不竭辅助,或在模拟、培训和教育中的应用。这是真正以人为本的人工智能,空间智能是其下一个前沿阵地。人类历经数亿年进化所取得的成就,如今在计算机中仅需数十年即可重现,而我们人类将是这一变革的最终受益者。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有