对话武汉大学李淼教授：以大模型视角看待一切机器人问题

不论是具身层面还是感知层面，机器人都是多模态的。

机器人的外观既可以是人形，也可以是狗形；机器人的获取的信息既可以是视觉信息，也可以是触觉信息。这些都是机器人研究的一部分。

作者丨乔燕薇

编辑丨吴彤

“人们对机器人的抓取和操作存在很多误解，很多研究成果很难推进到实际应用环节。”

武汉大学李淼教授介绍，这是他放弃前往麻省理工 MCube Lab（操纵与机制实验室）Alberto Rodriguez教授团队做博士后研究，选择回国创业的重要原因。

李淼教授博士毕业于瑞士洛桑联邦理工学院，师从学习算法与系统实验室的创办者Aude Billard教授，长期致力于机器人学习和控制、物体抓取和操作等领域的研究。

他关于动态抓取算法研究的博士论文，在瑞士洛桑联邦理工学院获得了全球每两年仅一名的瑞士ABB奖（Asea Brown Boveri Ltd. ），也是该奖的唯一华人获得者。这项研究提出了复杂物体灵巧操作的鲁棒性算法以及成功应用于现实世界的机器人操作问题，尤其在机器人抓取、操作方面。

李淼教授回国后依然延续了这项研究，为抓取算法寻找合适的落地场景。

大模型技术出现后，李淼教授的研究内容也随之变化，一方面与业界合作，将大模型技术应用在家庭服务机器人的产品研发上；

另一方面，在学术研究上，也开始尝试将扩散模型（Diffusion Policy）和手术机器人动作生产策略相结合、将大模型和医疗影像相结合。

“我在与团队成员交流时一直强调，我们要以大模型的视角来看待一切机器人的问题，无论是算法研究还是其他各类工作，如果和大模型不相关，也许5年之内就会被淘汰。”

李淼教授指出，大模型将彻底改变机器人领域的发展进程。

4月8日（周一）20:00-22:00，雷峰网将举办主题为大模型时代，机器人的技术革新与场景落地」的线上圆桌论坛，届时李淼教授将分享更多前沿观察。

以下为对话（经编辑）：

从理论研究到机器人研究

雷峰网：硕士毕业后，您为什么选择了瑞士洛桑联邦理工学院读博？该校的机器人研究有何特色？

李淼：我最开始是在华中科技大学申请的直博，硕士阶段结束后，考虑到当时国外的机器人研究比较领先，所以尝试申请了国际上机器人专业排名最高的几个学校，也拿到了很多offer，比如美国的约翰·霍普金斯大学、英国的帝国理工大学等等。

我希望选择一个与AI算法结合更紧密的方向，所以最终去了瑞士洛桑联邦理工学院Aude Billard教授的学习算法与系统实验室（Learning algorithms and systems Laboratory）。

由于我本科、硕士阶段的机器人研究方向更加偏向理论，和数学、医学、动力学等学科的相关性很高，而Aude Billard教授团队的研究则更加注重数据，通过模仿学习等手段收集机器人工作过程中的数据并进行分析，Aude Billard教授是这一领域的开创者，也是瑞士机器人专题网络负责人。

除Aude Billard教授的实验室之外，瑞士洛桑联邦理工学院还有很多技术领先的机器人研究团队，如研究仿生机器人的生物机器人实验室（Biorobotics Laboratory）、发明了折纸机器人的可重构机器人实验室（Reconfigurable Robotics Lab）等等。

瑞士洛桑联邦理工学院机器人研究的整体风格就是小而精，学校拓展了非常多具体的研究方向和团队。

雷峰网：工业机器人四大家族之一的ABB也诞生于瑞士，您多次提名和获得该校的ABB奖，这对您后来的创业方向有什么影响？

李淼：ABB的总部在瑞士，与瑞士洛桑联邦理工学院有很多合作，ABB在学校里设立了一个奖项（Asea Brown Boveri Ltd. ），每两年颁布一次，奖励奖励能源、自动化、电信等各个领域的原创科学工作，每次只有一个获奖名额，竞争非常激烈。

我凭借研发的复杂物体灵巧操作的鲁棒性算法以及成功应用于现实世界的机器人操作问题获得了2018年的奖项（论文：《Dynamic Grasp Adaptation -- From Humans To Robots》），同时我也是唯一的华人获得者。

以往的机器人研究中开发了大量的算法，但是并不能很好地解决实际问题，而我的这项研究第一次成功地应用于现实世界的机器人操作问题，尤其在机器人抓取、操作方面。

2016年我离开瑞士洛桑联邦理工学院后之后，发觉在机器人领域的很多研究成果仍旧很难推进到实际应用环节，人们对机器人的抓取和操作存在很多误解，所以我决定回国创办一家公司，将机器人技术推广到实际应用场景之中。

我回国后的创业团队依旧延续了对这项技术的探索，将其应用在物流、药房等场景的抓取、操作中，不断打磨解决方案。

雷峰网：2016年您回国创业，从事机器人抓取与智能控制相关应用的研究。为什么决定回国创业？

李淼：最开始回来时我还是一个fresh PHD，对行业的认知还有限，尝试为抓取的算法找到合适的落地场景，从物流、工业到医疗场景都进行了落地尝试，最后聚焦到医疗场景。

这时候我们发现，一个机器人产品不仅仅需要有抓取技术，还需要有很多辅助的硬件设配相配合，慢慢就形成了综合的解决方案。

2017年我来到武汉大学工作后，前期的这些工作也间接影响了我在学校里的研究方向，使我更加关注机器人的落地应用。

雷峰网：早在2022年，您与港中文的陈翡教授就合作发表过一篇烹饪机器人的论文《Robot Cooking With Stir-Fry: Bimanual Non-PrehensileManipulation of Semi-Fluid Objects》，这篇论文的关注角度与孙宇教授此前发布在IJAIRR期刊上的《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》一文有哪些不同？您认为在烹饪场景中机器人技术还有哪些值得探索的方向？

李淼：在厨房这个场景中，对机器人的要求是最综合的，不论是精细的运动，还是更高维度的规划，以及对不同模块的理解，烹饪场景都是最丰富的。

甚至在其他场景中鲜少用到的味觉和嗅觉，烹饪场景中也有涉及。

机器人在烹饪场景的工作可以分为两个大的逻辑，一是上层的任务规划，二是底层的动作规划。我和陈翡教授的合作更多是动作层面的规划，孙宇教授的研究则是关于任务层面的规划。

要将上层的任务规划和底层的动作规划打通，还需要一个中间层 middle layer，也可以叫做胶水层。

在当前的研究领域，针对中间层架构的深入探究尚未达到预期的成熟度。

无论是采用规划领域定义语言（Planning Domain Definition Language, PDDL）以形式化地描述和连接自动化规划任务，还是依赖于基于规则的专家系统进行决策支持，亦或是利用神经网络构建的专家系统，这些方法在实现高效、可靠的中间层处理能力方面均显示出了一定的局限性。

这些技术在处理动态变化的环境、提升决策的透明度和解释性、以及增强系统的泛化能力等方面仍面临诸多挑战。

雷峰网：在您对机器人领域的研究中，也融合了机器视觉、深度学习等不同学科知识，如何看待机器人研究中跨学科合作的意义？

李淼：机器人研究可以大体分为四块：设计（具身）、感知、规划、控制。

我们从感知的角度来看，当机器人需要获取视觉信息时，就需要视觉传感器的配合；机器人需要获取触觉信息时，就需要触觉传感器的配合，看起来似乎是多学科交叉融合的研究。

但是我们从当下大模型的视角或数据驱动的视角来看，这些东西本身就是一体的。

不论是具身层面还是感知层面，机器人都是多模态的。机器人的外观既可以是人形，也可以是狗形；机器人的获取的信息既可以是视觉信息，也可以是触觉信息。我们可以将这些内容都看作是机器人研究的一部分。

当机器人遇上大模型

雷峰网：大模型技术的出现为机器人研究带来了巨大的影响。在您的研究中对这项技术进行了哪些应用？

李淼：在我和业界的合作中，已经开始尝试将大模型技术应用在家庭服务机器人的研发上。

以扫地机为例，在扫地机的感知中，我们利用大模型进行数据生成，合成仿真数据以提升真实数据的不足；同时又将逻辑推理融入感知中，基于本身的语义地图,，让扫地机更智能地进行运动判断，避免线材、杂物等障碍物的干扰；

在清扫报告部分，我们利用大模型生成清扫报告，同时允许用户进行报告中内容的自定义选项添加，从而更全面的了解家庭情况。

在学校的研究里我们还没有用到真实的大模型，但是也已经开始向这方面的研究靠近，比如扩散模型（Diffusion Policy）和手术机器人动作生产策略相结合、大模型和医疗影像的结合等等。

我在与团队成员交流时，一直强调我们要以大模型的视角来看待一切机器人的问题，无论是算法研究还是其他各类工作，如果和大模型不相关，也许5年之内就会被淘汰。

以前我们做的那些工作，现在从大模型的视角来看，所设计的模块一定要足够大，将其建成“data in、 data out” 的形式，只要输入不同模态的数据，就能得到想要的结果。

举一个例子，我的博士论文做的是机器人抓取，主要任务是消除抓取过程中的不确定性。我当时的做法是选择在机器人的规划层和执行层分别处理不确定性。

简单来讲，在机器人抓取一个杯子的过程中，规划层可能会出现视觉误差，无法保证手指准确地抓到杯子上，执行层可能会出现重量误差，无法保证机器人为杯子施加一个合适的力。

所以我将抓取这个杯子过程中存在的不确定性分配到不同的环节，再分别处理。

和机器人不同的是，人在拿去一个杯子时并不会区分规划层还是执行层，二者之间是并行的。

我们将这两个环节合并到一起，就是现在所谓的多模态，数据变得更加充沛，无法对其进行特征的抽取，就只能将其转变为大模型的思路来解决，即输入所有的数据，让大模型自动理解这项任务，将规划和执行融合到一起，输出一个我们想要的结论。

雷峰网：机器人智能控制这一领域当前的发展趋势如何？

李淼：机器人控制的发展最初是基于传统的示教器示教；后来发展为模仿学习，从点对点的模仿学习逐渐升级到利用生成模型来做模仿学习；再到后期又发展为强化学习，只要给定一个目标，设置reward function（奖励函数），机器人即可完成任务。

随着任务越来越复杂，设置reward function时需要满足更多的条件，就逐渐变成的大模型。

当机器人对力的诉求、视觉的诉求、触觉的诉求等不同模态有人融入其中，就演变为多模态、大模型的发展趋势。

这个发展思路也存在缺点，就是随着对数据要求的增加，大模型会变得越来越复杂，需要更多的参数。

事实上，我们追求的应该是小参数的计算，也许200个参数就已经是个不小的数目。

但大模型时代往往都是数十亿、数百亿甚至数千亿级别的参数，这对芯片的算力有很大的要求，尤其是需要在毫秒级得到计算结果的情况下。

因此，未来需要“端、边、云”（端：物联网中的各种设备、传感器、智能硬件等；边：网络边缘、移动边缘、物联网边缘等；云：云计算、云存储、云应用等领域）三者相协同，将大模型部署在云上，在单侧部署时只解决单侧的局部问题。

例如在人形机器人走路的例子中，大家的目光都聚焦在如何让机器人走地稳这个问题上，但是人形机器人从A地到B的长周期导航，目前仍无法解决，我们可以将这个概念具体化：

端（设备）：机器人的传感器和控制系统可以直接在机器人本体上进行一些简单的处理，比如即时调整步伐以保持平衡。
边（边缘计算）：对于更复杂的决策，如避开障碍物或规划路径，可以在机器人附近的边缘计算设备上进行。这些设备可以更快地处理数据，减少延迟，并减轻云端的计算负担。
云（云计算）：对于需要大量计算资源的任务，如长时间的导航规划，可以在云端进行。云端的强大计算能力可以用来处理和分析大量的数据，生成详细的导航计划，并将其发送回机器人。

在这个例子中，边缘计算的作用是处理那些需要较快响应但又不需要云端巨大计算资源的任务。通过这种方式，可以确保机器人在执行长周期导航任务时，既能保持较低的延迟，又能利用云端的强大计算能力进行复杂决策的制定。因此人形机器人长周期导航问题，可以通过“端、边、云”三者协同的方式来解决。

雷峰网：您的研究团队未来一段时间的研究方向是什么？会侧重哪方面的技术探索？

李淼：主要还是围绕机器人的抓取和灵巧操作，以及相关的行业应用做研究。

机器人行业的从业者们以往关注的更多是表层的应用，比如看到现实中有人用手去抓东西，于是就让机器人来做这项工作，取代人进行体力劳动。

然而，从实际情况而言，我们观察了很多不同行业，例如在介入手术、脑外科手术等应用场景中，需要人手能够完成更加灵巧的操作。

这些灵巧的操作如何用机器人来实现？其中涉及到哪些具体的技术？都是我们未来关注的重点。

我们会持续挖掘这些以往不易被发现的场景，开发适应场景的相关技术。

但未来这些技术是否能够在对应的场景中真正实现产业化，还是个未知数。

我曾经评估过脑动脉瘤手术这个场景，这项手术的成功率仅为50%，对医生的操作经验要求非常高，也许20年内都无法实现全自动手术机器人的产业化。

但我依然认为这项工作对全人类来说是具有长期价值的。

我的团队目前已经开始进行相关的研究工作，例如触觉传感器的研发。在脑动脉瘤手术中，触觉传感器既要检测法向力和切向力，又要应对极端环境下的操作。

因此，我们要将机器人的设计、感知、规划、控制等各个环节打通，用大模型的方式将这些场景模拟一遍，才能推动研究。

雷峰网：从您在工业界的经验来看，机器人从技术研发到场景落地的过程中存在哪些难题？

李淼：目前最大的难题是大模型的核心规律scaling law（标准律），即很难在机器人方面进行创新，尤其是在工业场景下，很难达到规模化的程度，这也是所有机器人创业公司面临的共性问题。

也许做核心零部件、电机、减速器的公司活得还不错，可一旦涉及到做具体的机器人产品，不论是六轴机器人、四轴机器人或是并联机器人，销量和销售额都不会很高。

机器人行业甚至至今都没有出现一款统一的芯片，又何谈规模化。

这意味着，机器人本身或许就不具备一个统一的形态。

我认为机器人虽然叫这个名字，但不能将它完全等效为一个人形机器人，如果站在生物的角度来看，其实有更多不同形态的生物能够更好地解决问题，比如人的弹跳能力不是最好的，跑动速度不是最快的，甚至还不会飞，所以人形形态并不是机器人最终的选择。

抛开具身这个层面，我们也要看机器人的智能层面能否得到很大的提升，只有通过智能层面驱动其他不同智能产品的迭代，才能解决机器人行业的共性问题。

例如，智能家居系统可以通过集成更智能的机器人技术来提供更个性化的服务；自动驾驶汽车可以通过机器人的感知和决策技术来提高安全性和效率；无人机可以通过机器人的导航和控制技术来进行更复杂的任务等等。

GAIR live 圆桌预告

4月8日，北京时间20:00-22:00，雷峰网将举办主题为「大模型时代，机器人的技术革新与场景落地」的线上圆桌论坛。

本次论坛嘉宾有，南佛罗里达大学孙宇教授、武汉大学李淼教授、南方科技大学张巍教授、优必选科技庞建新博士。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的 CCF-GAIR 大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live 作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

大模型与机器人相关资料

《对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR》

https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog

论文：Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability，https://gairdao.com/doi/10.1142/S2972335324500029

IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》（International Journal of Artificial Intelligence and Robotics Research，简称IJAIRR），是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能（AI）、机器人技术（Robotics）以及基础科学交叉研究（Research）的期刊，IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题（Special Issue）形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示，但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道，IJAIRR现正积极邀约相关论文投稿。

（1）“如果您在本领域顶级会议上发表的文章（或即将发表）不超过一年，我们将协助您稍作修改后在IJAIRR期刊上发表。

（2）如果您领导的团队在顶级会议上有多篇论文发表，并希望在IJAIRR上围绕特定主题策划一个专题（Special Issue），我们诚挚邀请您深入讨论合作事宜。

（3）如果您是顶级会议的组织者，并有意与IJAIRR合作，针对特定会议策划一个专题（Special Issue），我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手，共同推动人工智能与机器人研究的发展。

联系人：IJAIRR创刊主编朱晓蕊博士，xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息，可点击:https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院（期刊和在线社区）的详细介绍，请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为：https://gairdao.com/journals/ijairr

头条号入驻

AI科技评论aitechtalk 雷锋网旗下学术频道「AI科技评论」

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

对话武汉大学李淼教授：以大模型视角看待一切机器人问题｜GAIR live

头条号入驻

西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

别再说国产大模型技术突破要靠 Llama 3 开源了

五图乱哗：AI 生图横扫初级设计狮

财经自媒体联盟更多自媒体作者

热文排行榜