林达华谈大模型技术发展：国内头部大模型均超越GPT-3.5，逼近GPT-4_

3月24日，在2024全球开发者先锋大会（2024 GDC）的大模型前沿论坛上，上海人工智能实验室领军科学家林达华发表演讲，分享了他“很纯粹对未来技术的发展思考”。

（林达华教授在2024 GDC的演讲分享）

林达华师从汤晓鸥教授，也是商汤联合创始人，香港中文大学信息工程硕士、美国麻省理工学院计算机科学博士，在机器学习及计算机视觉领域的顶级国际会议与期刊发表近50篇学术论文，获得机器学习领域权威国际会议NeurIPS的最佳学生论文奖，并两次获得计算机视觉最高学术会议ICCV的杰出评审员奖。他的研究兴趣集中于结构化深度学习方法、统计建模与推断、贝叶斯方法、高层次视觉与文本理解，以及图像建模。

以下是演讲内容：

自去年3月14号GPT-4正式发布，到现在也超过一年。过去一年，整个世界范围人工智能领域风起云涌，一年所取得的技术突破远远超过了过去10年甚至几十年。

在今天这个时间点回顾过去的一年大模型的进展，也许能够从中发掘到大模型技术发展的重要脉络，我想在这里跟大家分享一些思考。

回顾：从聊天工具进入严肃生产力

过去一年，人工智能领域风起云涌，模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。这是从ChatGPT 2022年横空出世，包括去年2月份LLaMa推出之后，催生整个大模型发展起来的开源社区，LLaMa大模型的推理能力推到一个新的台阶——从原来只会聊天的工具，变成了有可能会进入到严肃的生产领域的生产力。

接下来，包括微软大模型在Copilot上面，也包括GPT-4把大模型的能力首次展现在世人的眼前，大模型整个生态加速发展。谷歌的Gemini发布，META有更加优秀的开源模型引起全世界的关注，以MoE（Mixture-of-Expert，混合专家模型）架构为代表的模型，还有开始体量非常小的微软的模型开始进入到人们的视野。今年1月看到最新出来的Sora的出世，包括Claude 3.0在推理能力上面真正超越GPT的水平，以及马斯克刚刚开源的Grok，都代表了整个行业处在未来方兴未艾的赛道。

去年一整年的发展看到了一些重要的趋势，首先OpenAI始终还在引领着大模型的技术发展，谷歌虽然穷追不舍，但某种意义上我觉得还没有追上，随着Claude 3.0出来，Anthropic异军突起成为了一个非常重要的Plan E。

在具体的技术能力上，过去看到了一些取得重要突破的，包括上下文，从最初GPT-3是2K的上下文，最近大家看到谷歌的Gemini 1.5，我国的Kimi Chat都超过了1M。还有很多的公司在发布超过1M的上下文模型，更高效的模型架构像MoE也在越来越广泛地被大模型研发机构采用。

一些轻量的模型7B，甚至1B、2B的模型也逐渐取得了非常大的进展，展现出了实用的性能，未来都可能会促生出端侧大模型的黄金增长期。除了闭源的商业大模型之外，随着LLaMa在国内取得非常优秀的开源大模型，开源社区逐渐形成了气候，成为了大模型发展非常重要的一环。

在大模型时代，技术演进有两股主要的驱动力量，一方面是研究人员对通用人工智能的追求和对Scaling Law的信仰，从而不断突破边界，寻求接近通用人工智能的道路。另一方面，产业界也看到了大模型带来产业革命的可能性，无数企业投入了巨大资源。这两股力量交织在一起，形成了我们今天人工智能行业波澜壮阔的发展局面。

在这样的驱动力下，我们看到多个技术方向包括模型架构上面训练的数据多模态，还有超长的上下文、智能体，还有越来越广阔的计算环境都呈现出了突飞猛进的变化。我会讲讲6个方面的变化以及我的思考。

六大技术层面的思考

模型架构：探索比Transformer更高效的架构

当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上，但Transformer架构的问题是对计算资源的消耗特别大。反观人脑的效率远高于主流大模型架构。人脑有大约100万亿个神经连接，远远超过现有大模型体量，但人脑的运行功率只有20瓦。从这个角度看人脑是一个远远比现有的大模型更加高效的架构。而千亿参数模型的推理功率是它的百倍以上，处理的信息也更单一。

在几天前在黄仁勋主持的英伟达的GTC论坛上，Transformer其中一位原作者表示他觉得Transformer仅仅是一个开始，这远未代表Transformer是未来追求人工智能的最优架构。在几天前由黄仁勋主持的英伟达的GTC论坛上，Transformer其中一位原作者表示他觉得Transformer仅仅是一个开始，这远未代表Transformer是未来追求人工智能的最优架构。

过去一年，产业界和学术界在不断探索更加高效的架构。我们看到越来越多的企业看到了MoE，但是这仅仅是一个起点，未来我想还是会有更加高效的模型出来。虽然这些架构现在还停留在学术研究阶段，但正如MoE逐渐进入产业一样，这些新的架构随着验证逐渐成功，慢慢进入产业界，从而带来模型架构新的黄金时期。

数据训练：体量、质量、多样性缺一不可

在训练数据方面，最初的时候训练数据并不是被认为是大模型训练最重要的要素，大家看的是参数。2022年，DeepMind的研究报告提到，模型的数据量需要跟参数量增长才能训练出最佳的模型。从那时候起，人们开始关注模型的数据体量。后来大家逐渐关注到模型的数据增长对大模型能力的发挥是非常重要的。我们也看到了去年一年大模型的参数体量增长没有那么指数化的。但是数量无论是开源的模型还是闭源的模型，从GPT 0.5T到了现在接近5T增长了将近一个数量级。

除了体量之外，到了去年看到大家慢慢观察到数据的质量其实在过程中扮演了越来越重要的角色。数据质量的前进预示模型能力和水平重大的提升，我们实验室过去的时间里面每个季度进行一版数据版本的迭代，每一版都进行数据清洗能力的升级，从最初的简单清洗到第二版开始去掉里面的毒性和广告，到了第三版关注数据密度和知识浓度，第三版的数据只需要60%的数据量就能够训练出跟原来100%的数据量同等的水平的模型。这里面也进一步反映出实践来说高质量的数据对模型的能力形成的效率天花板都是非常重要的。

第三是需要多样性，单一的数据重复的模式数据对模型的性能有破坏性的影响，可以看到10%带有重复的数据注入到训练集里，可能会使得这个模型降级到原来二分之一的体量，我是一个13B的模型，我注入10%重复模式的数据，它的性能会退化到7B左右的水平，这是非常严谨的学术报告提出来的观察。

我们自己实践中观察到重复的形式，它对模型的语言能力的形成也是会带来破坏性的效果，所以根据过往的实践经历，我们也会在准备训练数据的时候，一定要同时关注不仅是数据体量，也包括质量和多样性。如何能够真正生产大规模的高质量的数据，既保证规模又保证质量是一个非常开放性的课题，也是各个大模型研发机构某种意义上竞争壁垒所在的地方。

多模态：在高分辨率和计算成本中寻找平衡

多模态整个的基本架构其实并不复杂，就是把图像或者其他的媒体信号变成一系列的token，跟语言的token混在一起形成一个token的序列之后，送到更加extend的拓展之后语言模型训练。

相比语言，多模态模型的训练多了一个重要维度，即图像和视频的分辨率对多模态模型最终的性能表现有重要影响。我们观察到如何使用非常高的分辨率进行多模态的训练和推理，在很多的场合下能够带来巨大的提升。高的分辨率需要高的计算成本，如何在高分辨率和合理计算成本之间取得最佳平衡，这为架构研究带来了很大的创新空间。

GPT-4也好，也包括Gemini，也包括Claude 3.0也好，都展示出了这种模式去训练一个多模态的可能性是非常可行的，也有了成功的先例。很自然的问题是从现在再往前走，更多的模态是不是会被融合进来，我想业界的共识对这个答案的回答是肯定的，大家走向的道路是万物皆可token。但是这里面我想提醒的是虽然我们现在的路径是走通的，就像Transformer它展现出来成功一样，现在所有的东西都token成为了一个token sequence（经过将原始文本拆分处理后形成的文本序列）的方式，它展现出了成功的可能性，但是并不代表这是它最终的选择。

现在token sequence的方式有两个重要的问题，第一个它是不是能够保存原有的比如说空间中的结构，在一个序列中能不能得到很好的保持。另外一个就是表达效果各种模态它的表达效率和学习效率比起非线性的结构是不是更优，这都是有待于学术界和产业界未来探讨的问题。

超长上下文：性能突破，代价高昂

最近圈子里面特别火的是超长的上下文，从Gemini 1.5突破1M，最近非常优秀的Kimi Chat开启了200万字上下文的内测，成为业内非常关注的焦点。去年上半年，上下文基本处于4K水平。GPT-4突破到32K，今年3月，支持1M或更长上下文模型出现。我们也看到过去的时间里，上下文的事情取得了非常大的进展，从最初的GPT-3的2K，去年上半年基本上大家都在4K的水平，GPT-4一下突破到32K，GPT-4巅峰的时候达到128K，开始上下文长度指数增长的竞赛，直到今天1M、10M的上下文。

长的上下文有什么用呢，从应用的角度我觉得这是一个非常有意义的突破，从2K的上下文只能从事简单的聊天和短文分析，32K我可以对它进行持续的像人一样长时间的聊天，能够对长文进行分析。上下文支持能力突破到1M时，就能阅读超过10万字以上的长篇小说，实现项目级的代码分析和构建。

但是跟所有的技术发展规律一样，任何的技术发展都有它的边界，长文本的目的是为了处理处理短期的记忆。但是长文某种意义上它只是对短期意义的一种非常简单的存储式的治理方式，有两个问题，第一它的计算成本非常高，基本上推理成本随着上下文窗口的长度线性的增长。当文本的长度，长文本超过了1M的时候，会给计算带来非常大的压力。同时，现有长文本机制不具备对长文本有压缩的能力，就使得说整个知识放进去以后整个内部很多的核心规律和模式可能不能够被这个上下文窗口所捕捉，这些都可能成为长文进一步发挥它的应用价值重要的瓶颈。反观我们的大脑有专门处理短期记忆的机制，能够对短期记忆进行压缩进行处理，这些都是大模型架构里并不具备的能力，也值得我们未来探索。

智能体：需建立在坚实模型基础上

接下来讲讲智能体。大模型只是一个大脑什么都干不了，如果说我要让大模型真正进入到应用的场景和生产的场景的时候，它需要跟系统跟场景，跟里面所有的事情互动的，就需要给大模型装上手脚，装上手脚就可以不断地发出指令做出反馈，这就是一个智能体，这就是场景应用价值的系统。

智能体随着GPT-4突破，在去年成了整个领域关注的方向。我特别提醒的是，智能体并不是一个简单的流程化过程，它需要建立在一个非常坚实的基础模型上，具有很强的指令跟随能力、理解能力、反思能力和执行能力。如果这些能力都不具备，其实串接在一起仍然不能获得你所理想中的那种智能体的能力。

计算环境：云端协同，最终瓶颈是能源

最后一个是关于计算环境。

我们首先看到大模型的计算环境首先在过去一年大家关注的主要还是云端的技术环境，越来越大的GPU，包括英伟达刚刚前不久发布的B200，它相比H100算能的能力增长5倍，我们看到像Meta说要采购超过35万片H100的算力追逐AGI的边界。但是怎么构建这么大的算力？芯片进入到后摩尔定律时代，未来算力会变成体量的拓展，越来越多的芯片连接在一起，建成越来越大的计算中心，1万片，10万片，100万片做成巨大规模的计算中心整体支撑我们对AGI的追求，最终它的瓶颈不再是芯片而是能源，有专家预测未来AGI时代到来可能全世界超过5%、10%能源会消化在大模型上。

随着云端越做越大，小规格的大语言模型已具备较强性能水平和实用可能性，优秀的模型越做越小，可以进入到手机直接运行。手机的算力也是一个指数增长的状态。最近刚刚发布的一系列一点多B的端侧模型，它已经能够到达了过去LLaMa的13B甚至30B的性能，这两者结合在一起小规格的模型性能卓越，芯片的计算能力得到大幅的增长，这两者结合在一起就会在今年2024年会迎来端侧的大模型黄金的爆发时期。

它的意义是非常重要的，因为如果现在把每一个用户的问答都打到GPU的计算中心，我们没有办法承受巨大的用户规模，所以未来大模型在用户场景落地的用户量的成长，必须要依靠端侧的大模型去承载，90%甚至99%的响应由端侧完成，真正促进天花板的事情由云侧完成，这种云端协同的方式使得在云侧不断追求天花板，在端侧使得用户的体量充分放大，我相信这是未来大模型整个产业发展计算的形态会呈现的趋势。

国内大模型突飞猛进

明确位置：不要妄自菲薄，头部均已超过GPT-3.5

随着国内的大模型突飞猛进的发展，我们需要重新评估国内的大模型在整个世界的赛道上我们今天所处的位置。

在闭源的商业模型和开源模型的整体范围内，无论是主观和客观的榜单第一名的都是GPT-4，国内比较头部的商业模型离GPT-4仍然有一定的差距，但是他们也都超过了GPT-3.5的水平。所以目前为止我整体评价国内头部的模型不管是开源还是闭源都越过了3.5的界线，朝着GPT-4去逼近。

总体来说可能因为投入更大，可能参数体量更大，闭源大模型表现比开源模型更好，因为现在开源模型基本上参数量比较小，这也是它的商业逻辑在背后，但是开源模型的进步非常快，它能够支撑起一个非常活跃的开源的应用社区，让更多的大模型技术能够渗透到更广泛的应用边界里面去。

对于所有的榜单，我们要审慎看待包括榜单，因为任何的榜单都有自己特定偏重的方向，榜单上最重要的不是排名，作为大模型的从业者我们最需要关注的是榜单揭示出来进展在什么地方，差异在什么地方，从而更好知道大模型未来发展的道路。

离GPT-4还有一点差距，看上去像是90分、95分的水平，但是大模型的评价不是简单的90分还是95分的评价，大家知道高考题最后一道大题占10分，但是我们跟GPT-4的差距是最后的大题我们做不出来，它能做出来，它不是简单的分数的水平，是最后的最重要的最难的这个地方。

我们说推理能力有三个方面，最简单的就是常识推理，问一个尝试直接问对还是不对是什么事情。演绎推理经过一步到两步演绎出来它的结论究竟是什么，最难的是给你一堆现象你要总结出来现象的背后规律再来回来做推理得到结论，要做归纳、抽象和总结，这是推理能力里最高层级的最高层次的也是最难的。对于GPT-4也是第一个表现最好，归纳表现推理表现最弱。从我们的角度来说，包括国内很多的大模型第一个基本上能做到跟GPT-4类似的水平，第二个略有差距，第三个如果GPT-4做到30分我们能做到10分，基本上是这样的水平。

产业应用：垂直领域超越GPT-4，形成优势产业分工

虽然我们离GPT-4有一些关键的差距需要往前走，但是并不代表我们的模型不能进入产业应用。我们过去做了一年的大模型很重要的点说如果我们能够在局部的垂直领域形成更优于GPT-4百倍的领域数据的积累，我们是有可能能够在垂直的领域在单点上越过GPT-4，我们也越来越多的看到很多的应用模型在具体的应用领域能够超过GPT-4的表现。

GPT-4是非常通用的模型，它在每个领域的数据都不是特别多，尤其是冷门的领域，但是在集中足够多的特有优势砸进去的话，完全可能在这些领域形成比GPT-4更强的应用能力，这是我们很多的企业非常重要的机会。

最终，产业分工会逐渐形成。最终其实不会是所有的公司都会投入巨大的资源做基础模型，这个资源投资非常巨大，没有上万张卡做不了。但是基础模型的企业并不会垄断一切，并不会吞噬所有的垂直赛道，只要我们的很多产业的企业能够在自己的行业里有自己的数据积累，有自己的经验的积累，就有可能能够在这样的赛道里做出自己超越大公司、大平台的特色，最后形成自己的特有的竞争力。我们会看到提供算力的芯片商，最后有小部分的能够持续坚持在基础模型赛道上，上面很多的行业企业基于自己资源禀赋和数据优势形成行业的竞争力，上面形成繁花似锦的产品。

所以在这样的时代，我是给企业和从业者建议不是所有的都卷到大模型基础模型的行列，而是要清楚的理解自己的资源禀赋和优势，选择自己差异化的路径，如果很多的从业者都能够基于这样的思考，去寻找自己的发展路径，我们国家的大模型的产业最终会一路繁花、前程似锦。

谢谢大家，让我们共拥这个激动人心的时代。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行，特邀近 50 位技术领袖和行业应用专家，与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

头条号入驻

AI科技大本营连接AI技术的创造者和使用者

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

林达华谈大模型技术发展：国内头部大模型均超越GPT-3.5，逼近GPT-4

头条号入驻

共赴 AGI 新时代，全球机器学习技术大会盛大开幕！

倒计时3天！2024全球机器学习技术大会-上海站日程发布，附参会指南

李彦宏：开源模型会越来越落后，自然语言将成为新的通用编程语言

财经自媒体联盟更多自媒体作者

热文排行榜