零一万物潘欣：Sora 无法让 AGI 到来，GPT 才是关键

在人工智能的世界，有一群人正深耕于推动通用人工智能（AGI）从科幻走向现实。CSDN、《新程序员》特别策划“AGI 技术 50 人”访谈栏目，挖掘 AI 背后的思考，激荡 AGI 的智慧，走近那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程。

本期主角潘欣，从 Google Brain 到零一万物，从深度学习框架到大型语言模型，精准把握每一次技术革新的脉搏，在科技前沿的疆界中寻找 AGI 的曙光。

作者 | 唐小引、王启隆

出品 | AI 科技大本营（ID：rgznaI100）

2011 年，深度学习的概念尚未在全球范围内广泛爆发，Google 研究员 Jeff Dean 和斯坦福大学教授 Andrew Ng（吴恩达）看到了这一技术的巨大潜力，计划构建一个基础设施。

此时的 Andrew Ng 和另一位 Google 研究员 Greg Corrado 已经构建了一个大规模深度学习软件系统：DistBelief。三人一拍即合，发起了 Google Brain 项目，着手训练一个前所未有的大型神经网络。Google 让 Jeff Dean 带领一支团队开始简化和重构 DistBelief 的代码库，成就了未来的 TensorFlow。

TensorFlow 的故事正式开始于 2015 年，这一年是零一万物联合创始人潘欣的职业生涯转折点。潘欣刚完成在 Google 的数据库服务 Core Storage 和Knowledge Engine 部门的工作，恰逢 Jeff Dean 的团队缺少一位擅长工程能力的科学家，潘欣就此幸运地成为 Google Brain 的第一位“Research Software Engineer”（研究软件工程师），在 Samy Bengio 手下开始工作。

Google 时期的潘欣

Samy Bengio 是机器学习“三大教父”中 Yoshua Bengio 的胞弟，这段时期的 Samy 为了推动 AI 伦理学的发展在各处开会，但仍会留出一部分时间给潘欣进行一对一的指导。Samy 还弄到了 Ian Googfellow 所著的《深度学习》一书的草稿给潘欣试阅，于是潘欣白天做研究，晚上读草稿版本的《深度学习》。

由于早期的 TensorFlow 缺乏模型示例，相关的 API 文档尚不规范，于是潘欣用了一年时间为 TensorFlow 构建了一系列关键基础模型，涵盖了语音识别、语言模型、文本摘要、图像分类、对象检测、分割、差分隐私和帧预测等多个领域，打造了 TensorFlow GitHub 上 model zoo 的初始版本。2016 年，TensorFlow 在开发者社区中爆火。为了解决研究人员在性能优化和模型分析方面的痛点，潘欣开发了 tf.profiler 工具，帮助用户快速分析模型结构、参数、FLOPs、设备放置和运行时属性。

2017 年，Research Software Engineer 从潘欣一人发展到了十几人，整个 Google Brain 也摇身一变为一支百人团队，包括了 “AI 教父” Geoffrey Hinton、Quoc Le、Alex Krizhevsky、Samy Bengio 和 Ilya Sutskever 等如雷贯耳的名字，其中越南大神 Quoc Le 开辟了自然语言处理技术的新疆土，Alex 则用自己的名字赢得了 ImageNet 竞赛冠军，Ilya 更是在未来成为了 ChatGPT 的造物主。此刻的他们都是在 Google Brain 钻研深度学习的研究员，仍未知晓自己会在未来成为 AI 领域的领军人物。

“Dean 的团队是很难被复制的，将来也无法再被复制了。2015 年左右，全世界一半的深度学习领域的成果可能都是来自 Google Brain 的团队，它汇集了领域内大部分的顶级专家，成就了现在一些比较火的创业公司……几乎可以说 Google Brain 奠定了从深度学习转变至 AI 的大部分基础。”在回忆中，潘欣非常怀念那段时光，对其滔滔不绝。

同样在这段时期，PyTorch 问世了。PyTorch 解决了 TensorFlow 的易用性痛点，为了抗衡这个新框架，潘欣发起了 TensorFlow 动态图模式的开发。动态图是 TensorFlow 2.0 版本中的一个重要特性，提供了更自然和直观的编程体验，允许用户以 Python 原生的方式运行 TensorFlow 操作。随后潘欣又参与了 TensorFlow API 的设计和改进工作，特别是在面向对象和面向过程的 API 设计方面，他提出了复用 Keras 的 Layer 接口的建议，并参与了相关讨论和实现。

第二代 TensorFlow 诞生之后，国外的深度学习框架领域趋近成熟，TensorFlow 和 PyTorch 的焦灼战争成为了主旋律，而国内市场则亟需一款能够与之匹敌且具备自主知识产权的优质国产框架。潘欣不愿安于现状，选择离开硅谷，怀揣着“打造一个最好的国产深度学习框架”的信念，从 0 到 1 重构了 PaddlePaddle——百度的飞桨平台。

Paddle 源于 2013 年，后来 Andrew Ng 为它选用了“PaddlePaddle”这个更加朗朗上口的名字。早期的飞桨与 Caffe 相似，灵活性不足，模型构造依赖 C++。潘欣接手之后，发现 PaddlePaddle 早期的设计理念看似是将深度学习特性融入编程语言，但实际的实现上却是通过 Python 声明模型结构并在执行器中解释执行。全面对标 TensorFlow，潘欣用两年时光为 PaddlePaddle 打造了解决方案。

此后，他先至腾讯打造深度学习框架“无量”，再入字节跳动负责 AIGC 和视觉大模型 AI 平台，每一次转变都是一次全新的尝试。

2023 年，潘欣想在 ChatGPT 爆发后的 AI 2.0 创业浪潮中寻找一家初创公司，花更多的时间在技术和产品上。当时，李开复博士正在为创新工场孵化的零一万物招兵买马。零一万物甫一出生就致力打造 AI 2.0 时代的前沿大模型技术及软件应用的全球化公司，汇聚一群国际级顶尖人才。李开复博士躬身入局 AI 行业已有 40 多年，也希望通过积累多年的技术、产业经验，在 AI 2.0 时代持续探索大模型和多模态智能的无限可能，打造「以人为本」的 AGI（通用人工智能）。

零一万物 AGI 的信仰内核和潘欣心中的愿望一拍即合。潘欣也顺理成章加入到零一万物，开始全新的 AI 2.0 征程。这是潘欣第一次接受采访，我们面对面和他聊了许多话题：硅谷往事、零一万物、创业浪潮、算力挑战、AGI……当然，还有最重要的那个问题：如何让国产 AI 大模型破局？

谷歌的大脑聚在一起，掀开了故事的第一页

《新程序员》：你是如何走上人工智能之路的？

潘欣：那是 2010 年左右，移动互联网时代，我在北京邮电大学上本科，跟着一位叫石川的教授学习机器学习，那时候深度学习还没火。AI 历经几起几落，以前没什么人会说自己做 AI，都会强调自己是“机器学习的”。

《新程序员》：初次接触机器学习时都有哪些感受？

潘欣：机器学习的算法很“大开脑洞”，并不是通过固定公式推导出来得出必然的结果。诸如遗传算法、神经网络、模拟退火等算法都是启发式的，跟传统的算法数据结构差距非常大。后来神经网络逐渐演进成人工智能，我一看见那些早期概念就觉得太有意思了，因为神经网络是通过模拟人的大脑去实现算法。

《新程序员》：你从滑铁卢大学毕业后并没有立即拥抱 AI，而是先做了大数据，这中间有哪些思考？

潘欣：AI 其实也是建立在大数据的基础上，没有大数据就不会诞生 AI。在接触深度学习的那段时间里，我也同样看到了那几年大数据的潜力。当时有几篇论文很火，比如 Jeff Dean（Google AI 掌门人）加入 Google 的第一项主要工作就是开发出了 Google 的广告系统 AdSense，他对于 Google News（谷歌新闻）也作出了很大的贡献；之后 Dean 和他的工作伙伴 Sanjay Ghemawat 还带领团队接连开发了 GFS（Google File System，谷歌文件系统）和 MapReduce（大数据领域经典框架）。

那个时代的大数据实践性更强，且整个互联网都处于大规模的上升期，我还记得 NoSQL、海量数据是当时的互联网热词。所以，我在机器学习和大数据之间做了个二选一。然后到了 2015 年，机器学习和 AI 之间的结合已经有了初步的结果，ImageNet 因此问世。我们现在回过头来审视 ImageNet 会感觉它的数据量很小，但在当时这已经是比较大的了。这段时期的大数据技术趋近成熟，AI 也开始露苗头了，所以我从大数据又回到了机器学习这个研究方向。

《新程序员》：这中间的方向判断都是你独自决定的吗？有没有“高人指点”？

潘欣：我主要是通过平时接触的各种直接或间接信息来做出判断，比如我最关注的就是 Jeff Dean。

我会去了解和调研一下 Dean 在每个时期所研究的东西，并发现他做的很多东西都是领先于时代的。当时我感觉 AI 比较有前景，恰逢 Jeff Dean 在内部带头创立 Google Brain，拉拢了许多原先在 Google 做 Infra（基础设施）的人，其中也包括我身边的一些原本在 Core Infra 工作的同事，所以我就想跟着这些同事一起过去。

《新程序员》：你和 Dean 的渊源是在 Infra 时期埋下的吗？还有什么故事可以分享？

潘欣：我一路上主要是跟随 Dean 的路径，后来再到 Google 大数据组工作时，我接触的 Infra 基本全是 Dean 一手带起来的（即分布式计算的“三驾马车”），组里的很多大神都和 Dean 有联系，我因此能和 Dean 产生间接的联系，后来才会被带到 Google Brain。这可能算是“徒孙”的那种感觉。

《新程序员》：在当时的环境下，你从 Dean 身上学到了哪些特质？

潘欣：Dean 虽然做了很多的事情，级别也非常高，但是他一直都在一线执行具体的研究和开发；其次就是 Dean 对长期技术趋势的判断非常的准确——而且是惊人的准确：Dean 早期对深度学习框架（2013 年）和深度学习硬件（2015 年的 TPU；如今英伟达如日中天，整个市场只有 TPU 能赶上一点步伐）的判断、对 AI 编译器的判断以及如今对 MoE（Mixture of Experts，混合专家模型）的判断，都在这个时代得到了验证。

Dean 的团队是很难被复制的，将来也无法再被复制了。2015 年左右，全世界一半的人在深度学习领域的成果可能都是来自 Google Brain 的团队，它汇集了领域内大部分的顶级专家：Geoffery Hinton（AI 教父），Ian Goodfellow（对抗学习发明者）、Transformer 的八位作者，还有现在一些比较火的创业公司……几乎可以说 Google Brain 奠定了从深度学习转变至 AI 的大部分基础。

Dean 能笼络这些人才，靠的还是他在比较早期的时候（2012、2013 年）作出的非共识性的判断。当时，其实还没有很多公司去大力挖掘这种人才，尤其是 Hinton 这种学术界的泰斗隐藏在了幕后。此外，“Dean+Google”这个招牌本身还是具备自带的光环，可以得到研究团队的信任，所以说 Google Brain 只能在那个时间点达到如此惊人的人才密度。

《新程序员》：今天 AI 的技术创新源头不少依然是来自于 Google，大模型也起于 Transformer，但为什么 Google 自己的产品创新却显乏力，而会落后于 OpenAI？

潘欣：世界科技巨头 Google 掌握着很多的资源，同时也是很多创新的始发地，大家的期望值太高，所以显得有些落差。实际上，很多大公司不可避免地会出现决策迟缓的问题，落地执行力可能也没有小公司强。

至于微软的成功，在我眼中可能更像是一种投资性的成功。微软研究 AI 也很多年了，有一定的基础，但实际上微软自己也没有孵化出一个 OpenAI，只是微软高层里的某个人拍板做了个投资的决定，促使 OpenAI 最终能够跟微软绑定。所以科技巨头不可避免地会有这种滞后性、迟缓性。当然，更深层次的原因就很复杂，因为大公司需要协调很多人的方向：谁来负责？怎么分工？这些决策都会比小公司要慢很多。

但我觉得这个事情可能还不用这么快下定论，不用急着宣告 OpenAI 已经打赢 Google。举例来说，Dean 当时的一些布局到今天其实还是有效的，比如说 Google TPU、Google 的 AI 算力数据中心，这些都是 Google 至今没打出的底牌，具有很大的成本优势。但 Google 确实也有一些布局过于超前，有些项目没有达到预期的效果，例如 TensorFlow，其早期的时候被认为是没有对手的，后来就是一些原因导致 PyTorch 实现了反超。所以说，Google 仍具备厚积薄发的潜力。我可以透露的是，据我在 Google 的朋友以及收集到的各方面消息显示，Google 当下仍在快速迭代中。很可能在今年年底至明年年初，我们会看到 Google 有不少重要的新闻发布。

跟紧每一波技术浪潮，做自己感兴趣的事

《新程序员》：你的技术路线是框架——平台——模型吗？这中间是怎么转变的？

潘欣：相比从框架过渡到模型，我的工作更像是在做框架与模型的联合优化。刚进 Google Brain 的时候，我是在 Samy Bengio（Torch 框架作者）手下做算法，协助研究科学家们重现各类出版物中的模型。那时候，我在公司内部复现的模型最多，涉及了语音识别、图片分类、再到图片检测分割还有语言模型。

后来基于一些原因我开始参与到 TensorFlow 开源框架的贡献中，就逐渐从模型转变到平台。然后是腾讯时期，由于腾讯的推荐业务需求，我既负责推荐大模型训练所需框架的构建，又需兼顾推荐算法的研发。后来到了字节，我其实同时带了平台和算法的团队，不仅关注模型的训练效率、压缩和移动端推理等具体问题，还负责搭建支持这些模型高效运行的平台环境。所以事实上我很多时候是两件事（框架和模型）一起做。

《新程序员》：在模型研发过程中，过往的经验积累是不是能让后续的工作水到渠成？

潘欣：其实很多时候框架跟模型不能完全分开来看，它们是相互制约或相互辅助的。例如在我做推荐系统的时候，目标可能是千亿甚至万亿级别的参数规模，传统的深度学习框架如 TensorFlow 和 PyTorch 无法直接应对需求，这就需要我们在基础框架层面进行定制化的开发工作。然后框架开发有时候也需要去考虑算法上的事情，比如 Pruning（模型参数的剪枝）或对 embedding 长度处理是否会影响到模型的效果等等。所以两边（框架和模型）其实都存在显著的交互影响。还有现在流行的 MoE 也是一样的，需要深入系统层面，精心考量如何有效地对模型进行切分，才能保证性能最佳。

《新程序员》：你同时经历了 TensorFlow 和 PaddlePaddle 国内外两大“明星框架”的辉煌时期，为什么没选择在框架这个方向一直做下去？

潘欣：主要是我这个人可能有时候不太闲得住吧。很多技术存在着从「快速发展期」转变到稳步发展的「平台期」这一过程，而框架领域当时出现了 PaddlePaddle（百度飞桨）这样的平台，随后整个深度学习框架领域开始进入了平台期，我就开始去找有没有更有意思的事情做了。碰巧那时候推荐领域进入了高速发展期，我觉得可以去做，所以这种转型还存在着一些机缘巧合的因素。然后等推荐系统发展到了平台期之后，一些其他研究又开始了快速发展时期，比如计算机视觉（CV）就经历了从 GAN 到 Diffusion 的飞跃。总之，我会根据当时的技术演进做一些切换或是转型。

《新程序员》：你在寻求转变的过程中有思考过转变环境带来的好与坏吗？

潘欣：好处就是能不断地接触和学习新的东西，补齐自己的知识碎片。现在AI的大方向好像我都一线干过。坏处就是风险的确很高。从一个熟悉的环境切换到一个陌生的环境，有可能会不适应，凡事不受自己控制。

《新程序员》：这种不适应感来自于什么？

潘欣：是否能跟团队、上下游进行磨合，互相理解。在公司的既有分工下，能否有自己发挥的空间、同时获得老板的支持。

《新程序员》：我们一般都是在产品大热的时候跟进潮流，很难感知到「高速发展期」和「平台期」的具体时间。你是如何具体判断技术周期的演变的？

潘欣：主要基于过往经验培养出的直觉，此外还会结合一些具体的分析。

比如我当时去做内容推荐系统，首先考察了它的现有技术水平及发展趋势，其次判断了它的应用场景是否具备大规模拓展的可能性。当时腾讯有几亿的用户基数（DAU），推荐系统的优化将显著提升用户体验，所以应用场景还是很大的。然后，推荐技术当时面临从浅层模型向深层模型的技术转型，并且我懂深度学习，能判断出推荐系统肯定还有很大的改进空间。

再就是大模型技术。其实大模型的 Scaling Law（大模型性能随参数、数据、计算增长按幂律提升）早在 2016 年就被发现了，只是当时算力还没有那么好，挖掘不出大模型的潜能。所以，当 GPT-3.5 出来的时候，尽管外界或许会有质疑声音，但我知道这里面是有“真东西”的。

《新程序员》：这可能类似于 CSDN 此前提出的“技术社区三倍速定律”，新技术的发展在开发者社区中的接纳速度通常会比在大众中快三倍。目前还有哪些技术仅在产学研界进行讨论，还未被大众所熟知？

潘欣：我觉得大模型的模块化可能是一个趋势，考虑到大模型训练的成本和应用中的可控性，每当需要对模型进行微调时，很可能需要重新进行整体训练，这种方式显然不够高效。现实应用中，大模型在处理 1 + 1 = 2 这种简单任务时如果也要动用全部参数，就会造成资源的浪费。所以探索模型的部分参数激活机制以实现模块化是很重要的。但这个模块化的概念其实跟 Jeff Dean 提出的 Pathways（一种通用的 AI 框架）有点类似，我觉得这个想法可能会是对的。

《新程序员》：Pathways 是他在 2021 年提出的。既然 Jeff Dean 这位灵魂人物如今仍在，为什么 Google 在大模型时代的创新会逐渐乏力？

潘欣：Jeff Dean 也是人，不是神。他可以做一些单点的预测或突破，但在协调几千人的大团队时，需要考虑上千名工程师的利益和任务分配，这不是一个人能解决的。

《新程序员》：在这么多年的经历后，有哪些是你认为一直未被解决的难题？

潘欣：还是有一些的。深度学习框架的编译器技术已经发展十年了，但高效硬件适配自动化还没实现，每次有新的芯片出现时，仍需要人工干预以确保代码能良好地移植并在新硬件上高效执行。这就导致大家现在都在用英伟达。

然后就是自动分布式计算框架，这是我们早在 2017 年就想做并且实践了很多尝试的东西，但目前大多数情况下，为了达到最优性能，仍然需要具有专业知识的人员针对特定场景手动设计分布式策略。这意味着，理想的完全自动化的分布式计算系统——能够根据任务特点和资源状况自行决定最优分配方式——尚未成熟，这也受限于现有的 AI 理论水平，所以短期没法解决。

《新程序员》：从业这么多年，对你影响最大的人是谁？

潘欣：Jeff Dean 吧，他对我的影响是偶像性质的。

当年带我入门深度学习的人则是 Samy Bengio，他给了我一个 PDF 文件，里面是一本叫《Deep Learning》（深度学习）的书。这书是 Ian Goodfellow 写的，他是很多早期深度学习书籍的作者。当时这本书还没有写完，然后 Samy 把 Ian Goodfellow 的草稿转成 PDF 发给我了，我看完后还做了几处书纠。遗憾的是我不知道最后终版改了哪些内容，没有对比。

这事发生在我刚入职的时候，每天下班的时候我都会看一看那份 PDF。

《新程序员》：所以对你影响最大的其实还是 Google 时期的经历。

潘欣：对，但是影响我的东西、我做过的项目都很多，所以 Google 也不会占到很大的比例。我在每个项目都有很大的收获。

《新程序员》：一路上有哪些遗憾的地方？

潘欣：遗憾的事情肯定有很多，但我一般不会回头反复去想，因为过去的事再去看也没有用了，吸取教训更重要。

把从 0 到 1 的精神带回国内补填空缺

《新程序员》：从硅谷回国是一次很大的转变，你当时进行了什么样的思考？

潘欣：在 2018 年初时，TensorFlow 和 PyTorch 这样的深度学习框架其实就已经相对清晰了，而比较好的国产深度学习框架却未诞生。当时我看到百度发布了 PaddlePaddle，这个平台其实也是基于早期架构打造的，所以我的目的就是回国打造一个最好的国产深度学习框架。因为我在那个时期注意到了 AI 将来会变得很重要，所以我想如果国内的所有 AI 都能基于我写的深度学习框架，会是挺有意义的一件事情。当然，这里也有百度的一些想法在里面，所以这是一次双向的选择。

《新程序员》：这次转变有“不适应感”吗？

潘欣：我当时带领的多模态研发团队相对更年轻，经验积累相对会少一些。当时 Google Brain 的队伍里都是大神，年龄和级别都非常高，到今天都已经是泰斗级别的人物了。不过年轻的团队带来的是强大的战斗力，团队从决策到落地的周期很快，执行力很强。

《新程序员》：国内团队相对年轻，会让我想到“程序员的 35 岁危机”这个问题，你有没有想过这一点？

潘欣：这个事情跟国内的发展阶段有关系，硅谷的技术发展了很多年，它也经历过国内现在的阶段，人员变动比较频繁。我在的时候可能硅谷已经经过这个阶段了，所以硅谷剩下来的那些人整体年纪还比较大，但国内可能还没有经过这个阶段。其实我感觉很多程序员的工作年龄被稀释了，做得好就有可能转管理层之类，而那种资深程序员就相对比较少一点。

《新程序员》：两个环境的差异主要有哪些？

潘欣：国内团队的执行力会很强，对于细节的追求也更高一些，工程化、产品化的能力非常强。硅谷则推崇自主创新，希望能够发挥人的主观能动性。但是硅谷没那么高度流程化，很少会严格规定每个人要执行哪些任务。

《新程序员》：你的自我驱动力和创新意识是在硅谷的环境下浸染出来的吗？

潘欣：对，硅谷文化特别擅长于从 0 到 1 的创新思维和原型开发，经常孕育出突破性的想法和吸引人的演示版本。相比于国内，硅谷可能在将一个初步的想法或产品原型进行深度优化、精细化打磨和长期迭代以达到极致用户体验方面，并不如国内那么专注或持久。国内的产品开发文化在某种程度上更注重产品的迭代升级，尽管也可能存在过度迭代导致产品过于复杂的情况，所以我觉得国内在某些产品的体验上会更好一些。

《新程序员》：这种精神是许多开发者在呼吁的。现在业界流行“对标 OpenAI”的声音，所以很多人希望我们跳出跟随者的步伐，有自己的创新力。

潘欣：硅谷擅长从 0 到 1 是有很多原因的。第一，硅谷吸引全世界而非仅限于中国的人才，所以人才密度是比国内要大很多的。第二是硅谷的风险投资环境非常发达，顶级风投愿意投资处于早期阶段但极具潜力和创新性的项目，甚至一些大公司也愿意砸很多钱，在内部去孵化一些很酷的项目，比如 Google 的无人车和热气球 Wi-Fi。国内可能就不太敢赌，很少有人愿意为这些高风险的、具有突破性的前沿项目做投资，所以现在我们往往看到创新都是出现在硅谷里的。

《新程序员》：所以这些都是现实的原因，但当前这些问题可能很难发生改变。

潘欣：我感觉从体制上也还是有希望的，比如说国内的投资者数量可以逐步增长。实际上国内不缺人才，只要有足够的资金投入和优秀的孵化平台，就能够把这些散落的人聚集起来，形成比较好的人才密度。我觉得现在的清华就是一个例子，现在很多论文就有清华的影子，包括当前 Diffusion 模型的一些比较新颖的概念都是清华提出来的。

《新程序员》：关于你提到的人才密度问题，业内不乏许多悲观的声音。ChatGPT、Sora、Llama 2……这些发布总能让我们惊呼一夜变天，许多人说“为什么中国那么多优秀人才进入这个行业都做不好”，你的观点是怎样的？

潘欣：我觉得国内依旧还是起步太晚了。OpenAI 其实成立的时间还挺早的，而我记得 2016 年的时候就有 Google 的同事跳槽到 OpenAI 了（即前文提及的 GAN 之父 Ian Goodfellow）。OpenAI 当时很乱，还在纠结强化学习之类的，Ian 去待了一年觉得不靠谱，所以又回到 Google。但再反观 2016 年的国内，又显得 OpenAI 起步很早了。因此我感觉国内很多所谓的 AI 人才可能都是在 ChatGPT 出现之后才被发现的，他们在此之前可能都不是 AI 领域的。硅谷把从 0 到 1 的东西做完之后，国内的人才展现出了极高的学习效率和转化能力，能在较短时间内跟进并取得一定的研究成果和产品。

此外，硅谷也没有停滞不前，他们也在高速发展，这就导致我们总感觉硅谷快人一步。更何况还有像英伟达这种长达几十年积累的一些公司，都是不可能快速复制的。我对此也不太悲观，重要的是坚持学习，并在未来能够调整策略，将更多的资源倾注到具有前瞻性和早期探索性的研究项目上。

《新程序员》：国内的创业公司经不起太多的试错。

潘欣：硅谷依托于美国的金融能力和科研底蕴，有能力筛选并支持那些处于早期阶段、具有潜在价值的创新项目，确保它们获得必要的资金，进而得以顺利推进直至成功。现在国内的问题在于能否给这些人才提供足够宽容和支持的土壤，因为不是每个天才起步都是百万富翁，他们也是需要启动资金的。

在零一万物想打造以人为本的 AGI

《新程序员》：从国内大厂到创业公司，你都有哪些思考？

潘欣：从小程序员到中层，从中层再到一两百人团队的管理层，我在大厂能经历的都经历过了。面对现在这场 AI 2.0浪潮，我觉得加入像零一万物这样的初创公司会有更多的可能性，而且自由度也会更高一些，能花费更多的时间专研在技术和产品上。大厂的话，自我发挥的空间有会局限性，有时候会出现这种情况：在一个团队待久了，任务和目的变得越来越清晰，分工也彻底固定下来了。

《新程序员》：为什么在众多公司里选择了零一万物？

潘欣：我选择的时候也没什么纠结的。

第一个原因就是缘分。有一些 Google 的前同事向开复老师推荐了我，在零一万物招人的时候说打听到了我的消息，然后我就和开复老师好好聊了一下。开复老师介绍了团队状况，还告诉我 “想打造创新的全球 AI 平台，让 AGI（通用人工智能）普惠各地，人人受益。” 在建设 AGI 的路上，零一万物还会通过数据科学（包括数据数量和数据质量）、训练科学（数据配比、超参数设置、实验平台等）、训练 Infra 等自研的“训模科学”，从零训练自己的大模型。我听完之后感受到了共鸣，因为我也想打造一个超越人类智慧的 AGI，但这个 AGI 并不会淘汰人类，而是给更多的人带来帮助，与人类能够和谐共处。

至于第二个原因就是零一万物的人才密度和高度。

《新程序员》：你提到了李开复博士和你的愿景是一致的，对于人与 AI 的相处模式，你的思考是什么样的？

潘欣：AGI 未来会朝两个可能性发展。一种是被少数人掌控，绝大多数的人可能都不具备开发和改造 AGI 的能力，并逐渐失去自我价值；一种是人人都能共享 AGI，每个人都能参与建设 AGI 去贡献，并彼此分享使用 AGI 的能力。

《新程序员》：零一万物打造 AGI 的路上都遇到了哪些挑战？

潘欣：目前还是有一些挑战。和 OpenAI、Google 等公司比，我们的算力相对少。但是基于我们业内顶尖的 AI Infra 技术，我们在算力利用上更加高效和专注。

还有很多人关注的 AIGC 问题，当前生成视频的天花板无疑是 Sora，但在实际使用的过程中，其可控性还需要强化才能应用在更多产品中。从 Sora 的模型优化目标、模型架构上看，它应该不会成为通往 AGI 的路径，反而更像是一个高质量视频解码器，帮你基于设定好的剧情生成一段视频。Sora 本身不能生成很有意思的剧本或故事。AGI 模型优化目标应该是基于天量压缩数据和长上下文信息去进行未来预测，更可能存在（能创作故事的）于 GPT 当中。我更倾向于 LLM 负责思考，Diffusion 负责解码成高质量图像、视频、声音的定位。

《新程序员》：前段时间 Jason Wei 自曝他的“996 作息表”，在网络上很火。你在“新环境”的一天是怎么样的？

潘欣：8 点多起床，然后 9 点多到公司。我现在有比较多的时间能够去做一些亲身实验的、更偏向技术层面的事情，比如说数据清洗和模型的训练调优。小部分的时间我可能在开会，但相比在大厂的时候开会肯定少很多。到周末，我会有时间去读读论文，平时利用碎片化时间也会读一点。如今很多论文相似性比较大，读多了之后速度就快了，一天可以读个四五篇，如若读得精则一天能看一两篇。

《新程序员》：到目前为止你整体的状态如何？

潘欣：还可以，每天都在做实事，每天都有产出。

《新程序员》：用几个关键词总结你的情绪？

潘欣：很有意思，有趣并且有收获。

《新程序员》：你在零一万物当前负责的是多模态研发，现在团队有多少人？

潘欣：十个人左右，平均三十岁左右。我主要关注多模态和产品结合的技术和应用问题。大家都有 AGI 的信仰，有着初创企业敢打敢拼的创新精神，每一天都在突破各自的技术能力边界。另外，“跨界共创”是零一万物的特色之一，不同的团队伙伴可以坐在一起，为一个项目的最好效果一起打拼。

《新程序员》：在多模态方向，具体的目标是什么样的？

潘欣：短期内，一方面我关注的是生产力场景的多模态理解问题，即探究 AI 如何通用的理解任意长文档、截图、屏幕内容，并进行推理、解答、执行。

举例来说，给 AI 阅读一份 100 页的财报，其中有各式各样的饼状图、折线图等视觉元素和布局，形成了复杂的多模态场景，而且可能存在中、英、德等多种语言混杂的情况。那么，怎样才能让 AI 准确地理解这类信息？这就是我近期希望能在多模态领域解决的问题。

另一方面我也关注基于上下文和多模态条件的可控生成。比如说让 AI 能够记住特定的人，并能迅速、精确地将其形象整合进生成的图像或视频中。目前技术上已经有了一些进展，比如多模态条件图像合成（multimodal conditional image synthesis）技术能够快速编码条件并控制模型的生成；此外针对这一需求的部分技术手段已经比较成熟并得到广泛应用，例如通过一张照片就能合成高质量的人像特写或静态肖像。

《新程序员》：类似于前段时间那个用一张照片生成“科目三”舞蹈视频的应用？

潘欣：差不多，当前 AIGC 存在一个问题，无法生成长时间连贯一致的内容。

如今生活在移动互联网的人更趋向于消费视觉化的内容，这一特质促进了抖音的爆火。想要 AIGC 达到短视频那样的价值水平，至关重要的是使其掌握创作连贯剧情多模态内容的能力。当然，短期内 AIGC 可能创作不出有故事性的长视频，因此先以类漫画作为一个中间阶段。

《新程序员》：这个想法什么时候能够落地？

潘欣：其实已经落地了。

《新程序员》：那前面提到的问题已经得到初步的解决了吗？

潘欣：社区似乎还没有一致性的方案，但是大体的路径在我看来已经比较清晰了。几个关键点：1. 原生的多模态预训练。2. 更长的多模态上下文（不是 text token）。3. MLLM 和 Diffusion 深度的结合。

《新程序员》：大模型的训练和推理在当前都面临哪些挑战？

潘欣：从整个行业上看，大家都面临很多挑战，国内同行共同面临的主要的挑战是速度不够快、成本太高。我觉得这个问题得专业分工解决，需要让各自 Infra 的团队去进行优化，里面有很多的技巧。比如模型并行、数据并行、流水线并行还有针对某些特殊模型结构的分布式设计等等，在不同场景下，优化的角度和方法各不相同，可以从模型精度、输入输出（IO）性能等多个维度进行考量，并且存在多种优化手段，其中既有牺牲一定精度换取速度提升的方法，也有在保证精度前提下的无损优化策略。

《新程序员》：大模型面临的痛点如此之多，目前大家都没能得到很好的解答。

潘欣：这跟人工智能底层技术有一定关系，现在神经网络里面有很多黑盒，并不是可以直接通过公式推导得出结果（多维空间的求解）的东西，因此比起用数学精确推导，人工智能更需要多做实验去探索和论证。而如今实验的成本越来越高，迭代周期延长，试错也变得很慢。

《新程序员》：比尔·盖茨在采访 Sam Altman 的时候，Altman 表示今年是多模态发展的一年，他看到的未来非常遥远。你对多模态的下一步有哪些思考吗？

潘欣：我觉得他们都是站在高处思考，看到的更多是“美丽的风景”，满眼都是机会与可能性。我现在站在具体应用能看到很多技术问题，并且会更偏向于在比较具体的一些产品问题上去做这件事情。

至于多模态的未来，比较重要的是多模态 Pretrain 方法。现在多模态训练更像是打补丁，缺少“多模态的 next token prediction“。举个例子，比如我们想让模型看懂任意 chart（有些真的很难懂），通过后期收集所有复杂类型的 chart 和标注然后 continue train 是很别扭的。按道理 pretrain 阶段模型就应该能见过且压缩互联网所有类型的 chart。

《新程序员》：当你的团队面临一个问题时，具体从问题发现到解决方案实施的全过程是怎样的？

潘欣：相对于大公司，初创公司有集中力量办大事的体制优越性，问题发现到解决方案实施的闭环速度比较快，我一旦碰到技术难点就能很快把想办法应对，然后快速地在产品里得到验证。总之正向反馈还是挺好的。

具体举例来说，早期我们让 AI 去阅读一份字号比较小的文档，一般的方法是让多模态模型的视觉编码器将图片缩小至较低分辨率（如 224×224 或 448×448）再去理解。这种架构用来理解一些 benchmark 是没问题的，但如果是精确辨识实际场景中数字小数点的情况就不行了，因为分辨率太小，可能 5 和 6 这种字形相近的数字就看不清楚。这是目前很多模型都面临的问题。所以，我们快速添加了一个更大分辨率（如 1024×1024）的视觉编码器再训练一下，如此一来模型就能看到图片里面很小的细节了。

《新程序员》：这个解决方案是怎么想到的？

潘欣：50% 来自于学术界已发表的前沿论文，50% 是我们做出的改进。其实大部分问题的答案都藏在论文里，现在的问题就是论文太多了，质量很好的论文被藏到了众多没有价值的论文里面，良莠不齐。所以要把好论文挖掘出来是比较难的。

《新程序员》：有什么“挖掘”好论文的心得？

潘欣：首先是速读论文，然后尽量找那种出名的机构发布的论文，可信度会高一些。除此之外，我们有时候会分工去读论文，或者和别人做一些沟通讨论，再就是可以看看业界其他大佬的意见。现在 AI 界的大佬很喜欢用 X，所以 X 上可以看到一些高质量的论文分享。

大模型公司创业潮远未到“AI 寒冬”阶段

《新程序员》：近期英伟达市值一路高涨，推理和训练的算力成本已经是公众共同关注的话题。你怎么看？

潘欣：算力资源现在是供需不均衡，这个得仰赖算力资源的供给侧的多元化，因为硬件须要在更多参与者的环境下才能更快降低价格。

《新程序员》：国内现在也有一些算力供应商为大模型提供服务，你有看到什么可行的初步方向吗？

潘欣：Transformer 架构已成为深度学习领域的主流，可以聚焦于 Transformer 的具体优化。英伟达也不傻，他们知道自己被很多人盯着，所以也在往专用化去做，利用类似英伟达 Tensor Core、Transformer Engine 这样的专门为加速矩阵运算和 Transformer 层设计的硬件单元。

我对此还是比较乐观的，因为这种优化可以叠加。那要是能源、算力和模型都能优化两倍，就会是 2 × 2 × 2 而不是 2 + 2 + 2，呈现出指数级的增长。只要大家每年在各个方向优化两倍，最终叠加起来可能就是几十倍、上百倍的优化，所以我乐观估计算力成本肯定会降下来，并且是以每年数倍的速度下降。

当然，成本下降之后大家可能又会想做更大参数的模型，所以再多的算力最后也能被消化掉。

《新程序员》：从比特币一直到现在的 AI，技术趋势一直在不确定性中演进，但英伟达至始至终都在做算力，最终找到了一条成功的路径。

潘欣：我觉得这里面可能还是有很多偶然的因素。英伟达应该也没有规划 AI 这条路，更没想到 CUDA 会成为英伟达在 AI GPU 里的一大优势。所以说，只要坚定不移地去做有用的技术，说不定哪一天就会有更大的价值。特别是对大公司而言，坚持一件长时间没有收获的事情是格外困难的。

《新程序员》：那对创业公司呢？

潘欣：创业公司也很难，因为创业公司没有强大的现金流。所以很多成功的公司其实在创业阶段都经历过九死一生的时候，例如特斯拉就曾命垂一线，后来熬过了最艰难的阶段成就了今天的马斯克。此外，英伟达早期也是差点破产。

《新程序员》：创业公司在国内一直有很悲观的论调，许多时候其命运总是被大厂收购。针对当前这一轮大模型创业潮，你有哪些想法？

潘欣：我不会花太多时间想这些事情，因为这种都属于短期的成败。关键问题在于，AI 未来能不能长期的发展？整个赛道会不会做得更宽？且赛道宽度又是什么样子，是否能一直在 AI 这条赛道上做有意思的事情？包含 OpenAI 本身也是初创企业的崛起过程，它从 0 到 1 再到挑战巨头，背后是掌舵者的坚定和团队的凝聚力，不断创新迭代且坚持下来。所以我觉得，总会有一些初创公司能够在技术创新和商业实践中脱颖而出，获得真正的成功。

《新程序员》：你在框架领域其实经历过许多开源，这一路下来都有过哪些思考？

潘欣：开源肯定是个双刃剑，它好的一面在于快速地促进了信息的交流和复用，节省了全人类的很多资源，避免了重复造轮子。但开源自身也带来了一些问题，比如开源工具可以被人们用来造假，很多假新闻或假消息翻好几倍，现在还有效果很好的深度伪造技术和语音合成模型，这些都是开源的一大危害。

除此之外开源可能会导致一些强者通吃的局面。比如谷歌开源了某个很好的东西，很多人直接就拿来用了，潜在的扼杀了一些自研的多样性和创造性，也减少了一些工作机会。我觉得要辩证看待这个事情，因为有时候人类发展太快不一定会是好事，现在人类手上不可控的一些高科技已经越来越多了，从核能、生物技术到 AI 都是双刃剑，所以技术高速发展的时候也会挺怀念岁月静好的。

《新程序员》：很多人工智能学者、专家也想到了这点，联合签署好几份文件了。

潘欣：他们的出发点是好的，但现在就是停止研究也没用，对吧？开源或是论文发表很容易加速这种研究。我希望的是技术能够造福人类的同时不会对人类带来伤害，这种想法比较乌托邦。

《新程序员》：上一波 AI 浪潮在 2018-2019 年左右，很多人都怕再经历一次“AI 寒冬”，忧虑 AGI 什么时候会到来，你现在对此有答案吗？

潘欣：我觉得这一波浪潮会比上一波走得更远一点，它们本质不同。

上一波 AI 浪潮没有任何智能诞生，本质就是训练了一个映射器，其中的典型应用是翻译、人脸识别和语音识别，存在很明确的映射关系。但是今天这波生成式其实已经有智能的感觉了，如果你经常去用 GPT-4 就会发现，它的通用性虽然没法用数据量化，但我们还是能体感出 GPT 在像人一样思考。

我感觉以 GPT 当前的能力，能产生的应用肯定远不止于此，还没到（AI 寒冬）那个阶段。这一波浪潮至少在应用层面上还远没有到收敛的阶段，只是因为技术刚出来，大家都还没搞清楚应该做什么应用，怎么去把 AI 变成价值。

当然，未来也可能碰到瓶颈，比如到 GPT-5 就停滞不前，或者像自动驾驶技术那样总是“还差一点点”，甚至边际收益越来越小。或许 AGI 到明年就出来了，这些都是有可能的。

《新程序员》：AIGC 究竟能做什么应用确实是很多人头疼的问题，你有什么想法可以分享吗？

潘欣：如果不考虑算力成本的话，AIGC 的通用性足以让已有的全部应用被重写一遍。但如果考虑算力成本就难说了，因为许多东西的增量收益是未知的。

更值得思考的是会出现什么全新的应用。

我认为目前还没有应用爆发是因为关键 AI 资源被垄断了。想当年移动互联网时代产品不断井喷，是因为整个移动互联网的基础设施十分健全，每个人都可以低成本去开发和定制自己的 App。但现在所有人访问 GPT-4 只能通过 OpenAI 的接口，微调和定制都有较大限制。而自己研发模型又受启动资金和技术资源限制。

《新程序员》：你认为在大模型时代的开发者身上，最重要的特质是什么？

潘欣：需要懂模型，用模型。

《新程序员》：对于开发者而言，AIGC 应用创新是一大难题，因为我们做出自己认知以外的东西。你认为在当今的现实情况下，开发者应该怎么做？

潘欣：OpenAI 只给开发者们开了一道很小的“孔”，创意没有得到完全释放。初级开发者可以充分利用现有的 API 功能来探索新的应用场景。而对于有一定经验的开发者，他们可以进一步研究开源数据和模型，借助这些资源进行更深层次的创新实践。财力较为雄厚的团队，可以选择投资更多的模型定制研发工作，通过对已有模型进行改良甚至创建全新的模型结构以满足特殊场景需求。所以不同环境下的开发者，采取开发的方法都是不一样的。