斯坦福大学新开的大模型课，值得一看_

作为硅谷的摇篮，斯坦福大学计算机科学课程的含金量是无可争议的，比如由李飞飞带头主讲的计算机视觉课程CS231n:Deep Learning for Computer Vision，已经走过了第九个年头，今年开课之后依旧座无虚席。

而随着LLM和生成式AI的兴起，Transformer在自然语言处理领域已成为新标准，并且正在扩展到计算机视觉和音频处理等领域。斯坦福大学另一门计算机课程CS25: Transformers United V4也成为最热门、最前沿的课程之一。

这门课程不仅涵盖了Transformer的理论基础，还深入探讨了其在实际问题中的应用。CS25每年会邀请人工智能领域重量级嘉宾进行讲座，分享学术上的突破和最新趋势，包括AI教父Geoff Hinton、OpenAI联合创始人Andrej Karpathy以及来自Google、Nvidia等企业的研究者。CS25还会免费向公众开放，在斯坦福大学内外都备受关注，课程视频收获了数百万次的网络观看量。

在今年CS25的嘉宾中，除了来自OpenAI、艾伦人工智能研究所等机构的顶尖研究人员，智谱AI的丁铭博士也收到斯坦福的邀请，成为唯一一个来自中国的嘉宾。

事实上，智谱AI在大模型领域的研究成果不仅在学术界得到广泛认可，其创新技术也在业界得到了实际应用和验证。以丁铭博士参与开发的开源视觉语言模型CogVLM为例，因其卓越的性能，已被知名项目Stable Diffusion采用，用于提升图像标注的精确度和效率。

学术与商业共生典范，智谱AI引领大模型技术创新

大模型在科学研究中的应用刚刚开始被理解，其持续得创新和进步需要学术界和产业界共同做出贡献。当下，国内大学、科研机构、企业等不同创新主体都在积极参与大模型研发，学术界与产业界之间的合作关系尤为重要。与清华颇有渊源的智谱AI从成立第一天开始就自带科研基因，正是这种学术与商业共生的典范。自推出新一代基座模型 GLM-4之后，智谱AI已陆续发布了不少研究成果，涉及 LLM、多模态、长文本、对齐、评测、推理加速、Agent 等大模型产业的各个层面：

评估大模型涌现能力的新视角

在大语言模型的研究和开发中，一个关键的探索点是如何理解和提升模型的“涌现能力”——即随着模型规模的增大而突然出现的新能力。传统观点认为，模型的大小和训练数据量是提升这种能力的决定性因素。而论文《Understanding Emergent Abilities of Language Models from the Loss Perspective》提出了一个新的视角：Loss 才是涌现的关键，而非模型参数。

智谱AI通过分析多个不同规模和数据量的语言模型，在多个英文和中文数据集上的表现，发现低预训练损失与模型在实际任务中的高性能呈负相关。这一发现不仅挑战了以往的常识，还为未来模型的优化提供了新的方向，即通过降低预训练损失来激发和提升模型的涌现能力。这种洞见为AI研究者和开发者在模型设计和评估中引入新的评价指标和方法提供了理论依据。

GLM-4 的 RLHF 技术公开

大语言模型对齐是关涉AI控制与AI安全的重要问题，只有确保模型的行为和输出与人类价值观和意图一致，才能让AI系统更安全、负责任且有效地服务于社会。

对此，智谱AI开发了名为ChatGLM-RLHF的技术，通过整合人类的偏好来训练语言模型，使其产生更受欢迎的回答。具体来说，首先通过创建一个系统，通过比较不同的模型回答来收集偏好数据；然后使用这些数据训练一个奖励模型，帮助预测人类的偏好；最后利用强化学习算法优化模型，使其能生成更加准确和人性化的回答。

强化大模型的数学能力

有效地解决数学问题也是大语言模型应用面临的一个难题。传统方法如基于人类反馈的强化学习（RLHF）优化文本生成质量，却可能忽略数学问题解决所需的准确性和逻辑连贯性。相反，特定微调（SFT）又可能会牺牲模型的语言处理能力。

智谱AI的论文《ChatGLM-Math：强化数学能力》介绍了一种名为“Self-Critique”的创新迭代训练方法，通过自我反馈机制显著提升LLM在数学问题解决上的能力，同时保持其语言处理优势。此外，研究团队还开发了MATHUSEREVAL基准测试集来评估LLM在实际应用场景中解决开放性数学问题的能力，测试结果显示了该方法的有效性和创新性。

AutoWebGLM：“更智能”的智能导航Agent

随着互联网内容和服务的快速发展，自动化网页导航代理变得尤为关键，它能够帮助用户高效获取信息和执行任务。在动态和复杂的网页处理方面，Agent需要适应用户操作的多样性以及HTML内容的复杂性，这是一个需要解决的关键问题。智谱AI的论文《AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent》提出了一个基于大型语言模型ChatGLM3-6B的自动化网页导航代理AutoWebGLM。通过采用HTML简化算法、混合人类-AI训练方法及结合强化学习和拒绝采样技术，该项目显著提升了在网页理解和操作上的能力。

AutoWebGLM项目不仅推动了自动化网页导航技术的进步，还通过引入双语网页导航基准测试集AutoWebBench，为AI网页导航代理的测试和完善提供了工具。这项研究不仅推动了自动化网页导航技术的进步，还为智能代理在现实世界中的应用提供了新的可能性。

Cog 系列模型：让大模型“看见”之后还要“看得更懂”

在大模型的研究中，视觉与语言的集成已经成为一个关键领域，涉及如何让机器更好地理解和生成图像内容，同时与自然语言无缝结合。这一技术的进步不仅能够提升AI系统的交互性，还能增强其在自动化视觉任务、内容创建和辅助决策等多个领域的应用效果。

Cog 系列模型代表了在视觉语言模型（VLM）领域的最新进展。CogVLM通过提供精确的图像标注能力，已被应用于流行的图像生成技术如Stable Diffusion 3中，显著提升了图像内容的理解和描述质量。CogAgent作为一个视觉代理，凭借其在图像识别和处理中的卓越表现，荣获CVPR 2024 Highlights认可。CogCoM则引入了操作链机制，允许进行复杂的多轮视觉推理，增强了模型的适用性和灵活性。而CogView3则通过其级联扩散框架，在文本到图像的转换中设置了新的性能标准，大幅优于现有技术，并缩短了推理时间。整体来看，这些模型的开发不仅推动了多模态人工智能的边界，也为实际应用提供了强大的新工具。

这些技术也已经应用到生成式AI助手智谱清言当中，从而提供更精准的视觉内容识别和更具表现力的图像创作服务，帮助用户在多模态交互中获得更加自然和丰富的体验。

站在市场与学界交汇处的智谱AI

正如斯坦福大学第十任校长约翰·汉尼斯所说：学术界与商业界共生的真正力量在于可以让创新想法与商业实践相结合。

从基础研究、应用研究，到成果转化用户能够实际感知的产品和服务，智谱AI实现了科研成果转化的闭环，实现了产业化，这和起源于斯坦福研究项目的谷歌的路径非常类似。

谷歌由拉里·佩奇和谢尔盖·布林在斯坦福大学发起的研究项目转变而来的，这个初始的研究项目得到了斯坦福大学的支持，并且在学术环境中发展成了谷歌搜索引擎的核心技术PageRank算法，最终改变了现代互联网的运作方式。

作为一家商业公司，智谱AI之所以积极参与学术交流并公开研究成果，与智谱AI和清华大学计算机系的血脉关系密不可分。从成立之初，智谱AI就是一家重视科研创新的企业。

源于学界，反哺学界。只有通过支持学术研究、推动学术发展，加深对基础理论的探索，才能为产业界提供更加高效和可靠的模型设计和训练方法。大模型乃至人工智能产业才可能进入下一个阶段，否则摆在我们面对的永远是 AI 黑盒，留下用“涌现”解释一切不可预测的现象的尴尬局面。

对一家大模型企业来说，科研人才浓度、科研氛围，对学术及技术研发上长期且大量的投入，构成了成功的基石。只有技术生根，建立扎实的底层架构，才可能生长出更多的商业应用。

另一方面，大模型的发展是科学与工程的结合，既需要深入的理论研究来探索数据和算法的本质，也需要精湛的工程技术来实现模型的设计、优化和应用。推动大模型的发展需要将人才、数据等资源，配置到效率更高的地方。智谱 AI作为有着学术基因的商业公司，一直在探索大模型在垂直领域应用，产品线上做到了与OpenAI的全线对标。通过将大模型技术创新转化为直接面向商业市场的落地产品，不仅推动了AI应用的发展，反过来也为学术界提供了实践需求、资金支持和技术反馈。

学术研究与商业实践的结合，可以极大地推动技术进步和新产品的开发。站在市场与学界的十字路口，这种协同效应正发生在智谱AI身上。

AI生态圈布局，拓宽护城河

建立起生态系统的企业拥有极大的可塑性和自我迭代能力，而伟大企业家懂得如何引导这股力量，使一家企业拥有的资源和影响力超出所在的公司和组织的边界之外，从而建立牢固护城河。

无论是学术界保持密切合作与交流，还是秉持开源先行的理念，亦或是对十多家AI大模型创业公司的投资，智谱AI的一系列布局本质上都是在用社区的方式形成“共同体”，汇聚各方的力量共同推动中国大模型技术的进步和产业的进步，建立起智谱的AI生态，最终实现AGI。

“踽踽独行不如齐力同行”，这需要有足够的“肌肉”，也需要足够的战略定力。