本文为3701字,建议阅读9分钟
本文来自于清华校友三创大赛对智谱AI CEO张鹏的专访。张鹏是清华校友总会AI大数据专委会会员,本篇从张鹏个人与企业奋斗发展的故事与历程,带大家走进人工智能大模型的创业前沿。
张 鹏
清华大学2018创新领军工程博士
清华大学计算机科学与技术系

8月底,首批通过《生成式人工智能服务管理暂行办法》备案的大模型产品已经公布并正式上线,智谱AI的首款生成式AI助手——智谱清言榜上有名。
“大模型”技术正是智谱清言的“灵魂”。简单来说,“大模型就是神经网络预训练模型,包括初始的语言模型以及衍生的预训练多模态模型,它具有语言学习能力、图像及视频的理解和生成能力等。”
立足于“大模型”,这家脱胎于清华实验室的人工智能企业正怀抱着更宏大的使命,奔走在时代的潮头之上。
01.从清华园到中关村东路
回忆起在清华园读书的点点滴滴,张鹏最怀念的,就是实验室中的同窗情谊。年轻人们沉浸在国际顶尖的科技中,双眼因同样的情怀而闪亮——希望学术成果可以走出实验室,为国家、为社会解决实际的问题。在这样的氛围中,智谱AI正悄然孕育着。
2006年,AMiner平台正式诞生于清华大学计算机系知识工程实验室中。2013年,平台的商业化应用提上了日程。2018年,国家部委发文鼓励科研人员将知识成果转化落地,并提出了指导意见,这为清华大学的科研人员们提供了新的思路,也鼓励他们做出尝试。张鹏和创始团队希望AMiner能够在他们手里发挥出更大的潜力。
2019年6月,智谱AI正式诞生。公司成立后,许多曾经在清华学习过的同学选择加入,有人甚至为此辞掉了国外顶级公司的工作。
在2020年的清华校友三创大赛中,智谱AI获得了TMT/AI大数据全球总决赛成长组第一名。通过大赛,团队与许多政界、投资界、创业界的清华校友产生了联系,并坚定了实现“让机器像人一样思考”的目标。
02.从阵痛到飞跃

回忆起多年来创业的历程,张鹏对阵痛和挫折记忆犹新。“尽管回头去看,这件事情还蛮简单的,但是这个探索的过程是非常艰苦的。”
“大模型”面向认知域,应用场景十分广泛。然而,“大模型”技术门槛高,其训练需要专业团队提供大量的算力支持,成本也很高,个人和团体通常难以负担。因此,将训练好的“大模型”作为服务推出,可以降低其使用成本,让科研成果惠及更多的企业和团队。
起初,“大模型”的研发者普遍追求数量,参数由千亿甚至到万亿,然而智谱AI则将目光放在算法的优化上,通过训练让它的性能更高效,同参数规模达成一定的平衡。限制规模的好处在于模型投入使用的时候对算力的消耗更小,即使是算力有限的场景,仍然可以成功使用大模型,这样就做到了让“大模型”更具普适性。
2022年,智谱AI联合清华大学打造了高精度双语千亿模型GLM-130B,构建了高精度通用知识图谱,形成数据与知识双轮驱动的认知引擎。在训练GLM-130B时,智谱的理想是世界上任何一个人都可以免费下载千亿模型,并在一台低配的GPU 服务器上就可以使用它。

在这期间,团队面临两个核心问题:一是缺乏高质量的预训练算法,针对双语的高质量预训练算法还有待验证和提升。二是缺乏快速推理方法,快速推理方法是保证模型能在低配GPU服务器上运行起来的基础,也是让每个人都能用得上千亿大模型的关键。
对于预训练模型架构算法,团队联合清华大学于2021 年提出了 GLM(General Language Model)算法框架,其在多个任务上表现出了不俗的性能。若GPT的原理可以被⽐作“根据上文做续写”,那么GLM的依据则从上⽂扩充到上下⽂,并可以同时完成续写和填空。理论上,GLM的训练效率会比GPT更高,也能理解更复杂的场景。经过几轮激烈的争论,团队最终决定训练一个 1300 亿参数的 GLM 模型。一来千亿稠密模型能保证高精度,另一方面这个规模还可以在一台 A100 服务器上就进行单机推理。整个训练过程横跨两个月,在此期间,团队开始考虑训练完成后的推理解决方案,并在一台 V100(32G * 8)服务器上实现了合理速度的 130B 模型推理。
在训练过程中,团队遇到了很多挑战,预训练一个高精度的千亿模型与训练百亿模型完全不同——频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间 TCP 拥塞,以及许多许多意外的 “bug”,最终这些问题被一一攻克。
随后,智谱AI将GLM-130B模型开源,放到了GitHub上,让模型更快服务于产业发展,并在公共平台上通过API的方式让所有人方便地使用大模型;同时,还为客户提供了很多具体的服务,比如提供大模型的授权产品并将其部署至客户内网,以及为客户设计大模型培训课程,实现“授人予渔”。
除此之外,智谱AI在算法上做了新的开发,使智谱大模型系列能够支持更多国产化的算力平台,并积极探索大模型的商业化应用路径,打造更具商业应用前景、更具易用性的开放性生态平台(https://open.bigmodel.cn)。
03.从冲击中突破
2020年5月,OpenAI发布了GPT-3,将预训练模型的参数规模推到了1000亿以上。模型表现出了超乎想象的智能水准,也激发了智谱AI对参数量的重视,坚定了他们投入更多资源和精力去做模型的决心。他们预感到,基于GPT-3这样一个优秀千亿基座的智能应用会迎来爆发。 2022年末,ChatGPT的发布传达给智谱AI一个明显的信号:预训练模型已经到了完全可使⽤且好⽤的阶段,是产品化很好的范例。
同行的启发、市场的期待、多年的积淀……智谱AI很快顺势推出了千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。在细分领域方面,团队打造了AIGC模型及产品矩阵,包括生成式AI 提效助手“智谱清言”、高效率代码模型CodeGeeX等。
今年6月,智谱AI将千亿模型ChatGLM升级到二代,效果大幅提升,模型支持的上下文长度扩展到32K,并大幅提高推理速度。基于基座模型能力的增强,AI提效助手“智谱清言”已具备更强大的性能,在多轮对话当中,作为一个“有知识、有记忆”的AI助手,其对上下文理解长度已从2K拓展至32K,储备了包括科学、技术、历史、文化、艺术、商业和其他垂直领域的丰富知识,以此保障用户人机对话体验,持续畅聊无压力。目前产品已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话、多模态生成等丰富能力。

“中国没有⾃⼰的预训练模型框架。⽆论是GPT、BERT,还是T5,都是西⽅的科学家提出的底层技术,路径是被西⽅垄断的状态。”智谱AI希望在完整的模型生态和全流程技术支持下,打破垄断局面,走出有中国特色的人工智能之路,通过认知大模型链接物理世界的亿级用户,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。
04.拥抱社会责任
清华大学的张钹院士率先提出了“第三代人工智能”,即认知智能的概念。在这一过程中,传统基建将向数字基建转化,数字底座建设完毕后,数字化成果将通过智能化凸显。“大模型”在其中扮演数字世界引擎和桥梁的角色,是机器与人交流的纽带。
中国人工智能发展具有两大核心优势:移动互联网普及带来的数据优势,以及庞大的网民数量带来的用户优势。同时,国家政策对人工智能产业发展给予高度重视,国务院印发的《新一代人工智能发展规划》中提出了我国人工智能发展的三步走战略,其中提到在2025年人工智能将成为带动我国产业升级和经济转型的主要动力,智能社会建设取得积极进展。
在社会服务方面,“大模型”有不可估量的价值。2022年北京冬奥会期间,智谱AI同清华大学、凌云光技术股份有限公司携手,在北京市残联和北京市聋人协会的帮助下,为北京电视台打造了专属手语数字主播,方便听障人士实时观看比赛盛况。
口语新闻主播的语速大概是两百字每分钟,但是手语一分钟最多只能打八十个字。数字手语主播的翻译速度不掉队,离不开“大模型”的帮助。利用“大模型”理解音频中的语义,再利用语义蒸馏模型和手语翻译模型,将语音转化为手语,最终通过3D驱动数字人的形象呈现出来,一个数字手语主播便活灵活现地出现在观众面前。GLM-130B的应用算力需求更少,从而降低了整个流程的成本。
据人口普查数据,我国共有2700万的听障人士,他们背后有庞大的家属群体,也有同他人交流的情感需求。借冬奥会这一契机,智谱AI实现了其他更普惠的成果。微信小程序上,可以搜到智谱AI开发的手语词典,除了听障人群,每个人都可以在上面学习标准化手语,打破交流的障蔽;手语数字人的应用场景也不只在媒体平台上,很多线下景区、博物馆、展览馆等都已经配备了智谱AI出品的手语解说,比如北京门头沟区的潭柘寺等。
肩负着建设智能社会的企业责任,智谱展望未来,希望在人工智能发展的里程碑事件中,将会出现更多中国人的身影。“我觉得在原创性、甚至是基础理论的突破上面,我们有这样的责任,去培养更多的人才,发挥人才的创新创业能力。这也是清华大学和三创大赛一直在做的事情。”


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有