腾讯吴运声：大模型训练正在简化，一张照片就能生成数智人_

7月5日，在2024世界人工智能大会腾讯论坛上，腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声发表主题演讲。在他看来，模型落地、实用为先，大模型的研发、应用必须关注、解决具体业务场景，必须关注可用性和性价比。

吴运声认为，今天的大模型技术正在往多模态、零样本学习、3D和视频生成等方向快速演进，通过增强技术融合、简化模型训练流程、提供更加沉浸式体验等方式，加速AI技术的普惠。吴运声认为，大模型的打造只是起点，把技术落地到产业场景、创造价值才是目标。

“通过自主技术创新，腾讯持续推动AI研究和应用落地。”吴运声介绍，在模型底座方面，目前腾讯混元大模型参数量已达万亿，Tokens数量超过7万亿，居国内大模型第一梯队。此外，模型单日调用Tokens已达千亿级别，单日调用次数超3亿，并在腾讯云上全新开放混元lite 256k版本、vision多模态版本，以及代码生成、角色扮演、functioncall等子模型和接口，满足不同企业和开发者的需求。

基于夯实的底层能力，同时面对企业在应用大模型技术时所需的降低使用门槛、提高平台适配性、保障安全合规等核心诉求，腾讯云全新升级大模型知识引擎、图像创作引擎、视频创作引擎，进一步简化数据工程、模型精调、应用开发的流程，使企业能够更高效、简单地将大模型能力应用于生产、销售和服务等场景。

值得一提的是，伴随着大模型技术的发展，AI数字人、AI助理等AI智能体也日益升温。包括腾讯在内，一些国内企业也进行了AI数智人的相关产业布局。吴运声对观察者网表示，在文旅、直播、教育等各个行业，数智人都取得了非常多的应用，大模型的发展也正在给数智人带来一些新亮点。

例如，前端的数智人和后端的知识引擎相结合，让数智人可以根据实际产品的需要，去调用不同的专业知识。人们打造一个数智人营养师，也可以利用数智人技术去打造一个保险经理……技术的发展会带来很多有趣的东西。

据了解，目前腾讯在大模型领域已经构建了一套全链路产品矩阵，涵盖从底层丰富基础设施到顶层多元智能应用。包括自研通用大模型、模型开发平台、智能体开发平台，以及针对不同场景定制的智能应用解决方案等。通过这些产品和方案，致力于助力企业客户高效地将大模型技术应用到实际业务场景中，实现快速部署和价值创造。

以下为本次演讲全文：

尊敬的各位嘉宾、媒体朋友们，大家好，欢迎来到腾讯论坛！

我是腾讯的吴运声，今天我想和大家分享下大模型等技术的发展，以及如何更快、更好地普惠给更多人。

作为国内规格最高、影响力最大的技术盛会，世界人工智能大会已经连续举办七届，很多新的技术趋势、创新方案、产业成果在这里发布，已经成为人工智能技术发展的风向标。

接下来，我将从技术的发展、模型的迭代、工具的优化以及场景的落地四个层面来分享下我们的一些思考和实践。

在技术的发展这块，有三个趋势想和大家分享一下。

过去一段时间，大模型的发展，将人工智能技术推到了一个新的制高点。但在实际落地中，我们发现，虽然单模态技术在某些场景下表现良好，但通过引入多模态能力，我们能够扩展其应用范围，使其在更广泛的场景中同样表现出色。

比如在识别和交互上，多模态大模型通过结合视觉与语言理解等能力，有效突破了此前的局限，实现了更精准的语义分析和全面的原因归因。在实际场景中，这种技术能够处理多样化的用户输入，如文字、图片等，尤其在汽车助手等企业知识服务等领域，提供了更深入的图像内容理解和更高质量的交互体验。

其次，在学习范式方面，传统模型训练受限于任务独立性，和对大量标注数据的依赖，而通过零样本/小样本学习能够很好地解决这类问题，简化研发流程并加速AI技术的普惠。

举个例子，以前我们如果想要生成一个数智人，必须录制一段视频，做一些高定制化的工作才能得以实现。而今天，利用zero-shot生成技术，仅需一张照片，无需任何定制，就可以得到一个栩栩如生的数智人。

而这个技术应用到工业质检等场景中，通过一个缺陷词汇提示或一张缺陷图片提示，即可实现缺陷质检，能够大大提高检测效率和准确性。比如，我们为某龙头新能源企业提供电池自动检测机，解决质检难题。项目上线后，显著提高了产品检测能力，大大降低了该用户的企业运营成本。

第三，在内容呈现方面，随着3D生成和视频生成技术的不断发展，用户可以获得更加沉浸式的体验。

比如，3D生成技术通过模型不断自学习，不再依赖人工调参，能够打破传统物理仿真的局限性，显著提升生成内容的速度和质量。更丰富的3D生成内容能够为用户带来更加生动和真实的沉浸式体验，比如单图3D头像生成等能力，能够广泛应用于电影动画、增强现实、虚拟现实和视频游戏等领域。

与此同时，视频生成技术也在不断进化，生成时长大幅增加的同时，品质也得到了有效提升。比如，我们联合《人民日报》打造的原创视频《珍AI地球》，生成的视频内容真实、精细，在内容理解、逻辑推理和画面生成等方面表现都很不错。

底层技术的不断探索，也让我们的模型不断进化。去年9月，腾讯发布了全链路自研的腾讯混元大模型。目前，腾讯混元大模型已经实现了较大的升级，架构也从稠密模型转为MoE（混合专家模型），模型参数达到万亿级别，预训练语料超过7万亿tokens。综合算力、工程和算法上的自研创新，腾讯混元大模型已经稳居国内大模型第一梯队。混元的生图、生视频、生3D等多模态能力也处于业界领先地位。

目前，腾讯混元大模型的单日调用Tokens已经达到千亿级别。此前，我们也在腾讯云上开放了括混元-pro、混元-standard、混元-lite和混元standard 256k版本。

接下来，我们的混元-lite 256k版本以及vision多模态版本也会跟大家见面。同时，我们也将陆续上线代码生成、角色扮演、functioncall等子模型和接口，满足不同企业和开发者的需求。

具体到模型工具产品方面，大模型的研发、应用必须关注、解决具体业务场景，必须关注可用性和性价比。今年5月，我们推出了3个大模型PaaS产品：知识引擎、图像创作引擎和视频创作引擎，希望能够简化数据工程和模型精调流程，帮助企业快速、轻松打造AI原生应用。

经过两个月时间的迭代，我们的这三款模型产品也进行了全新的能力提升。

首先是知识引擎，基于LLM+ RAG框架，我们发布了全新的多模态检索能力，升级支持图文互搜、以图搜图，能够结合知识库中检索返回的图文片段，给出图文并茂的答案。

同时，我们进一步扩展了企业知识类型覆盖面，升级了泛BI对话式数据问答体验，支持超大表格、多表场景的多步骤推理、多条件筛选、求和计算，可扩展支持对接客户主流数据库。

图像创作引擎这里，我们基于腾讯混元模型底座，实现了业界领先的AI图像生成和编辑能力。我们的图像风格目前已经新增到33种，并推出了专用于头像的生成模式，让生成的风格化头像既能保留个人相貌特色，又融入了多元艺术风格特征。同时还新增了商品背景生成、模特换装和创意换装等接口，大幅降低了营销和影视行业的制作成本。

而视频创作引擎这一次也进行了全新升级，带来了不少好用、实用的功能体验。首先，我们新增了超过20种热门舞蹈动作，利用先进的3D建模技术和背部生成技术，使得图片中的角色能够非常流畅地进行转身舞蹈，甚至支持多人舞蹈的复杂编排，这在行业内属于首创。

其次，我们的视频风格化功能借助面部增强技术，能够逼真还原面部细节与表情，这在行业里也是比较领先的。另外，我们的视频转译功能接入混元文生文大模型和TTS技术，也能大幅提升转译后音频的自然度、相似度和语速效果。这些能力的升级既能增强视频创作多样性和表现力，也能为创作者拓展更大的创意空间。

同时，为了帮助企业用户更便捷地打造专属的模型应用，我们的机器学习平台TI平台也进行了全新升级。

首先，我们内置了开源可扩展的数据构建pipeline，能够帮助开发者高效进行数据准备。另外，我们还全面提升了数据标注能力，首创了基于Schema的标注方法，专为LLM和多模态大模型设计，非常灵活、好用。

平台的精调训练模块以易用、稳定和高效为核心，内置多款主流大模型，支持一键启动精调，并通过三层稳定机制及自研Angel框架，确保大规模训练的连续性和性能提升。此外，我们还采用三阶段模型评测流程，包括轻量体验、客观评测和主观评测，确保模型训练的精准性和真实反馈。

通过混元大模型底座、TI平台、知识引擎等工具、产品的不断迭代与发展，目前我们能够围绕办公协同、知识管理、智能客服、营销等全场景，为产业用户提供全链路模型服务，帮助他们真正实现提质增效和转型升级。

比如，我们将知识引擎的能力应用于企点客服大模型文本机器人。在面向账单查询、退换货这类复杂任务时，大模型机器人配置成本，相较传统文本机器人减少50%。

再比如，腾讯乐享是服务于企业内部的知识学习协作平台，为企业提供知识管理、学习培训、文化建设等服务，目前已经服务了超过30万家客户，用户超过1亿。在结合腾讯自研大模型和知识引擎后，乐享实现了两大场景的关键革新。

围绕“知识生产端”，乐享结合大模型知识引擎，升级了“智能写作”能力，一句话就让AI帮你完成写作。“智能生成”，可以让AI自动生成知识点、生成考题，解决了培训部门不懂业务、业务部门不懂培训的难题，提升培训效率。

围绕“知识消费端“，还推出”智能问答“，无需训练即可让AI回答内部业务知识，大幅提升知识获取效率，又继承了每个文档的细分权限，做到千人千面的问答。比如，一个拥有薪酬权限的员工问“薪酬怎么算”，AI会给出详细回答，一个没有权限的员工问，AI则回答“抱歉，不清楚”。

在产业落地方面，本着优势互补的原则，我们和上海市数字医学创新中心开展合作，共研医学大模型，目前在瑞金医院实现了总检报告和电子病历生成等相关项目的落地应用。以体检报告生成为例，平均每5秒即可自动生成一份总检报告，为医生节约50%+的撰写时间。

在文娱行业，阅文集团已经应用大模型文生文能力，为作家提供AI辅助写作能力，包括描写灵感、大纲提取和角色提取等；应用大模型文生图能力，用于连载书插图制作等内容。

但与此同时，他们也遇到了一些模型应用难题，一来算法和工程团队精力有限，模型数量多迭代快，自行搭建推理集群和服务平台，模型更新复杂；二来推理成本高昂，推理速度已达瓶颈，千百亿级别模型推理部署，推理吞吐和时延存在瓶颈。

而通过腾讯云TI平台的应用，在模型训练方面，有效降低了训练配置难度。以前更多是通过编写代码等复杂配置去提交对应训练任务，做任务管理；现在只需要在TI平台上做一些点选的工作，就可以快速开启训练任务；在模型推理方面，通过我们的平台加速框架，帮助阅文实现了在相同资源条件下，内容产出的速度变得更快；另外，平台还提供了直观的监控和管理工具，帮助客户轻松管理任务和资源。

产业落地之外，我们也看到大模型在科学计算、文化研究方面的价值。2021年，我们联合国家天文台，发起了“探星计划”，我们希望通过人工智能技术，提升天文发现和科研的效率。

截至目前，通过我们的AI技术助力，从巡天观测数据中发现了3颗快速射电暴、41颗脉冲星。快速射电暴是目前天文界研究热点，相比脉冲星，快速射电暴因发现时间晚、AI训练数据少、出现频率低，发现难度相比脉冲星要大很多。为此，我们团队通过设计全新的端到端AI算法，引入多示例学习和大模型注意力机制，显著提升了模型精度和数据处理速度。

在文化领域，此前我们与内外部多个部门携手合作，将文字检测、摹本生成、字形匹配等多种AI算法，综合应用于甲骨文研究。今天，我也宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本，以及甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。

基于该数据集，研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法，助推甲骨文研究加速数字化和智能化。

最后，无论是产业落地还是科学、文化探索，AI大模型技术的发展离不开产业链协同和生态共建。后续，我也希望能够与更多同行者一道，推进科技赋能与产业创新，共创、共建、共享智能美好未来，谢谢大家。

本文系观察者网独家稿件，未经授权，不得转载。