【GET2024·春】商汤科技李斌：AI数字人赋能教育数字化的 “最后一公里”_

4月27-28日，芥末堆在北京举办以“中行独复，教育重构科技”为主题的GET2024春季教育科技大会。在4月27日下午的主论坛中，商汤科技数字文娱事业部高级产品总监李斌以《AI数字人赋能教育数字化的“最后一公里”》为题，介绍了商汤科技在过去十年中的积淀和近年来在大模型领域的领先实践和前沿成果，同时着重分享了教育行业的落地场景。李斌提到，商汤科技于近日举办了技术交流日活动，带来了全新升级的日日新SenseNova 5.0大模型，其综合能力全面对标GPT-4 Turbo；同时也开发和更新了多款产品的矩阵，包含商汤如影数字人，商汤如影希望通过数字人+大模型，赋能教育培训行业。

以下为演讲实录，经编辑：

拿到这个标题时，其实我们有点忐忑。什么是教育行业的“最后一公里”，什么是教育数字化的“最后一公里”？我想这不一定是有定论的。所以我问了一下商汤的大模型，看到它给出的答案（下图）之后，我们的心里也有了谱。

大家从第一句就可以看到，可以将知识更有效地传递至每一个学生，这是我们所谓的教育的“最后一公里”。如果从这个角度来看，AI技术的发展确实可以做到这一点，今天我也会跟大家分享一些具体案例。

首先介绍一下商汤科技，商汤科技有很多领先的人工智能相关算法技术的落地应用。我们的员工中，科研人员占比三分之二。公司已成立10年，我们已经在行业里取得了一些小小的成绩，在此不一一赘述。

现在看一家人工智能企业是否靠谱，核心指标是看算力。目前来说，商汤已经于2022年自建了亚洲规模最大之一的AI超算中心，这也是中国最大的基础设施之一。我们现在有4.5万张GPU卡。

算力也是人工智能大模型训练的保障。商汤的大模型叫做日日新，这个名称来自于“苟日新，日日新，又日新”。我们觉得它非常契合于人工智能行业当前日新月异的发展状态。

从技术演进角度来看，这一轮人工智能技术发展浪潮最关键的是深度学习。当前大模型爆发，正是源自产业界和学术界十几年来在不同领域对大模型深度学习的积累。有一个简单的比喻，如果RNN模型是蒸汽机，Transformer大模型就是内燃机，这是一个从量变到质变的过程。从小模型到大模型，变化的永远是规模和效率，不变的是深度学习这条路，这也是商汤科技坚持走了近十年的道路。

近期（2024年4月23日）我们发布了日日新5.0版，这个版本目前来说是中国首个同GPT-4 Turbo大模型进行对标的，现在有6000亿参数，我们增强了知识、数据和推理代码能力。在主流的一些客观评测标准上，我们基本上达到或超越了GPT-4 Turbo的水平。基于日日新大模型体系，我们也开发了多款产品矩阵，希望能够赋能各行各业。

介绍完商汤大模型能力，接下来重点跟大家介绍一下商汤如影数字人的能力。我们推出商汤如影数字人的愿景是希望将来每个人都可以拥有一个数字人，基于日日新的全站式AIGC数字人生成平台，产品目前主要具备了四大能力。

第一是AIGC数字人生成技术，大家看到的像口型驱动、面部表情、肢体动作自然度……这些都是通过AIGC数字人技术生成的；第二是语言大模型能力，也就是日日新大模型的能力；第三是语音大模型能力，我们非常重视这个方面，并且于今年4月发布了针对不同行业的语音大模型，包括教育行业、企业服务行业、电商行业优化等。第四是AIGC形象生成能力，通过“无中生有”可以使数字人使用规避一些版权问题。

这里是如影数字人整体解决方案的架构，从下往上看，大家可以看到我们涵盖了从基础设施到AI引擎，到如影平台，再到最终落地的场景，每个环节都完成了自研闭环。

我们最终交付给客户的产品有两个系列，用户可以使用SaaS产品，也就是通过App端或者外部端，用手机号就可以进行数字人平台注册；同时也可以通过PasS平台接口，对接更多B端客户进行合作；当然也支持一些项目定制。

这个是商汤在推动可信数字人行业标准建立上作出的一些贡献，我们深度参与了中国信息通信研究院（简称“中国信通院”）制定的可信数字人标准，它可以帮助客户避免形象盗用或一些形象版权问题，真正做到隐私保护和权责可追溯。而说到如影数字人具体如何制作，为什么会如此逼真？主要源于三个方面。

这里我想介绍一下，我们拥有非常精细的背景分割技术。数字人形象和声音克隆过程当中，难免会有一些比较细节的部分。现在可以细到什么程度？在商汤算法下的数字人背景分割可以做到发丝级别的处理。经过多年研究，我们发现数字人的实现过程中，核心都是细节，细节堆叠越多、处理越好，用户的感受才能更加真实。另外，我们今年计划重点提升语言和动作的匹配，使数字人可以有更丰富的情绪表达。

接下来，我们一起来看看教育行业相关的应用案例，也希望收获更多来自大家的反馈。

场景一，让课程视频制作更快更便捷。如果有了数字人形象并在此基础上添加大模型生成的文本，就可以快速生成教师的课件。同时我们也配置了相应的海量模板，如果老师有自己的课件，便可以通过上传课件快速生成自己的数字人视频课程。这个场景已经在落地了，而且力度非常大。

场景二，轻松制作名师推广视频。我们会和一些教育行业的客户合作做一些营销类视频，我认为现在教育行业获客的成本还是蛮高的，如果客户有自己数字人的形象，也可以快速生成一些名师推广视频。

场景三，名师AI直播永不下线。AI直播课程现在也非常多，在这个领域我们大概能提供这几个优势：首先是不间断授课；其次是更高效地开课；第三是教师矩阵管理；第四是我们目前已经同商汤如影和日日新大模型整合实现了实时师生互动，这非常关键；当然我们也支持多语言和助教模式，包括主讲教师和助教老师同时在线的直播效果。

具体介绍一下直播互动功能，直播互动功能有四种，这四种功能都是和各个直播平台打通的。第一是助教接管，可在直播过程中随时接管数字人，使用麦克风口播驱动数字人直播实时回答用户的问题；第二是弹幕互动，我们支持抓取直播间弹幕，数字人可以自动回答弹幕问题；第三是事件互动，数字人可以依据课堂直播间人数、直播间评论数等直播间事件触发互动；第四是定时互动，可实现定时随机在直播间插入互动。

第四个场景是一对一专属助教在线答疑解惑，第五是外语口语教学一对一陪练。

现阶段外语教学陪练是大模型和数字人相结合的一个非常前沿的领域。这其中最关键的是要做到快速响应，也正是因为数字人产品体系和商汤日日新产品体系的打通，才能实现快速反馈的效果，目前可以做到2-3秒，比较接近于和真人互动的感觉。场景六是3D数字人和元宇宙让课堂更多样，使课堂氛围更加活跃。

以上是我今天的分享内容，非常希望将来能和大家有更多合作，欢迎交流！