专访声网教育行业负责人钱奋：实时音视频与AI结合如何赋能教育创新_

声网教育行业负责人钱奋

大模型的角逐越来越激烈，纵观大模型竞技场上的选手，基本都是大厂。原因不难理解，大厂有充足的研发人才和资源，“弹药”更充足。

在教育领域也是如此，在芥末堆主办的GET2024·春大会上，学而思技术总监、MathGPT负责人白锦峰分享道，学而思做数学大模型的原因之一是，公司的技术研发和教研人员超3000人，研发经费也很高。“只有资源的大规模投入，才能保证将来的产出。”

这是否意味着没有那么多研发资源的中小企业要在大模型的赛道上掉队？作为底层实时音视频技术服务商，声网已经着手解决这个难题。

同时，近期多家教育企业相继更新升级自家的学习机，智能教育硬件渐入AI时代，全面覆盖启蒙益智、自主辅学、学业提升等教学需求。一来一回对话、与家长进行音视频沟通，都是学生与学习机的互动场景，这也是声网能够充分发挥自己优势的领域。

紧跟教育行业的这些热点与趋势，声网在GET大会·声网教育沙龙专场，发布「RTC+AI教育超级双擎解决方案」。据介绍，该解决方案旨在帮助开发者，通过这两个引擎驱动在线教育模式、场景、体验的创新与升级。

一直深耕音视频互动领域的声网为什么要将RTC和大热的AI相结合？双擎都带来哪些新功能？将如何帮助教育客户？

带着这些疑问，芥末堆向声网教育行业负责人钱奋寻求答案。

为什么将RTC与AI相结合？

RTC（Real-Time Communication）是实时音视频，是线上教学不可或缺的基础设施；AI是近几年大火的人工智能技术，正在越来越广泛地应用于教育领域。声网为什么要将两种技术结合起来？

有需求，才有解决方案。一方面随着GPT-4o、Astra等大模型的发布，RTC已慢慢成为大模型的关键能力，另一方面，在与教育客户的直接且深度的沟通过程中，声网感知到了最新的变化。

在实时音视频领域，声网当之无愧是佼佼者。数据显示，在全球集成RTC能力的App中，50%以上都使用了声网的技术，其中不仅有教育领域，还包括娱乐等领域。声网的教育客户中不乏国内外知名企业。

近两年，声网发现，新老客户开始慢慢回归线上大班课。究其原因，大班课是教学经济效益和体验效益最好的模型，处在办学效益和学习效果综合的平衡点上。然而，虽然客户的预算变少了，但对效果的要求并没有降低。他们既要大班课模式，又要小班课甚至1对1的教学体验，简而言之，既要花钱少，又要效果好，这无疑对声网提出了更高的要求。

声网观察到的另一个趋势是，智能教育硬件正在快速兴起。根据IDC的数据，教育硬件以每年30%的增长率保持增长，学习机和辞典笔几乎成为现在学生的标配。

另外，声网发现，客户对教育工具的要求和关注重点正在回到课堂上，课堂互动效果更受重视，比如老师的声音能不能很轻松地传递到后排，噪音能否有效去除。

与此同时，生成式AI在教育领域的应用越来越普遍，很多厂商已经推出了AI概念的相关教学工具，包括AI教学陪练、教学和学情分析、备课等等。声网相信自己在这个方向也可以有所作为。

站在当下这个节点，声网在思考：从2014年创业以来，声网已经为50%以上线上互动的教育机构提供音视频服务。未来5至10年，声网还应该为教育行业做些什么？

声网思考的结果是继续为线上线下教学客户提供更优质的音视频体验，在追求体验提升的基础上，还要兼顾服务成本、办学效益。这也是为什么声网推出RTC+AI的教育双引擎的概念。声网希望，在双擎的驱动下，教育创新的这辆汽车将行驶得更快。

双引擎如何拉动教育创新？

RTC：支持多维直播，与主流学习机适配

据介绍，声网在RTC方面主要升级了在线课堂教学体验，包括超强互动、多维直播、丝滑流畅、教育硬件适配等新功能。

「丝滑流畅」自不必说，声网的实时音视频技术一直在追求实现超低延迟秒接入，此次的升级使体验更优化，能确保每一堂课 0干扰、无卡顿。·

「超强互动」体现在技术和场景工具两个方面。技术层面，新解决方案让师生互动的延迟变得更加无感知；场景工具层面，仅仅是面对面的沟通还不够，还需要一些工具来促进实时课堂的参与度，学生可随时通过上麦、弹幕、文字消息与老师问答沟通，还能使用互动教学组件，包括抢红包、抢答、投票等。

「多维直播」这个功能引发了芥末堆的好奇。声网在介绍中提到，“「多维直播」支持实时直播和录像直播两种教学模式，录像直播（伪直播）也能达到实时直播的教学效果；支持超级小班课模式，分组学习与线上双师，打造‘大班课堂，小班体验’”。

为什么录播还要追求实时直播的效果？这种效果又是如何实现的？

钱奋解释道，“双减”后，教育公司为了节约成本，会录制好课程再上传到线上给学员观看，这种情况在职教领域比较常见，因为成人可以自由把控自己的学习时间。具体功能上，「多维直播」支持客户定制服务，比如学生看录播课的时候，中间会跳出一道题目，答完题才能进入下面的环节。

在K12领域同样有这样的情况。比如，直播课的时间与学生的时间相冲突，通过「多维直播」，学生和家长可以选择自己合适的时间来上录播课，但能有直播的体验。虽然是录播课，但在声网技术的加持下，老师也会提问，还有积分和发红包环节。而且“伪直播”课并不是随时都可以上，可以规定学生必须在某个时间段完成，比如这堂课是7:00-9:00，可以设置9点以后就不能打开。所以，对孩子来说，这就是在直播。声网的技术也支持让学生进入课堂之后自动分组，虽然对机构来说是大班课，但是学生的感受却是小班课。

针对教育企业纷纷推出的学习机，声网基于自己的优势，也对学习机做了适配。因为学生除了可以通过学习机学习内容，还能观看直播课、进行家校沟通、家长伴学，这些场景都需要实时音视频技术的支持。

目前，声网的解决方案全面适配市面上主流的学习机品牌，其优势在于低端机型性能优化，低内存占用，极小包体、超低功耗，还支持全平台入口加入课堂，行业内率先适配鸿蒙HarmonyOS NEXT。

乍一看，声网与学习机似乎没有关联，其实不然。“我们疫情前就开始做了，之前字节跳动的大力台灯也采用了声网整体的方案，所以声网对学习机的适配能力已经非常成熟了。”

关于如何将声网的解决方案与学习机集成，钱奋介绍，硬件出厂的时候声网就会把SDK嵌入进去，非常方便。

AI：让课堂更沉浸，用大模型提升教学成效

AI这个引擎带动的是AI沉浸课堂的打造和大模型辅助教学。

在处理音频方面，声网的智慧教室音频（3A）解决方案具备AI降噪、AI去混响、AI回声消除等能力，能让课堂变得更加沉浸，深度还原线下教室的上课体验。

钱奋提到，声网的技术路线是从“连线”到“在线”再到“在场”，目前处于“在线”的阶段，会继续朝着“在场”前进。

2024年大模型应用大爆发，教育领域更是不断被重塑，AI大模型与教育的结合已是大势所趋。声网了解到，很多客户想尝试大模型，比如说AI Tutor，这些场景与音视频强相关，是声网擅长的方向。

目前，市面上的一些语音助手的技术逻辑是把听到的语音转换成文字，使用文字回答后再转换成语音回复给用户，因此这类语音助手无法听出语音中包含的情绪，存在延迟较高的问题。

OpenAI发布会上，用户演示与GPT-4o的实时语音对话

OpenAI最新发布的GPT-4o让语音视频的交互能力再上一个台阶，用大模型进行更具真实感与沉浸感的实时语音正在成为现实，平均延时低至几百毫秒，这无疑为包括声网在内的RTC行业带来很大的市场机遇，未来借助低延时、高音质的RTC技术，有望打造更极致的人与AI交互体验。据了解，声网也在利用新技术，研发更像真人的AI口语老师，不久将面世。

同时，声网的技术还支持数字人AI助教，能实现7*24 小时的全天候陪伴辅导，随时随地答疑学生的课后难题。

头部厂商都在用，对中小企业更友好

声网发布「RTC+AI教育超级双擎解决方案」并不是一时兴起，从一年前就已经开始布局。

钱奋表示：“实时音视频与AI结合，我们一直在做，但需要一些客户来验证，经过验证后，我们认为这个方案是成熟的，所以现在才发布。”

作为底层技术服务商，声网的解决方案通常适用于各种规模的教育客户，目前该解决方案的客户包括多家头部厂商，也有不少的中小企业。声网观察到，大企业和中小企业的需求有所不同。

钱奋解释道，“考虑到自己的品牌和业务，大企业的需求会更定制化；中小企业可以直接用我们的解决方案，他们可以在跑通之后再做更多的定制化，投入更多资源。”

“我觉得这套解决方案对中小客户更友好，因为不需要投很多的研发资源，也不需要那么长的研发周期。研发资源就是成本，研发周期是决定一家企业有没有可能活下来的一个很重要的因素。”他说。

声网主要为客户提供完整的技术能力，聚焦稳定性、定制性和简易性几大原则。钱奋表示，声网既为客户提供声网研发的模型，也提供市面上的通用大模型，由客户自主选择。“如果客户认为通用大模型够用，就不用再多加训练；如果客户希望做得更好，更垂直，还是需要用自己的数据进行训练。”

“我们未来也可能会推出聚焦教育的小模型，小模型的体积包更小，更方便教育客户接入。”钱奋透露。

今年是声网成立十周年。截至目前，声网在全球的活跃应用数已经超过74万，全球数据中心超过250，单月通话分钟数超过600亿。这些数字还在持续增长。

能有如此成就，得益于声网一直以来对市场动向的洞察，以及在技术能力上的深耕。此次发布的「RTC+AI教育超级双擎解决方案」标志着，声网在助力教育创新的道路上，往前又迈了一步。