“能听会说”的多模态大模型加速落地 AI应用场景迎来爆发_

本报记者吴清北京报道

AI大模型热潮从2024年延续到了2025年，人与 AI 的实时音视频互动正在走进现实。

自GPT-4o发布以来，实时多模态成为国内外大模型厂商发力的新方向，早在2024年5月，OpenAI发布GPT-4o时就已开始深度探索端到端的实时多模态大模型能力。微软 AI CEO Mustafa Suleyman近期表示，2024年年底，微软的AI会拥有实时的语音界面，允许完全动态的交互。

GPT-4o支持实时语音对话，一方面得益于自身大模型能力的进化，大模型能直接处理语音，这与传统的三步骤处理方法（语音识别、语音转文字、文字转语音）相比，响应更加及时。另一方面，通过应用RTE（实时互动）技术，实现了语音的实时传输，进一步降低了语音交互的延时，RTE也成为人与AI交互的重要一环。

业内人士认为，随着技术逐渐成熟，AI开始步入实用落地阶段。当下，AI基础设施正在成为新的焦点，而“实时互动”则是一个“能听会看”的AI必不可少的能力。

提到实时音视频，就无法绕过国内实时互动领域的头部公司——声网。事实上，OpenAI在2024年10月份开发者日上公布的语音API合作者中，声网的兄弟公司Agora就名列其中，Agora 聚焦美国和国际市场。而微软实时语音界面的背后也有声网的身影。

在AI浪潮下，RTE行业风云再起。哪些新场景有望迎来爆发？哪些应用将实现巨量增长？“AI+RTE”又将如何颠覆我们在日常生活和工作中习以为常的认知和习惯？一个实时互动的智能化时代会是怎样的？成为2025年开年行业各界关注热议的一个话题。

实时语音互动：多模态大模型交互的终极形态

现实中人与人的沟通就是以语音为主，视觉其次，视觉的重要性在于信息的丰富度，但是信息浓度和沟通效率还得靠语音。多模态大模型的出现，推动了人与AI交互方式的变革，而语音多模态将是其中的必经之路。

但多模态大模型实时语音对话想要落地，面临着一系列的技术难点。首先，对于大模型厂商而言，具备端到端实时语音处理的能力很关键，但端到端模型的训练成本很高，尤其是处理语音与视频数据，面临大量计算资源，而计算过程往往会造成延迟，实时交互面临挑战。

同时，多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验也很关键。在GPT-4o的发布会上有一个细节，演示GPT-4o的手机插着一根网线，工程师Mark解释此举是为了保持网络的一致性。这也反映了一个事实：GPT-4o的演示是在固定设备、固定网络环境下进行的，以确保低延时。而在实际应用场景中，用户的设备通常无法一直插着网线，这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

声网在实践中发现，传统的三步骤（STT-LLM-TTS）在应用RTC（实时音视频）后，响应延时可从4—5秒降低到1—2秒，而在具备端到端实时多模态处理能力后，通过 RTC 技术，大模型实时语音对话的延时可降到几百毫秒内。

从体验上看，RTC技术的应用让对话式大模型的交互更智能，更具真实感。一方面，低延时的快速响应让人与AI的互动更接近人与人之间的实时对话，更自然。另一方面，语音还能识别说话人的情绪、语调，视频能识别人的表情与所处的环境，最终输出更精准、更智能的回答。

可以预见，未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革，语音将是必须走过的进化，实时语音互动也将成为未来对话式多模态大模型交互的终极形态。

在GenAI（生成式人工智能）时代，RTE与AI Agent有什么关系？声网COO刘斌首先分享了两个事件，其一，Agora作为语音 API 合作者出现在OpenAI发布的Real-time API公开测试版中。其二，2024年10月底的 RTE2024实时互联网大会中，声网也宣布与MiniMax正在打磨国内首个Realtime API。通过这两个事件反映出当下大模型的交互正在走向实时多模态。

说到RTC向RTE的进化，刘斌表示，我们是RTE行业引领者，其实最早是RTC技术，这个E和C的变化在哪儿？C是指原本我们通过互联网建立通讯网络，使用的技术已经很好。E的含义是让外部环境更加沉浸式。而AI的出现恰恰帮助我们实现更快发展。

“声网网络覆盖全球200多个国家和地区，通过我们的SDK（软件开发工具包），用户可在任何地方与世界各地的人进行实时互动，信号将经由我们的网络传递。”刘斌表示，无论用户的接入点是5G、4G、Wi-Fi还是3G，无论用户所在地的网络当时是好还是坏，我们可以保证其在各种情况下延时不超过400毫秒，保证最后的实时音视频体验是好的。

谈到与声网合作的契机，微软大中华区副总裁、数字原生事业部总经理田灼告诉记者，微软与OpenAI的合作以及在大模型市场上的考量，为声网与微软之间的商业合作奠定了基础。我们计划建立一个生态圈，目的是帮助企业和开发者降低开发成本，缩短开发周期，提升开发质量。从解决方案层面来看，这是一个完美的互补合作。微软关注大模型质量，从技术核心交付到用户手上，在这个过程中涉及再开发，例如声网关注的音视频领域，无论是加速优化、降低成本、传输“最后一公里”。这样做，用户体验会迅速提升。

据悉，在GenAI的浪潮下，实时多模态成为大势所趋，声网作为全球实时互动云行业的开创者，在音视频领域积累了深厚的技术优势与场景实践，通过将RTE与生成式AI结合，推出了声网Conversational AI Agents，该方案以语音为核心，支持视频扩展，实现文本/音频/图像/视频的组合输入与输出，具备500ms超低延时、对话更自然拟真、框架灵活可拓展等一系列特性，帮助开发者与企业快速构建适配自己业务场景的AI实时语音对话服务。“正如声网愿景所说：让实时互动像空气和水一样，无处不在。”刘斌说。

对话式多模态大模型推动AI应用场景爆发

随着多模态大模型能力的进化，AIGC应用场景将迎来爆发。RTE技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI 交互体验进一步升级，学生的学习效率更高，社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的AI智能助手用户数据报告显示，截至2024年8月国内市场的AI智能助手App已超过64款。在 AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

而目前多模态大模型在智能硬件场景的落地主要以智能眼镜、智能手表、智能耳机等穿戴式设备为主，在生成式AI的趋势下，还出现了智能陪伴机器人、智能儿童毛绒玩具、智能戒指等一系列场景，带来不同硬件终端下的AI语音交互体验。

据悉，目前，声网已与国内外多家AI厂商展开了合作，借助Conversational AI Agents 帮助客户实现了对话式AI 在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景的落地。例如虚拟陪伴场景，通过AI虚拟伴侣，在社交陪聊、亲情陪伴、游戏 NPC等场景中提供7x24h时刻在线服务，可自定义人设、声音、形象等模拟真人声音及情感，为用户提供情感支持、心理慰藉以及陪伴。

在2024年10月底举办的第十届实时互联网大会上，声网正式发布了RTE+AI能力全景图，从实时AI基础设施、RTE+AI生态能力、声网AI Agent、Conversational AI Agents解决方案、RTE+AI应用场景五个维度，清晰呈现了当下RTE与AI相结合的技术能力、架构方案与应用场景。“RTE与生成式AI结合所带来的场景创新，也将成为下一个十年的主题。”声网创始人兼CEO赵斌表示。

过去十年，大家熟知的互联网风口也有很多离不开RTE能力的赋能和参与。社交泛娱乐、在线教育等行业的创业风口，电商直播对电商行业格局的改变等等，其中很多都和实时互动能力的使用和进化有着不可分割的关系。如今，在大模型和生成式 AI 时代，也将伴随 RTE 能力的辅助与赋能走向成熟和应用。

刘斌认为，在实时多模态的趋势下，RTE的演进将助力AI Agent应用落地。大模型也从理解内容，变成理解对话人的心理、情绪，最终理解对话时的人类意图，最后实现从“听得懂”到“听懂心”的体验革新。

“持续在音视频领域深耕是我们的立命之本。本质上我们立足于根本，同时拥抱AI相关的演进和变化，推出具有核心价值的产品和服务。”刘斌表示，AI的技术发展让我们在行业中也会讨论未来人机交互界面的改变。从我们内部来看，这也是一个全新的业态和机会。

（编辑：张靖超审核：李正豪校对：翟军）