“能听会说”的多模态大模型加速落地 AI应用场景迎来爆发

“能听会说”的多模态大模型加速落地 AI应用场景迎来爆发
2025年01月08日 17:27 中国经营报

本报记者 吴清 北京报道

AI大模型热潮从2024年延续到了2025年,人与 AI 的实时音视频互动正在走进现实。

自GPT-4o发布以来,实时多模态成为国内外大模型厂商发力的新方向,早在2024年5月,OpenAI发布GPT-4o时就已开始深度探索端到端的实时多模态大模型能力。微软 AI CEO Mustafa Suleyman近期表示,2024年年底,微软的AI会拥有实时的语音界面,允许完全动态的交互。

GPT-4o支持实时语音对话,一方面得益于自身大模型能力的进化,大模型能直接处理语音,这与传统的三步骤处理方法(语音识别、语音转文字、文字转语音)相比,响应更加及时。另一方面,通过应用RTE(实时互动)技术,实现了语音的实时传输,进一步降低了语音交互的延时,RTE也成为人与AI交互的重要一环。

业内人士认为,随着技术逐渐成熟,AI开始步入实用落地阶段。当下,AI基础设施正在成为新的焦点,而“实时互动”则是一个“能听会看”的AI必不可少的能力。

提到实时音视频,就无法绕过国内实时互动领域的头部公司——声网。事实上,OpenAI在2024年10月份开发者日上公布的语音API合作者中,声网的兄弟公司Agora就名列其中,Agora 聚焦美国和国际市场。而微软实时语音界面的背后也有声网的身影。

在AI浪潮下,RTE行业风云再起。哪些新场景有望迎来爆发?哪些应用将实现巨量增长?“AI+RTE”又将如何颠覆我们在日常生活和工作中习以为常的认知和习惯?一个实时互动的智能化时代会是怎样的?成为2025年开年行业各界关注热议的一个话题。

实时语音互动:多模态大模型交互的终极形态

现实中人与人的沟通就是以语音为主,视觉其次,视觉的重要性在于信息的丰富度,但是信息浓度和沟通效率还得靠语音。多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。

但多模态大模型实时语音对话想要落地,面临着一系列的技术难点。首先,对于大模型厂商而言,具备端到端实时语音处理的能力很关键,但端到端模型的训练成本很高,尤其是处理语音与视频数据,面临大量计算资源,而计算过程往往会造成延迟,实时交互面临挑战。

同时,多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验也很关键。在GPT-4o的发布会上有一个细节,演示GPT-4o的手机插着一根网线,工程师Mark解释此举是为了保持网络的一致性。这也反映了一个事实:GPT-4o的演示是在固定设备、固定网络环境下进行的,以确保低延时。而在实际应用场景中,用户的设备通常无法一直插着网线,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

声网在实践中发现,传统的三步骤(STT-LLM-TTS)在应用RTC(实时音视频)后,响应延时可从4—5秒降低到1—2秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。

从体验上看,RTC技术的应用让对话式大模型的交互更智能,更具真实感。一方面,低延时的快速响应让人与AI的互动更接近人与人之间的实时对话,更自然。另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。

可以预见,未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化,实时语音互动也将成为未来对话式多模态大模型交互的终极形态。

在GenAI(生成式人工智能)时代,RTE与AI Agent有什么关系?声网COO刘斌首先分享了两个事件,其一,Agora作为语音 API 合作者出现在OpenAI发布的Real-time API公开测试版中。其二,2024年10月底的 RTE2024实时互联网大会中,声网也宣布与MiniMax正在打磨国内首个Realtime API。通过这两个事件反映出当下大模型的交互正在走向实时多模态。

说到RTC向RTE的进化,刘斌表示,我们是RTE行业引领者,其实最早是RTC技术,这个E和C的变化在哪儿?C是指原本我们通过互联网建立通讯网络,使用的技术已经很好。E的含义是让外部环境更加沉浸式。而AI的出现恰恰帮助我们实现更快发展。

“声网网络覆盖全球200多个国家和地区,通过我们的SDK(软件开发工具包),用户可在任何地方与世界各地的人进行实时互动,信号将经由我们的网络传递。”刘斌表示,无论用户的接入点是5G、4G、Wi-Fi还是3G,无论用户所在地的网络当时是好还是坏,我们可以保证其在各种情况下延时不超过400毫秒,保证最后的实时音视频体验是好的。

谈到与声网合作的契机,微软大中华区副总裁、数字原生事业部总经理田灼告诉记者,微软与OpenAI的合作以及在大模型市场上的考量,为声网与微软之间的商业合作奠定了基础。我们计划建立一个生态圈,目的是帮助企业和开发者降低开发成本,缩短开发周期,提升开发质量。从解决方案层面来看,这是一个完美的互补合作。微软关注大模型质量,从技术核心交付到用户手上,在这个过程中涉及再开发,例如声网关注的音视频领域,无论是加速优化、降低成本、传输“最后一公里”。这样做,用户体验会迅速提升。

据悉,在GenAI的浪潮下,实时多模态成为大势所趋,声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将RTE与生成式AI结合,推出了声网Conversational AI Agents,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入与输出,具备500ms超低延时、对话更自然拟真、框架灵活可拓展等一系列特性,帮助开发者与企业快速构建适配自己业务场景的AI实时语音对话服务。“正如声网愿景所说:让实时互动像空气和水一样,无处不在。”刘斌说。

对话式多模态大模型 推动AI应用场景爆发

随着多模态大模型能力的进化,AIGC应用场景将迎来爆发。RTE技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的AI智能助手用户数据报告显示,截至2024年8月国内市场的AI智能助手App已超过64款。在 AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

而目前多模态大模型在智能硬件场景的落地主要以智能眼镜、智能手表、智能耳机等穿戴式设备为主,在生成式AI的趋势下,还出现了智能陪伴机器人、智能儿童毛绒玩具、智能戒指等一系列场景,带来不同硬件终端下的AI语音交互体验。

据悉,目前,声网已与国内外多家AI厂商展开了合作,借助Conversational AI Agents 帮助客户实现了对话式AI 在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景的落地。例如虚拟陪伴场景,通过AI虚拟伴侣,在社交陪聊、亲情陪伴、游戏 NPC等场景中提供7x24h时刻在线服务,可自定义人设、声音、形象等模拟真人声音及情感,为用户提供情感支持、心理慰藉以及陪伴。

在2024年10月底举办的第十届实时互联网大会上,声网正式发布了RTE+AI能力全景图,从实时AI基础设施、RTE+AI生态能力、声网AI Agent、Conversational AI Agents解决方案、RTE+AI应用场景五个维度,清晰呈现了当下RTE与AI相结合的技术能力、架构方案与应用场景。“RTE与生成式AI结合所带来的场景创新,也将成为下一个十年的主题。”声网创始人兼CEO赵斌表示。

过去十年,大家熟知的互联网风口也有很多离不开RTE能力的赋能和参与。社交泛娱乐、在线教育等行业的创业风口,电商直播对电商行业格局的改变等等,其中很多都和实时互动能力的使用和进化有着不可分割的关系。如今,在大模型和生成式 AI 时代,也将伴随 RTE 能力的辅助与赋能走向成熟和应用。

刘斌认为,在实时多模态的趋势下,RTE的演进将助力AI Agent应用落地。大模型也从理解内容,变成理解对话人的心理、情绪,最终理解对话时的人类意图,最后实现从“听得懂”到“听懂心”的体验革新。

“持续在音视频领域深耕是我们的立命之本。本质上我们立足于根本,同时拥抱AI相关的演进和变化,推出具有核心价值的产品和服务。”刘斌表示,AI的技术发展让我们在行业中也会讨论未来人机交互界面的改变。从我们内部来看,这也是一个全新的业态和机会。

(编辑:张靖超 审核:李正豪 校对:翟军)

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部