这个春节,我被百度App这帮讲方言的导游硬控了

这个春节,我被百度App这帮讲方言的导游硬控了
2025年01月26日 20:49 雷科技

前几天在同学群看到有人分享了一个链接,是一个名叫“巴渝小飞侠”的数字人智能体在介绍我老家重庆的风景。智能体不是什么新鲜事物,但这个“巴渝小飞侠”除了能图文并茂地介绍重庆风景外,还能跟人进行对话。最难得的是它说的是重庆方言:“巴适得很”、“啷个耍嘛”、“嫩个样子的”……一口地道的重庆话听着让人感觉很亲切,甚至让不回重庆过年的我有些思乡情切了。

在外地工作的同学们,在微信群里讨论起了这个智能体的方言表现。有位同学甚至认为,这个“巴渝小飞侠”说的重庆话,比我本人说的还正宗。这个评价我是认可的:自打我从大学求学离开重庆至今已经差不多20年了,平时都说普通话,偶尔说说重庆话反而说不好了。

其实说好方言蛮难的。小时候读“乡音未改鬓毛衰”时很难共情贺知章,现在理解了,但也发现“乡音”很难“不改”,说家乡话少了开口难免跑调。但不管乡音怎么跑调,人们对家乡的感情都不会消失。每年这个时节,身在异乡为异客的人们都会翻山越岭回家过年,与亲朋好友团聚团圆,听一听乡音,看一看家乡,解一解乡愁。

除例行的“人口大迁徙运动”外,今年春节,在AI技术的助力下,在手机“听方言”也成了一道风景线,让这个年多了一些年味。许多网友玩起了“AI旅游”,在能说方言的AI智能体带动下,解锁全国各地城市的风土人情,来一场在家游全国的“云游中国”。

AI数字人用方言硬控全国网友

在百度App上搜索“春节智能体”或“AI旅游”,就能马上跟地陪大佬们聊起来。每个智能体的名字都颇具当地特色,比如广东的是“舞狮少年黄小鸿”,当地有醒狮文化,黄飞鸿老家在佛山。

在对话框,输入或选择需求,智能体就会推荐旅游景点、规划旅游线路,出发前后的细节都整理好了,甚至还可以协助你预订门票、酒店。

直接语音聊天效率更高。点击电话按钮,你还能直接和数字人通话(这是语音电话,不会消耗你任何通话时长。)

春节我打算去广州周边玩儿,我和“舞狮少年黄小鸿”对上线聊了起来,先用粤语打个招呼:

【视频可到“罗超Pro”查看】

“黄小鸿”不仅能听懂粤语,而且粤语的回复听起来还真像那么一回事,身为老广的阿杰表示,“这粤语听起来毫无违和感。”

【视频可到“罗超Pro”查看】

而且,“黄小鸿”还能多轮对话,比如给我普及佛山舞狮文化,对广东各地的过节习俗也门清。

来自我老家的“重庆小飞侠”表现如何呢?这小哥不仅长得清秀帅气,重庆话说得也“好巴适”,我让介绍一下重庆的美食,他马上就给出了足以馋到我的菜名。

【视频可到“罗超Pro”查看】

“重庆小飞侠”这重庆话听着太亲切了,搞得我都想回重庆老家过年了。

我决定加一点难度。如果用非当地方言问一个省份的数字人,他能听得懂吗?这一次我试了一下四川智能体“苏东坡”。苏东坡是眉州人,算我的半个老乡,不过我决定用粤语来考考这位大师:

“苏东坡,给我背《赠刘景文》。”

【视频可到“罗超Pro”查看】

好家伙,他完全听懂了粤语,不愧是当年做过“日啖荔枝三百颗”的岭南人。而且啊,他还分享了写作这首诗的来龙去脉和当时的心境,感觉我和这位大文豪进行了一场跨越千年的文化交流。

我再试着用普通话和粤语混合来考考“苏东坡”:

“问一下,四川有哪些值得欣赏的景点?”

【视频可到“罗超Pro”查看】

即便混合输入,“苏东坡”依然能快速且正确识别我的问题,再用流畅的四川话给我把当地景观介绍个遍,还像专业导游一样给贴心推荐。

有小伙伴要问了:如果我听不懂一个地方的方言怎么办?没关系,你可以随时开启实时字幕。另外在与数字人对话时,你也可以随时中断,回到图文交互模式。

类似小飞侠、苏东坡这样的能讲方言的智能体,在百度App上已有34个——地理学得好的小伙伴都知道,我国一共有34个省级行政区(包括23个省、5个自治区、4个直辖市和2个特别行政区),正好一一对应。

每一个智能体名字都精心地选取,颇具当地特色。更重要的是,他们说着各自的地道方言,有着渊博的当地知识,还能提供专业的导购服务,让我一度聊得停不下来。

比如和西安的“秦小俑”聊一聊秦始皇的那些事:

【视频可到“罗超Pro”查看】

再比如和辽宁的老妹儿唠唠嗑:

【视频可到“罗超Pro”查看】

如果你春节宅家或者旅途中无聊,我建议你随时随地拿出手机“云旅游”。推荐给家里的长辈晚辈们一起云游中国涨知识,感觉也是不错的。此外,以后如果你决定去某一个城市旅游,这些智能体就是你在当地贴心的“旅游搭子”,用起来比看枯燥的文字或者传统的视频有意思多了。

如果你老家所在地没有这个智能体怎么办?百度App还提供了“一键定制同款智能体”服务,让你也能给家乡文旅产业发展出一份力。

我试了下,整个操作流程其实很简单:选好地区、填好名字后,选择百度提供的特色形象,或用自己的照片就能生成一个特色形象,接下来只需要录一句话就能生成声音模板。再接着选一下角色个性,属于自己家乡的智能体就生成成功了,整个过程我只操作了几分钟。

我的家乡“奉节”是著名的旅游城市,名声响亮。在跟人介绍家乡时,以前我会说“十元钱人民币风景所在地”,或者介绍“世界知名脐橙产地之一”,“瞿塘峡风景所在地”,“朝辞白帝彩云间”的“诗城”,“刘备托孤的白帝城”……以后,我分享这个智能体就可以了。

虽然我一直在关注AI科技产业一线,但智能体的创建如此便捷,也是完全超出我预期的。

我觉得啊,百度App在春节期间推出“34省智能体”这一杀手锏应用,不只是可以解人乡愁、伴人云游,也有要打造文旅产业AI新标配的意思。

对用户来说,这些智能体是贴心的“旅游地陪”,讲着地道方言的“北京阿玛”、“上海滩强哥”、“杭州小青”、“草原巴特尔”、“山东好客孔夫子”们,能给游客讲解风土人情、提供旅行规划甚至预订机票酒店,全程免费还不会带人购物。

对地方来说,它们是专业的“文旅推荐官”。“文旅”是全国各地发力重点,对地方来说,整合资源特别是文化资源,打造城市品牌以及有吸引力的目的地是关键。AI智能体可在全网7*24小时传播当地文化,提高城市知名度和曝光量,吸引全国甚至全世界游客前往打卡,助力当地经济繁荣。

让“34省智能体”各讲各方言有多难?

智能体图文并茂地介绍一个地方不难,但要介绍得好却不容易——不同导游在介绍同一个城市时,水平往往会有天壤之别。要让智能体理解用户意图、好好介绍城市,需要丰富的优质内容储备,准确的意图理解能力和强大的内容生成能力,这都是百度核心的优势。

要让数字人开口说话不难,让AI数字人声情并茂用方言讲就难了,让34个省级行政区的数字人各讲各方言更是难上加难——每一个数字人都有对应的人物画像,讲方言时声音要准,要有情感,还要与数字人的形象和动作匹配。

OpenAI等海外AI公司尚未关注中国方言这一块,中国科技公司部分有涉足,但大都只支持少数方言,支持全省34省级行政区方言的只有百度做到了。难度在于两点:一个是方言不够标准、生成与识别的复杂度都远超普通话,技术挑战大;另一个是成本高昂,随着方言数量增加,对应的语料成本、算法成本、算力成本都会剧增。

百度语音自主研发的两大底层技术是实现“34省智能体”方言音色快速定制的关键。

其中语音大数据挖掘技术基于识别大模型,可自动完成不同省份方言数据的切分、降噪、识别等自动化处理,给方言合成迁移模型提供了大规模的数据支持。

要知道,传统语音合成技术在语料这块需要巨大的投入,包括人工录制语料,比如Siri的声音就来自御用配音员Susan Bennett女士,她在2005年为一家声音技术公司录制数小时语音样本,用于开发一种文本转语音的技术。

采取类似模式合成34省份方言根本不现实,而且合成的语音还会像Siri一样充满“机器感”。百度语音自研的语音大数据挖掘技术跳过这一过程,给方言语音合成提供规模化、高质量的方言语料。

有了语料后,百度语音再基于语音合成大模型,一步到位地的完成方言迁移。此前,每一种方言语音合成都需要独立的方言前端,资源耗费大、研发周期长,一套方言做下来可能要数月甚至数年。用这种模式让“34省智能体”支持各地方言,要么需数十倍的人力投入,要么需数十倍的时间。百度语音巧妙地采取迁移技术,将普通话和方言统一建模,实现任意音色说任意方言,大幅压缩了研发成本和研发周期。

中国方言有着“十里不同音”的多样性和复杂性,不过在语言学里,汉语方言通常可分九大方言:北方方言、吴方言、湘方言、赣方言、客家方言、粤方言、闽北方言、闽南方言、 莆仙方言。虽然各方言区内又分布着若干次方言和许多种土语,但整体基础都是“汉语”,与普通话可实现“迁移”,这样看,百度语音的“方言迁移合成技术”堪称一种方言语音合成的巧妙解法。

在罗超频道看来,百度语音团队发力方言并非只服务于春节这个节点或者“34省智能体”这一应用,而是意在大模型时代抢占语音技术的先机。

随着大模型技术的爆发,文字、语音和视觉三大内容的生成与识别成为AI的“三驾马车”。语音技术的进化方向只有两个:一个是识别更准确、合成更拟人;另一个是深耕细分场景,智能方言在文旅、城市、教育、医疗、客服、互联网、生活服务等场景都有巨大应用空间,比如许多城市的地铁公交报站、医院排队广播系统都需提供方言支持。

百度智能语音技术正在多点开花

早在2010年,深度学习技术尚未爆发时,百度就成立了语音技术团队,并推出了首款基于深度学习的在线语音识别产品,后来其技术持续进化,形成语音识别、语音唤醒、语音合成、声纹识别等全栈技术能力,并广泛应用在语音搜索、语音输入、听书播报、音视频质检、智能硬件、游戏娱乐、呼叫中心等众多场景,驱动包括小度智能音箱、百度App在内的国民级应用。

2019年前后百度成了国内大模型技术的先行者。基于大模型技术,百度语音技术也取得了更大的突破。除了提高了语音识别、合成、唤醒的准确率、拟人化程度外,还在方言语音等细分场景取得更大突破,并与数字人、AI视觉等技术深入融合,持续完善解决方案。

在数字人直播场景,百度语音推出了“又快又好”的数字人语音解决方案。

短视频直播爆发后,但真人直播成本高、易翻车,因此7*24小时在线的数字人直播成了许多企业的标配。然而,很多数字人直播语音僵硬、毫无情感、机器感强,用户不爱。数字人声音僵硬的根本原因在于:商家缺乏高质量录音数据,采取传统方案训练具有“好声音”的数字人成本极高。

百度语音提供了一套面向直播业务场景的直播带货风格的语音音库建方案,比如可通过智能工牌设备收集用户直播真实数据,取代传统录音棚模式,极大地降低了录制门槛和成本。在合成时,基于篇章段落合成技术和文本韵律增强技术,可让声音更自然,韵律、停顿、激情等状态跟真人看齐。训练数字人的定制音库制作成本大幅降低,仅需几分钟数据就能达到超越真人的tts水平。

有声小说也是智能语音技术的黄金应用场景。让小说有声音,不只是可“让残障人士获取信息”,也可吃到“耳朵经济”的红利。艾媒咨询数据显示,2024年,我国在线音频用户规模达到5.4亿人,声音经济产业市场同比增长10.2%,规模达5688.2亿元,预计2029年将突破7400亿元。

一些内容平台支持文章“听一听”,相较而言,让小说有声难度大很多:需结合剧情、角色人物性格等提供更生动的声音。百度语音融合基于LLM的小说文本理解技术, 针对有声小说生成场景,搭建了小说业务统一训练框架,在小说角色综合准确率、对白情感准确度等指标上行业领先。

在百度App小说“听书”的“畅听智能多音色”栏目,开启“多角色演播”后,就可以体验到业界天花板级别的AI有声书服务。就拿蚕土豆这本经典玄幻小说《斗破苍穹》经典开头来说:

【视频可到“罗超Pro”查看】

大家听一下就知道其中差异:不同于其他平台生硬的机器感合成声音,百度小说的声音真正体现出多角色、多音色、多场景的差异。萧炎激动的少年音、考官冷漠的表述,以及路人极尽嘲讽的议论声,都被还原得挺到位,已经有一些“说书感”了,这是百度语音的角色预测、人物画像构建和对白情感分析能力的体现。

再来听听这一段的表现:

【视频可到“罗超Pro”查看】

除了对白中的情感控制,百度甚至能够还原出各种语气词,比如少女轻微的笑声,或者是路人感慨万千的咋舌,甚至还能实现多种情感和副语言(如大笑、冷哼等)的智能生成,语义和情感都拿捏到位,还有一点情绪张力,真正实现了“类真人声音合成”,让听者仿佛置身于真实故事情境中。

特别值得一提的是,百度语音有声小说方案是全程“无人值守”端到端自动生成,整体的生产成本比真人有声书低上百倍,除了百度小说外,已在多家第三方头部小说平台应用。

(熊猫看书x百度语音合成技术)

在汽车产业,“下半场是智能化”已成为行业共识,“整车智能”成为行业新趋势,其中“智能座舱”成为汽车智能化的核心场景,特斯拉等智能汽车追求“整车0按钮”,用户与车机的交互依赖大屏与语音。不过,传统车载语音存在许多问题,比如在行车噪音环境下识别率低,再比如很难区分司机与乘客、主驾与副驾的声音。

百度语音创造性地实现了多模态车载语音技术,结合人脸唇动等视觉信息来做语音增强,更准确地理解用户交互意图,彻底解决语音单模态下的背景声干扰难题,可在超低信噪比、外噪干扰嘈杂等场景中,准确分离出主副驾的有效语音和交互意图,让车载交互手机外噪场景从不可用变成可用,高噪下的错误率达到业界领先水平,已被应用在业界领先的智能汽车量产车上。

作为AI语音的先行者和领先者,百度语音的布局方向体现的也是语音技术的发展方向:一方面,语音识别、合成要从有到优,更准确,更逼真,更拟人;另一方面,语音技术要贴合场景深耕细作,比如发力方言等多语种领域,再比如结合数字人等新技术,以及贴合车载等垂直场景。可以说,AI语音技术拼到最后,拼的还是综合AI技术以及场景落地能力。24年,AI在经历“卷参数”后回归到“卷应用”、“卷场景”、“卷落地”的正轨,就像百度语音努力的方向一样:只有让AI深入到场景,落地到应用,技术的强大才有意义。

春节期间,百度“34省智能体”用地道的方言给用户带来一个年味满满的中国年,打开AI+文旅产业想象空间的同时,给传播方言文化贡献了力量,要知道,方言是中华文化的瑰宝,每个地方的方言都像是打开一扇独特的文化之门。兼具商业价值与社会价值,我想这是AI技术的魅力吧。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部