出门问问推出离线版端到端语音合成 强势赋能各行业

出门问问推出离线版端到端语音合成 强势赋能各行业
2020年09月24日 09:40 今时往惜的科技

驱车穿行隧道时,车载导航突然从“志玲姐姐”变成生涩机器人?早高峰的地铁上,新闻App“播报”着全球新闻资讯,却因信号中断突然消音?人人都是自媒体的时代,一部满载创作欲的优秀作品,却止步于没有网络进行语音合成?

追求卓越的出门问问技术团队,绝不允许这种情况发生。

360天高效升级离线版端到端MeetVoice问世

早在2019年8月,出门问问在业界率先推出CPU版本的端到端语音合成系统MeetVoice((Mobvoi End-to-End TTS Voice)。

端到端语音合成系统MeetVoice

全 CPU 低时延端到端语音合成系统 MeetVoice ,实现了两方面的新进展:一是上线了基于神经网络的声码器;二是将Meet-Parameter以及Meet-Vocoder全部优化至可以在 CPU 上实时运行,并且达到和 GPU 一样的性能和效果。

让合成声音以假乱真的MeetVoice,兼具“好声音”、“快感知”、“低成本”的优势。在正式推向市场后,出门问问将MeetVoice迅速落地应用到新浪新闻语音播报、大众前装车载语音助手等产品场景中,收到了众多客户及用户的一致好评。

与此同时,在一年多的探索与实践中,出门问问也深刻体会到在线语音合成方案的局限性,比如:

部分车型没有联网能力,需要提高离线语音合成的效果;

部分产品采用离在线语音合成混合的策略,兼采离线和在线合成的优势,当网络不好时,用户易感知到离线和在线合成的效果差异较大;

在线合成时,偶尔网络较差,从而播报的时延较大,用户等待时间长。

部分B端客户反馈认为,私有化部署比较麻烦,且对成本敏感;

要想尽可能解决这一系列的问题,除了将离线语音合成做到在线合成的效果外,似乎别无他法。但是,相比在线状态,离线方案能够提供的计算能力有着量级上的差别。

MeetVoice离线版真的有可能诞生吗?

出门问问始技术团队不断攻坚克难,对神经网络声学模型和声码器进行了深度优化与迭代,于近期正式推出离线版本的MeetVoice,让离线合成也能实现端到端引擎带来的高质量合成效果。

从用户需求出发离线版端到端MeetVoice优势显著

在线版MeetVoice早已凭借以下几大优势领跑行业:

好声音

MeetVoice 实现了声音还原度高,机械感小的语音合成,声音质感得到显著提升。简单的来说,就是声音听起来更清脆、更像真人。MOS值达到4.4左右。

快感知

MeetVoice虽然在 CPU 上运行,但是做到了高并发低时延。系统实时率达到10倍以上(即1秒钟就可以合成10秒以上的语音,在正常的语速下,1秒可以合成接近50个字);端到端合成时延低于200ms。

低成本

MeetVoice全部跑在 CPU 上,客户不需要额外配置支持 GPU 的服务器便可以部署该套系统,大大降低了使用成本。

而离线版的MeetVoice针对用户需求,更具备显著优势:

持续发力语音合成强势赋能各行业

相比硬核提升技术实力之外,出门问问也通过一系列实际落地的语音产品,强势赋能各行各业。

面对一些不具备联网功能的车辆,离线版MeetVoice可以提供与在线版效果一致的车载导航功能,驾驶者在穿梭隧道等网络环境不佳的情况下也不会受到导航音质的困扰。对于内容要求更加严格的媒体行业,得益于离线版MeetVoice,用户在没有网络的情况下仍旧可以享受AI语音播报功能,第一时间“收听”全球新闻资讯的焕新体验。

不仅如此,在离线版MeetVoice的加持下,没有网络连接的机器人也能发出优质鲜活的声音。除了车载导航、新闻播报、高端智能硬件领域之外,出门问问同样能够应用全新技术为图书馆、微信读书等场景增加想象空间。

在过去的一年时间里,出门问问基于领先的MeetVoice,在语音合成方面持续发力,陆续推出多个热门产品:

魔音工坊

魔音工坊是AI音频内容生成的一站式解决方案,独创性设计多项产品交互,用于解决AI配音中遇到的各种瑕疵问题,比如发音预测不对、断句不正常等。目前为止,已经有众多新闻媒体、短视频创作者、喜马拉雅平台主播等使用魔音工坊进行配音。

虚拟主播

以上产品或许仅仅是“声音的游戏”,缺少一个看得到摸得着的人物形象。

为此,出门问问近期推出「魔影主播」产品,并联合中央级党政媒体光明日报全新定制虚拟主播“小明”。以真人形象风格,通过魔影主播方案,媒体仅需少量数据,就能做到真实生动的效果。

在2020年服贸会期间,主播小明首次登台亮相,受到了参会观众及媒体用户的高度认可,未来也将在光明日报的栏目中全面落地。

魔音号小程序

为给公众号进行声音赋能,出门问问开发了一套小程序。公众号作者通过注册小程序,即可结合魔音工坊,将所有的公众号文章都转换成音频形式。魔音工坊制作完音频后,更支持一键发布到小程序上。小程序不仅可以单独分发,还可以将小程序卡片插入到公众号中,让订阅号读者多了一种「收听」文章的阅读方式,从而让阅读场景扩展到厨房做饭、看小孩、开车等适合听读的场景中。

声音复刻

大量用户通过使用小问秘书(出门问问推出的一款智能代接电话的AI助手),用自己的声音帮自己处理各种来电。

用户在手机等常用设备上,通过录制20句话,等待大概20分钟,即可克隆完成自己声音。

此外,出门问问还推出了300-500句话的TTS定制方案。只要用半天时间在专业录音棚录制几百句话,即可完成效果匹敌精品发音人的声音模型定制。

目前出门问问已经为光明日报主播、甲子光年张一甲、艾问人物艾诚、深圳湾炫姐姐等知名KOL完成声音定制。

歌唱合成

为了让更多用户享受到“玩音乐”的乐趣,出门问问语音团队开发了一套全新的歌唱合成方案,并上线到「AI魔音」小程序中。

用户动动嘴,念念歌词,AI就可以自动帮你合成音乐。除了给五音不全者带来福音外,擅长唱歌的用户,也可以借助「AI魔音」,对歌曲进行歌词改编,尽享音乐乐趣。

音乐魔力,AI助力,有了「AI魔音」后,你会说话,就会唱歌。

财经自媒体联盟

新浪首页 语音播报 相关新闻 返回顶部