注册

新浪财经APP

开源技术分享 | 音视频结合实现语音增强

开源技术分享 | 音视频结合实现语音增强

2021年09月14日 14:53 语音之家SpeechHome

语音播报缩小字体放大字体微博微信 0

WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。

论文信息

语音增强是语音处理的经典研究内容，以往的语音增强往往只将语音作为输入信号，这在现实世界的嘈杂环境中往往效果不佳。

近年来一种视觉辅助的语音增强技术取得了突破，通过跟踪视频中人物口型，可以较好地辅助过滤环境噪声。但其需要人物正脸在视频中，使用场景较为狭窄，毕竟大多数场景下，没有人物正脸，甚至没有视觉信息辅助。

该文学者指出，实际上根据语音进行唇语合成已经是一个较为成熟的技术，在现有框架下，可以直接使用语音信号本身合成人物口型的视频，进而辅助语音增强。

在该文多个数据集上取得了SOTA的结果，并且该技术可以用于任何语言的语音增强，但由于其中含有视觉生成部分，估计相比传统算法时间开销较大。

文章来源：语音之家

0条评论|0人参与网友评论

分享到微博

最热评论

最新评论

更多精彩评论>>

头条号入驻

语音之家SpeechHome 助力AI语音开发者的社区

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部