WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。
论文信息
语音增强是语音处理的经典研究内容,以往的语音增强往往只将语音作为输入信号,这在现实世界的嘈杂环境中往往效果不佳。
近年来一种视觉辅助的语音增强技术取得了突破,通过跟踪视频中人物口型,可以较好地辅助过滤环境噪声。但其需要人物正脸在视频中,使用场景较为狭窄,毕竟大多数场景下,没有人物正脸,甚至没有视觉信息辅助。
该文学者指出,实际上根据语音进行唇语合成已经是一个较为成熟的技术,在现有框架下,可以直接使用语音信号本身合成人物口型的视频,进而辅助语音增强。
在该文多个数据集上取得了SOTA的结果,并且该技术可以用于任何语言的语音增强,但由于其中含有视觉生成部分,估计相比传统算法时间开销较大。
文章来源:语音之家
0条评论|0人参与网友评论


表情
登录|注册
|退出
分享到微博
发布最热评论
最新评论
更多精彩评论>>
财经自媒体联盟

4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有