11月22日,我爱音频网携手英飞凌与大象声科,联合举办一场主题为《基于AI语音增强的音源变焦技术与应用》的线上直播活动。此次直播中,英飞凌消费、计算与通讯业务龙洋经理与大象声科创始人&CEO张学良博士,深入探讨了Audio Zoom音源变焦方案,为大家详细讲解了大象声科AI语音增强技术和英飞凌的硬件在Audio Zoom起到的关键性作用。
Audio Zoom音源变焦技术
Audio Zoom核心原理是音源变焦技术,通过构建视频神经网络和音频神经网络的预提取模块,分别对视频和音频信息进行处理。然后将处理后的输出与变焦比例相结合,输入到融合神经网络中,最终实现音视频的同步变焦效果。
当视频画面放大时,Audio Zoom能够同步增强选定方向的声音,并有效抑制其他方向的背景噪声。这种精准的声音处理能力,是通过对音频信号的智能分析和处理实现的,为用户带来了更清晰、更优质的音视频体验。
大象声科AI语音增强技术
传统语音信号处理靠理解声音信号统计特性、编写人工规则降噪,有明显局限。复杂场景下规则编制难、适应性差,且传统算法参数估计也存在问题,毕竟生活中噪音繁多且无固定特性,传统方法难应对复杂噪声环境。
大象声科的AI语音增强技术将语音信号处理与深度学习相结合,可从海量数据中自动学习分离规则,优化语音处理能力并辅助参数估计。大象声科还融合了计算听觉场景分析理论CASA与深度学习技术,成功实现实时分离人声和背景噪声功能,突破传统性能瓶颈,带来语音增强的革命性进步。
英飞凌XENSIVTM麦克风芯片
在此次直播开场时,展示了大象声科与英飞凌合作的Audio Zoom 的方案效果,让观众直观地了解到该方案的魅力。这款Audio Zoom DEMO包含了音频和视频两部分,借助大象声科的AI语音增强技术,真正实现了音频与视频的变焦同步。其中音频部分采用8颗英飞凌高性能的麦克风,组成线性麦克风阵列,极大增强了特定方向的声音拾取效果。
英飞凌XENSIVTM IM72D128硅麦克风,采用了独特的密封双模技术,该技术使用两个膜片和一个带电定子,来形成一个密封的低压腔,以此拾取更高声压级的声音(AOP 128dBSPL),输出更好信噪比的声音信号(SNR 72dB),并支持IP57等级防水防尘功能。
类似于Audio Zoom这类传感器融合的边缘AI应用,不但可以使用英飞凌XENSIV数字麦克风作为声音采集传感器,还可以考虑使用英飞凌AI边缘处理器PSOCTM Edge,凭借其强大的端侧处理能力和低功耗设计,能很好地在本地完成AI算法的信号处理。
AI音频变焦的应用
AI音源变焦作为时下热门的技术话题,逐渐得到市场的青睐。在手机和手机配件上,音源变焦可以显著提升视频拍摄的体验,清晰地获取画面中目标的声音。在会议和家用安防摄像头应用中,音源变焦提升了远程视频通话的体验,让语音交互更清晰高效。总之,有视频变焦需求的应用领域,都可以通过音源变焦技术带来显著的用户体验提升,视频变焦和音源变焦,是“千里眼”与“顺风耳”的关系。
获取直播演示文件,我爱音频网公众号回复【顺风耳】即可。
我爱音频网总结
通过本次直播,让更多的用户了解了Audio Zoom音源变焦技术为市场带来的价值。结合大象声科的AI语音增强算法和英飞凌PSOC™ Edge芯片、高性能麦克风,能够有效增强目标音源清晰度,抑制背景噪音,改善嘈杂环境下的语音通信和音频体验。
凭借高信噪比麦克风和先进音频算法,采用了Audio Zoom音源变焦技术的产品肯定将具有更强的市场竞争力。并且随着技术发展,Audio Zoom广阔扩展空间将带来更智能化、个性化的体验,为音频市场注入创新活力,推动音频技术发展进步。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有