方直科技申请基于Bert Vits2改进的语音合成专利,提升语音合成模型的性能和生成音频的质量

方直科技申请基于Bert Vits2改进的语音合成专利,提升语音合成模型的性能和生成音频的质量
2024年12月02日 13:30 金融界火线

金融界2024年12月2日消息,国家知识产权局信息显示,深圳市方直科技股份有限公司申请一项名为“基于Bert Vits2改进的语音合成方法、系统和计算机设备”的专利,公开号 CN 119049449 A,申请日期为2024年8月。

专利摘要显示,本申请涉及一种基于Bert Vits2改进的语音合成方法、系统、计算机设备和存储介质,该方法包括:采集音频数据,通过对音频数据和文本数据进行预处理,并将音频数据和文本数据进行对齐,输入到经过基于Bert Vits2改进的语音合成模型进行训练,得到AI语音合成模型。在模型训练过程中对模型进了三个方面的改进包括对注意力机制的改进、位置编码的改进以及前馈神经网络激活函数的改进,其中,对注意力机制的改进可以有效地加速模型的训练和推理速度,而位置编码的改进以及前馈神经网络激活函数的改进可以进一步提升语音合成模型对文本的上下文信息的捕捉能力,以及神经网络的学习能力,从而提升语音合成模型的性能和提高生成音频的质量。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部