金融界 2024 年 12 月 2 日消息,国家知识产权局信息显示,中移互联网有限公司申请一项名为“音视频数据处理方法”的专利,公开号 CN 119049473 A,申请日期为 2024 年 7 月。
专利摘要显示,本申请公开了一种音视频数据处理方法,该方法包括:获取音视频数据,音视频数据包括目标音频数据和多个目标视频帧;将多个目标视频帧输入预先训练的唇语识别模型中进行识别,得到第一文本识别结果,以及将目标音频数据输入预先训练的语音识别模型中进行识别,得到第二文本识别结果;在第一文本识别结果和第二文本识别结果的语义相似度低于预设相似度阈值的情况下,在预先构建的文本数据库中分别查找与第一文本识别结果相似度最高的第一参考文本以及与第二文本识别结果相似度最高的第二参考文本;根据第一参考文本和第二参考文本,确定音视频数据对应的目标文本。根据本申请实施例,能够提高最终文本转换结果的准确性。
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有