解码讯飞再登世界第一技术底气，进军虚拟人赛道构建立体AI生态_

11 月，国内人工智能龙头企业科大讯飞在多语言理解、多语种语音识别领域连下两城！

看懂更多的语言：在覆盖 40 种语言的世界权威多语言理解评测 XTREME 比赛中以总平均分 84.1 的成绩夺冠，并刷新世界纪录。听懂更多的语言：在国际低资源多语种语音识别竞赛 OpenASR 中，参加 15 个语种受限赛道和 7 个语种非受限赛道，以显著优势一次拿下 15 个语种 22 项第一。

这标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶，在实现人机交互更自然、人人沟通无障碍的探索征程中又迈出了坚实的一步，也为中国多语种语音语言技术的国际领先、中国智能制造的全球化奠定了坚实的基础。

目前，人工智能正面临着场景驱动、数据支撑、技术驱动等新机遇，以人工智能助力解决社会重大命题，源头创新持续引领人工智能发展方向，成为科技企业当下之时代命题。

据统计，

2018 年至今，科大讯飞已经在语音识别、语音合成、机器翻译、自然语义理解、图像识别等方面取得 39 项世界冠军。

从零到数个世界第一奖项殊荣背后，科大讯飞的技术创新密码何在？

近日，ＤeepTech 深科技深度对话科大讯飞高级副总裁、研究院院长胡国平。他总结：解决时代命题，重点要进行技术的系统性创新。“在科大讯飞的理解中，系统性创新有三个关键要素：一是重大系统性命题到科学问题的转化能力；二是从单点的核心技术效果上取得突破，跨过应用门槛；三是把创新链条上各个关键技术深度融合，最终实现真正意义上的系统性创新。”攻坚 “四大源头” 技术，推动 “AI 科技树” 成长

作为一家科技创新型龙头企业，科大讯飞一直坚持源头核心技术创新，用科学的方法合理有序地构建科技树，从而保证科技树的根基稳固，以及多个技术职业之间的高效协同。

正是这些科学问题的引导，使得科大讯飞研发投入始终保持在相对正确的方向，而通过系统性创新方法论的指导，不仅可以将单点技术一步一步踏实做好，同时也要把大部分技术做到保持引领。

一年不到，科大讯飞携手各行各业的开发者与合作伙伴，已浇灌出一片 AI 科技树密林。是什么牵引了讯飞 AI 科技树的构建？又是什么推动着讯飞科技树的成长？

胡国平说：“科大讯飞坚持在人工智能的技术层面进行源头技术的突破和多技术的融合，来推动实现系统性创新。”

图｜科大讯飞高级副总裁、研究院院长胡国平（来源：科大讯飞）

胡国平认为，各种具体技术的生长和发展，都需要强大的源头技术突破和滋养。在过去的几年，科大讯飞特别关注并持续投入在以下 4 个方面的人工智能更源头更底层的技术上突破。

第一个关键技术是端到端的建模。在深度学习的框架下，端到端的建模可以有效的缓解分段建模所带来的信息损失，以及错误的级联传播问题。

复杂场景语音识别是人机交互向更多场景拓展必须要攻克的难题。今年针对实际语音交互场景中可能出现的音乐、人声等各种复杂多样的噪声背景，科大讯飞提出了前后端一体化的语音识别框架。以电视语音交互家庭或卖场的复杂场景为例，新方案语音识别效果由 35% 提升为 88%，语音唤醒效果由 40% 提升到了 90%，可以说科大讯飞重新定义了复杂场景语音识别。

图｜复杂场景下的前后端一体化语音识别（来源：科大讯飞）

另外把端到端建模的技术成功运用到语音的翻译任务上，实现了 CATT 语音翻译技术，实现了语音识别和机器翻译任务的统一建模，缓解语音识别错误对翻译效果的影响。

第二个关键源头技术是无监督训练。在无监督的源头之上，科大讯飞也实现了两个方面的关键突破。一是基于海量原始数据，二是充分借助其他弱标注的指标，将弱监督数据更好地实现了模型优化训练。

今年，科大讯飞还提出了全属性可控语音合成方法。首先，从海量数据中无监督的学习这3个属性；其次，使用互信息约束训练模块，使得 3 个属性相互解耦，实现了从海量语音数据中无监督的学习发音内容、情感和音色这三个属性。

为了对海量文本数据的充分利用，基于语音和文本统一空间表达的半监督语音识别技术，最终可以实现 100 个小时的有监督数据，加上大量的无标签的文本数据，就可以达到1万小时有监督语音数据的效果。

图｜基于统一空间表达的半监督语音识别技术（来源：科大讯飞）

除此之外，科大讯飞还在七大民族语言的语音语言技术上取得了非常好的进展。

第三个关键的源头技术是多模态的融合。人机交互就是多模态融合的典型应用场景，如在多模态免唤醒的交互系统中，每次交互前均需要喊唤醒词，非常不自然，为此，科大讯飞提出基于多模态的免唤醒交互。

以车载交互为例，通过多模态技术，可以只关注目标人和目标人语音，降低语音误触发；通过端到端意图理解，可以实现人人交互和人机交互的区分；而且，通过视线检测能够得到驾驶员的视线聚焦方向，进一步区分驾驶员是在和人聊天还是在跟机器交互。这种方式不仅提升了模型性能，更增加了模型的泛化性，减少了对有标签数据的依赖。

科大讯飞基于多模态信息融合的技术，不仅使用题目中的相关的语义的信息，还用到了各种版面的特征。

例如“表示质地大小”这样的视觉特征，“表示缩进居中”这样的空间特征等等，最终实现了不同场景下文档结构化的精度的提升。类似于教育场景下的教辅作业的语义结构化的精度，语义结构化精度从 92% 提升到了 98%。

图｜多语种语音语言技术突破（来源：科大讯飞）

第四个关键技术是知识与算法的融合。科大讯飞在这方面做了两个关键技术突破，首先，在语音交互任务中把人类的常识、知识总结为事理图谱，融入到整个交互的系统中，从而实现机器能够与人的主动交互。

其次，科大讯飞将海量医学文献知识和病例的诊疗推理进行融入，并且使用图神经网络对于图谱进行编码，基于深度实时的推理网络，可以综合决策并给出最终的治疗结果。

破局系统创新难题，加强多技术融合创新

除以上单点技术上持续进步外，讯飞也关注三个方面的系统层面的技术挑战，毕竟人工智能是一个复杂的系统。胡国平认为，从单点技术的创新到深度融合的复杂系统演进，需要攻克以下三个方面的系统层面的技术挑战：第一，面向全局目标的技术架构的解析能力；第二，全链条贯穿的多技术融合的这样一个创新能力，以及人基于人机耦合复杂系统的自进化能力；第三，基于人机耦合的智医助理系统迭代演进。

图｜AI赋能实际应用场景（来源：科大讯飞）

在胡国平看来，人工智能落地必须要满足真实可见的实际应用案例、能规模化推广的对应产品和可用统计数据证明的应用成效等条件，他以三个具体复杂系统的构建案例做了进一步阐述。

第一，解释面向全局目标技术架构的能力。以低延时下的多技术融合的语音同传系统为例，讯飞已经建立模型，端到端的实现了从语音到文本的自动翻译；接着是把传统句子级别的语音合成系统改造为流式的语音合成，对实时输入的片段文本进行合成；同时实现基于一句话的语音合成系统的音色迁移，使得合成的语音人能够保持原始说话人的音色，实现更好的同传体验。

为提高类似于大会演讲上语音识别和翻译的效果，还进一步把大会演讲 PPT 中的文字全部 OCR（特别是相关的专业术语），并且实时送入语音识别系统进行实时的优化，最终在尽可能保证翻译效果的同时实现低延时的同传翻译。目前讯飞最新的翻译系统的平均延时已经从原来的 8 秒下降到 4 秒。

第二，新推出多模态虚拟人交互系统。以情感维度为例，讯飞实现了基于多模态信息的情绪感知，基于情绪的回复对话文本生成以及可展现对应情绪的虚拟人的表情和语音合成。基于全局的系统性的规划设计，以及全链条单点技术的有效配合，造就爱加有情感、有个性的多模态虚拟人。第三，推出讯飞自研系统。以智医助理的系统为例，智医助理系统在基层医生的诊断过程中就直接提供包括诊断建议、合理用药、进一步问诊问题等核心的功能，帮助基层医生实现更好的诊疗。两年来，智医助理和所服务的 5 万多基层医生的 3 亿次的持续互动，机器的自动诊断的正确率从 95% 进一步提升了 97%。基层医生的诊疗水平在机器辅助下，从 70% 提升到了 90%。

更值得关注的是，针对复杂的科学问题，科大讯飞也在不断探索技术融合的方式，结合场景大胆的布局，通过应用迭代来快速验证技术的可行性。

胡国平表示：“科大讯飞作为一个致力于推动人工智能技术实现持续进步的公司，要进一步在人工智能更远的源头，包括脑科学、数学、量子等方面进行了长期的基础研究的布局。例如在脑科学、数学方面与学研机构有很多合作。”

共建共享平台生态，加码虚拟人和开放平台 2.0

前不久，“Facebook” 改为 “Meta” 这预示着扎克伯格全面加码 “元宇宙” 的战略决心，他还宣布在 VR 实验室团队下成立元宇宙产品子团队，持续加码 VR / AR 及其他元宇宙相关领域的产品研发。

“元宇宙” 热已经成时下人们探讨中绕不开的话题。

其实，科大讯飞早在去年春晚拜年时就用了元宇宙技术，如虚拟主持人。科大讯飞可以快速“捏”一个虚拟人主持人，包括眼睛、嘴巴、表情等可以自由设定。

图｜科大讯飞个性化真人捏脸系统（来源：科大讯飞）

然而，要想把虚拟人的微表情 “捏” 的栩栩如生，并非易事，这是该行业的一大痛点。

为了解决虚拟人目前面临的诸多挑战，进一步布局虚拟人赛道，科大讯飞隆重发布了 “虚拟人交互平台 1.0”，旨在用情感贯穿文本语义到语气强调，再到面部表情等的后台逻辑，让每个人能够在虚拟世界中感受到一个真实的助手、真实的合作伙伴。

图｜虚拟人交互平台 1.0（来源：科大讯飞）

据悉，此虚拟人交互平台，不仅可以通过语音、手势、肢体语言，嘴型等各种能力来进行感知，同时还能测血压、心跳、脉搏等各种相关身体指数。更有趣的是，虚拟人交互平台 1.0 还能够实现情感贯穿、多维表达、自主定制。

今年的全球开发者大会核心看点，除了“虚拟人交互台 1.0”，还有“开放平台 2.0 版本”，旨在构建未来属于每个人的人工智能！

与开放平台 1.0 版本相比，开放平台 2.0 版本最重要的是从二维升级到三维，科大讯飞希望和行业龙头共同来打造一个行业的人工智能基线底座，把行业中一些重要的专家和知识融入进来，与不同的软硬件环境去适配，进而形成完整的解决方案。

图｜科大讯飞开放平台 2.0 版本（来源：科大讯飞）

为了加快落实开放平台 2.0 战略，科大讯飞提出包括标准体系，测试平台、认证体系、培训平台、低代码开发平台，开发者大赛 6 大举措。

未来，科大讯飞计划一方面联合多方资源共同搭建好行业的基线底座，另一方面向广大开发者开放众多场景汇聚各种创意，丰富整个平台体系。科大讯飞愿意与广大的开发者们一起共创、共建、共享繁荣的人工智能时代。

头条号入驻

麻省理工科技评论源自麻省理工学院，关注即将商业化的创新，聚焦即将资本化的创业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

解码讯飞再登世界第一技术底气，进军虚拟人赛道构建立体AI生态

头条号入驻

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

科学家提出脑疾早期评估新工具，只需安装5个传感器，就能实现新生儿不安运动数字化

AI提示工程师薪水高达六位数，但不同公司对其有不同定义

财经自媒体联盟更多自媒体作者

热文排行榜