Leaderboard 加入开源 WeNet multi-cn 模型

Leaderboard 加入开源 WeNet multi-cn 模型
2021年09月13日 12:27 语音之家SpeechHome

本周 SpeechIO Leaderboard Model Zoo 接收了来自 WeNet-E2E 团队提交的开源中文模型 wenet_muliti_cn,该模型训练基于 WeNet toolkit, 数据为现有全部开源中文数据语料库,leaderboard自动化 pipeline 的测试结果如下图,我们并列展示了:

1、 多个工业头部厂商的平均值 [SOTA值]

2、 工业厂商中的尾部性能,百度API

3、 Leaderboard中现有的两个开源模型 Kaldi multi-cn 和 WeNet multi-cn

点评:

1、 Kaldi mutli-cn 与 WeNet multi-cn 在 SpeechIO 测试集上性能互有胜负。有两点需要说明:a)WeNet multi-cn 的训练只应用了开源语料,而 SpeechIO Leaderboard 中的Kaldi multi-cn 模型额外使用了现有开源语音数据库以外的纯文本语料,在语言知识层面有绝对优势。依据小编的经验该优势表现在识别率上大概应在3-8个百分点。若刨去此部分,WeNet multi-cn 模型应会大部分占优,但如何在端到端系统中更有效地使用额外纯文本语料,也一直是端到端算法研究中的热点问题。b)  Kaldi multi-cn 模型的全部资源大小约 15GB, WeNet multi-cn 模型的全部资源大小约 200MB。上述两点,对于传统系统与端到端系统,非常具有代表意义,供读者朋友们参考。

2、 从图表中也可以看到,开源模型在一些简单场景下(如新闻联播,罗振宇跨年),性能已经逼近尾部商业引擎。

3、 小编认为,开源系统在性能上能超越部分商业引擎,具有非凡的意义。目前的差距基本上可以从算法和数据两方面分析。从算法上,WeNet toolkit 在近期面世的全球最大开源英文监督语料库 GigaSpeech  (https://github.com/SpeechColab/GigaSpeech)表现不俗,系统性能甚至优于 Espnet,应属业界领先。从数据,目前中文开源语料库的数据量、场景多样性等方面,与商业平台还存在质的差距。因此在一些数据覆盖不足的高难度场景下,识别率差距明显。可以说,公开领域仍需要更多样化的海量开源数据;同时在非监督自学习、鲁棒数据增广算法方面,行业技术也仍需要突破。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部