Leaderboard 加入开源 WeNet multi-cn 模型_

本周 SpeechIO Leaderboard Model Zoo 接收了来自 WeNet-E2E 团队提交的开源中文模型 wenet_muliti_cn，该模型训练基于 WeNet toolkit, 数据为现有全部开源中文数据语料库，leaderboard自动化 pipeline 的测试结果如下图，我们并列展示了：

1、多个工业头部厂商的平均值 [SOTA值]

2、工业厂商中的尾部性能，百度API

3、 Leaderboard中现有的两个开源模型 Kaldi multi-cn 和 WeNet multi-cn

点评：

1、 Kaldi mutli-cn 与 WeNet multi-cn 在 SpeechIO 测试集上性能互有胜负。有两点需要说明：a)WeNet multi-cn 的训练只应用了开源语料，而 SpeechIO Leaderboard 中的Kaldi multi-cn 模型额外使用了现有开源语音数据库以外的纯文本语料，在语言知识层面有绝对优势。依据小编的经验该优势表现在识别率上大概应在3-8个百分点。若刨去此部分，WeNet multi-cn 模型应会大部分占优，但如何在端到端系统中更有效地使用额外纯文本语料，也一直是端到端算法研究中的热点问题。b) Kaldi multi-cn 模型的全部资源大小约 15GB, WeNet multi-cn 模型的全部资源大小约 200MB。上述两点，对于传统系统与端到端系统，非常具有代表意义，供读者朋友们参考。

2、从图表中也可以看到，开源模型在一些简单场景下(如新闻联播，罗振宇跨年），性能已经逼近尾部商业引擎。

3、小编认为，开源系统在性能上能超越部分商业引擎，具有非凡的意义。目前的差距基本上可以从算法和数据两方面分析。从算法上，WeNet toolkit 在近期面世的全球最大开源英文监督语料库 GigaSpeech (https://github.com/SpeechColab/GigaSpeech)上表现不俗，系统性能甚至优于 Espnet，应属业界领先。从数据上，目前中文开源语料库的数据量、场景多样性等方面，与商业平台还存在质的差距。因此在一些数据覆盖不足的高难度场景下，识别率差距明显。可以说，公开领域仍需要更多样化的海量开源数据；同时在非监督自学习、鲁棒数据增广算法方面，行业技术也仍需要突破。