一群工程师，让听障群体“看见”了声音_

鱼羊发自凹非寺

量子位报道 | 公众号 QbitAI

看到这样一张图，你是否会露出“暴露年龄”的会心一笑？

电脑还只有dos系统的年代仿佛还没过去多久，智能手机却已俨然成为在现代社会中生活的标配。

科技的进步，无疑给大多数人的生活带来了便利。但其高速的发展，却也不免带来了这样一个问题：

如果有人跟不上技术发展的节奏，怎么办？

这其实就是技术人员要做的事，让弱势群体也能够感受到科技的温度。

有人给出了这样的答案，并且就在最近，身体力行实践了这句话——

把AI实时字幕，带进了中国聋人协会的手语课堂。

不一样的课堂

疫情期间，上网课成为了一种常态。对于经常为听障人群组织培训、会议的中国聋人协会而言，这种线上远程开会、上课的需求也越来越多。

问题是，对于听障人士而言，这样的工作、学习方式天然存在着种种障碍。

视频没有字幕，就是其中一种。

虽然很大一部分聋人群体，能在助听器和人工耳蜗的帮助下听见外界的声音，但“听到”不代表“听清”，他们的声音世界仍像是被打上了马赛克，日常的沟通交流往往还是需要辅以文字。

如何能让这个特殊群体更简单地获取学习资源，参与培训、会议？

中国聋协想到了AI——现在在很多会议活动里，都能见到AI实时字幕的身影，那么能不能把这样的AI能力带到聋协的培训课堂里呢？

说来也巧，当中国聋协主席杨洋在同钉钉的一次工作会议上提出这一想法，立即便得到了对方的响应。

彼时，钉钉的工程师们正好在为钉钉的视频会议、直播产品开发类似的功能。得知聋协的诉求，钉钉技术团队当即决定，联合阿里达摩院团队，为听障群体搭建一套基于钉钉的无障碍工作平台。

初战未捷

实战的机会很快就到来。

深圳聋协组织了一场手语翻译培训，需要钉钉进行AI实时字幕的技术支援。

据钉钉直播智能翻译技术负责人卜瑞回忆，当时，留给技术团队的准备时间并不多：周一周二功能刚在钉钉上线内测，周六就要第一次公开使用。

不过一开始，卜瑞和他的同事们都颇有信心——虽然功能刚刚上线，但背后的技术方案其实已经相对成熟。

钉钉这次提供给聋协的AI实时字幕解决方案，核心采用的是达摩院语音实验室的E2E-ASR（端到端语音识别）技术。早在2020年9月的云栖大会上，达摩院就对外公布过相关技术进展：

基于达摩院提出的SAN-M网络结构，及基于SCAMA的流式端到端语音识别框架，在提升计算效率的同时，还能将高难度场景中的语音识别错误率降低近三成。并且，该技术解决了高精度语音交互任务长期依赖云端算力、语音指令出现延时等问题，使得基于该框架的整套语音识别系统可以部署在手机端。

相关论文，均已发表在了语音技术顶会INTERSPEECH上。

谁曾想，在聋协的第一次实战，培训现场还是出现了不少在工程师们意料之外的情况。

一方面，听障人群之间，会用到“聋人”、“听人”这一类平时不常见的专用词汇。钉钉的语音识别AI初来乍到，没有经过特训，一时间在这样的词汇识别上出了不少错。

更为严重的是，在第一场培训中，还出现了字幕显示着显示着就没了的情况。甚至在卜瑞和同事们拉来了阿里云视频云、达摩院的技术人员紧急“会诊”之后，情况也未能得到彻底的解决。

很尴尬，觉得有点辜负了参与培训的老师、同学们的期待。

“终于松了口气”

初战未捷，成为了悬在卜瑞和同事们头上的一朵阴云，回到大本营之后，便迅速开始了问题的排查。

事实上，像深圳聋协此次组织的手语培训课程，在形式上与正常的视频直播还是有不小的区别。

因为很多听障人士其实是看不懂手语的，所以在手语老师之外，这样的课程中还会有一位负责翻译手语的口语老师。也就是说，在这样一场直播中，口语老师和手语老师要保持全程连麦。

并且跟我们常见的新闻播报场景相反，口语老师接入的窗口并非主窗口，而是左下角的次窗口。因此语音流也是从次窗口输入的。

从系统流程上讲，要在这个场景中部署AI实时语音，是这样一个过程：

主播通过钉钉直播开启语音识别的功能，在主播的直播推流到阿里云CDN后，会分别被云导播跟ASR服务拉取，云导播服务负责字幕样式，实时展示，音、画、字的同步校准，以及链路的高可用等。

ASR服务则只负责解析音频数据，对音频重采样后输出给达摩院语音识别模块，生成字幕流并将其传给云导播。

云导播收到字幕流后，会计算显示时间戳（pts）时间，根据pts做音、画、字同步对齐，最终混流回推CDN，分发给用户播放。

回溯整个流程，技术人员们很快发现，在内部测试时，由于网络条件良好，次窗口的音频流和主窗口的视频流之间偏差不大，在可以容忍的范围之内。

但真正到了培训现场，网络情况较差，经常会出现抖动。这种持续的网络不稳定慢慢积累，就使得偏差超出了技术方案的容忍度范围，导致出现掉字幕的情况。

找到了原因，技术团队便立即着手对方案进行优化。一方面，是针对听障人群的特殊语料库，对语音模型进行特训。

另一方面，更换推拉流协议，打通与CDN传输状态的深度感知，增强网络波动兼容性。并改进时间戳对齐算法，采用滑动对齐的方式，确保在弱网抖动的情况下，当主播或连麦者客户端掉线发生闪断重推时，不会影响云导播对音、画、字的处理，对于观众来说看到的只是画面出现了轻微的卡顿。

方案调整之后，在第二周的培训课程中，AI实时字幕全程表现稳定，参与培训的老师学员纷纷表示“很有帮助，体验不错”。

卜瑞和同事们悬着的心也终于放了下来：

总算是松了口气，一周前丢的脸给挣回来了。

不一样的成就感

就在几天前，中国聋人协会正式宣布，基于钉钉搭建的无障碍工作平台会广泛投入使用，中国聋协系统全国31个省份、80多个城市的听障人士，均可利用语音转文字、AI实时字幕，无障碍开展视频会议、直播、网课学习等。

像AI实时字幕这样的功能实现，在一些to B的场景中其实并不鲜见，但也往往费用不菲。

此次协助中国聋协上线无障碍平台，钉钉又投入了多少人力、资源成本？

谈及这个问题，钉钉音视频资深技术专家胡洪卫回答说，在这个项目上，他们秉持公益心态，因此并没有太多地考虑成本问题。

从人力的角度来说，因为参与项目的还包括达摩院、钉钉生态伙伴等各方力量，后续还会保障无障碍平台功能的长期迭代，因此也不太好衡量。

不过，有一个答案是肯定的，做这个项目，“很值”。

在帮助聋协上线AI实时字幕的过程中，有来自听障朋友的反馈是这样的：

听障带来的影响，其实不只是日常沟通、交流方面存在障碍，还会延伸到很多方面。

比如职业天花板很明显，接受再教育的难度很大。

客观的现实就是，社会上大部分和职业提升有关的公开课程，比如医疗、法律、管理课程等，并不会专门为听障群体准备字幕。

AI实时字幕这样的功能，给特殊人群带来了新的可能性。

听到这样的反馈，胡洪卫、卜瑞等工程师真正感觉到自己作为技术人员，正在用技术创造社会价值。“那种自豪的感觉和精神上的鼓舞，是以前窝在实验室里做算法Demo时体会不到的”。

科技向善，不外如是。

科技的发展无疑会给人们的生活带来改变，但这种变化之中，人和技术本身不应该是对立的。

这一次，AI就给出了一张高分答卷，你觉得呢？

头条号入驻

量子位追踪报道人工智能产品和技术新趋势

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

一群工程师，让听障群体“看见”了声音

头条号入驻

开源大模型Llama3突然来袭

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

GPT Store都开不下去，这家国产平台怎么敢走这条路的？？

财经自媒体联盟更多自媒体作者

热文排行榜