AI 降噪、多平台支持，在线课程背后的黑科技大公开！_

互联网让知识变得触手可及，当程序员想系统学习某一项技术时，相信很多人会采用便捷的在线听课。在线教育不再受限于地域和时间，打开手机便能随时随地上课：

据中商产业研究院发布的《2019 年中国在线教育市场前景研究报告》显示，中国在线教育用户从 2012 年的 5957 万人增长至 2016 年 1.38 亿人。预计2019 年中国在线用户规模将突破 2 亿人，其中手机用户占大比例，在 2019 年将突破 1.5 亿人。

在线教育如此快速地发展，除了我们的教育意识加强外，其背后快速迭代优化的技术也起了重要的促进作用。

毕竟在线课堂中对视音频的清晰传播与速度要求很高，那么这部分的技术是如何实现的？全球各地的网络存在很大的差异性，如何保证来自不同地区的师生能接收稳定的音视频，共同完成课程教学与学习呢？

7 月 11 日，声网 Agora 在线教育行业实时音视频解决方案媒体沟通会上，声网 Agora 在线教育行业产品总监仇媛媛、首席音视频RTC专家陈功分享了声网的实时音视频技术。

在线教育发展历程

随着互联网的发展，在线教育也不断地蓬勃发展，回顾其发展历程可分为这几部分：

1.0 网校模式（90 年代末 - 2005 年），这时期的代表是 101 网校，核心技术是 Web2.0；

2.0 录播课模式（2006 年 - 2012 年），这时期的代表是新东方在线，核心技术是 CDN 点播；

3.0 直播课模式（2013 年 - 2017 年），这时期的代表是学而思，核心技术是 CDN 直播；

3.0+ 互动直播课模式（2018 年-今），这时期的代表是 Vipkid，核心技术是低延时互动直播；

4.0 全景互动模式（5G 时代），核心技术应为 AR/VR、AI、超高清、超低延时直播技术。

尽管课程模式技术不断迭代，但用户对基础的在线实时互动课堂场景需求可分为四大类：1对1课、小班课、互动大班课和双师课堂，针对各场景所遇到的技术难题均不同，需要不同的技术解决方案。

1 对 1 课堂：跨境网络该如何传输？

在最基础的 1 名教师对 1 名学生在线教学的场景中，仇媛媛说，这里有两个技术挑战：一是网络接入，例如有来自北美、菲律宾等地区的外教，还有分布在中国三、四线城市网络状况不好的学生，这些特殊网络该如何覆盖呢？

二是网络传输，由于外教有可能分布全球，为了保证传输质量，按照以往的做法是需要建立专线的，但专线的价格较高；而如果通过普通互联网的方式传输，网络质量会很差。

对此，声网提供虚拟实时通信网络 SD-RTN™，采用分布式架构，解决1V1等场景下跨境的网络传输问题。SD-RTN™ 在全球部署了 200 多个机房节点，搭建智能路由。

SD-RTN™ 是基于 UDP (User Datagram Protocol) 的网络架构，通过在互联网上不同的数据中心部署彼此协同工作的软件网络单元，相当于添加了一个虚拟层，这样是为了确保传输的稳定性和低延迟。特别是在弱网环境下，SD-RTN™ 根据以下节点条件实时自动分配最优路径：传输状态、负载条件、与用户的距离、响应时间。

目前其服务可用性达 99.99%，实现 60% 视频抗丢包，80% 音频抗丢包。

小班课环境嘈杂影响听课？AI 降噪来救驾！

小班课通常采用 1 对 4 或 1 对 6 的授课形式，其遇到的技术难题有：一是与1 对 1 课堂相比，一个学生同时要接收到 4-6 路的音视频流，这样对网络带宽的要求增加。一旦网络带宽不足，就会有丢包、卡顿的现象。

二是对手机性能有不少的挑战：每增加一段音视频，就要增加端上的解码压力，多余的解码占用和消耗 CPU 过高，手机一样会卡顿。

三是周围环境嘈杂的话，将会影响学生在课堂上的听讲。

对此，陈功介绍道，声网在策略上采用“老师优先、音频优先”，对于“老师优先”，在声网的 SDK 中增加“流权重”的概念，对高权重的流做一定的趋向化策略。而音频优先是，当检测出严重的带宽竞争时，会对视频的码率帧率进行一定的降阶处理，如果实在是无法恢复的情况下，技术实现上将会考虑关闭，保障基础的音频顺畅播放。

在机器性能方面，针对低端机做了优化，使得 CPU 占用降低了 20%。

至于环境嘈杂的问题，陈功介绍这是通过 AI 降噪来解决的。先是基于深度学习来实现人声和背景噪声的实时分离的，还能自适应各种声学结构，使得集成和调试的效果更好。目前 Agora 支持 Android、iOS、Windows、macOS、Linux、小程序、Web 等多平台的使用。

互动大班课如何解决延时问题？

在大班课里，上百人或者上百万的人是如何接入互动呢？你可能脑海里会有“卡卡卡”的字眼，毕竟之前大班课所用的技术是 CDN 直播，会有 3-10 秒延迟，CDN 连麦需要 2-3s 的切换时间，且一般通过用文本、大幕的形式，互动比较少。

对此，声网采用低延时和无缝连麦策略，学生可在 1 秒内接收到老师音视频。

在大规模的接入请求下，SD-RTN™ 提供 AP+UniLbs 统一接入分配服务，例如可接入 WebRTC 、P2P Stun、SD-RTN™ Edge 节点，来保证接入的合理性和最优化，还有接入服务是一个延迟的登录。

SD-RTN™ 提供多种模式数据的转发，包括单播、组播、广播，在单播和组播里是用到新型的网络拓扑。在这种拓扑下，如遇到大规模的用户将会自动发展成树形拓扑。这样的话可以在不同的区域和不同的机房间，自动地选出超级节点来做转发的代理。这样就可以智能地弹性扩容，来支持百万级别的课程教学。

双师课堂的画质流畅性如何保证？

在双师课堂模式里，主讲教师通过直播的方式给学生上课，在线下会有一名助教对学生进行指导。

此时学生看到的是一个相对固定的背景 (电子屏幕)，和运动的前景 (老师) 叠加组成。而且需要大屏幕教学，84 寸甚至是 124 寸大屏，屏幕越大，对画质的要求越高，很多产品是采用 1080p 30fps 来设计，但陈功认为这样设计的话，在运动物体的边缘会有视觉上的拖影和顿挫感。为了解决此问题，声网采用 1080p 60fps 来改善观影体验。

除了上述四个基础课堂，声网还推出四个创新场景课堂：游戏化教学、在线音乐教学、AI互动课堂、超级小班课。随着技术的发展，相信在未来，在线教学也越来越来个性化、智能化，学生可选择更加灵活的授课方式。

集成如此多技术的 Agora，实际接入会很困难吗？我在官网试用了一个 Demo，如官宣的“4 行代码”体验开发了自己的第一个视频通话工程：

最后谈及随着5G的到来，那么之前声网所致力解决的网络问题是不是就迎刃而解了？

陈功回答道，网络这块分两段，一是网间通信，通过智能路由的最佳路径保证大网的传输质量。二是当用户接入时，网络丢包应对的抗丢包策略。虽然我们希望网络的基础设施越来越好，但不要忘了我们对于音频、视频高清的追求是无止境，现在传输 500K 数据可以达到较好的传输效果，等 5G 后可能会要求传输 5 兆、50 兆数据时，这样的话 500K 就不够用了。

正因为人们对科技无止境的追求，我们技术人的步履也不断往前，未来可期。

头条号入驻

CSDN 专业的中文 IT 技术社区

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

AI 降噪、多平台支持，在线课程背后的黑科技大公开！

头条号入驻

全球机器学习技术大会盛大开幕！大模型的演进与 AI 创新之路

共赴 AGI 新时代，全球机器学习技术大会盛大开幕！

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人

财经自媒体联盟更多自媒体作者

热文排行榜