AI 降噪、多平台支持,在线课程背后的黑科技大公开!

AI 降噪、多平台支持,在线课程背后的黑科技大公开!
2019年07月18日 15:00 CSDN

互联网让知识变得触手可及,当程序员想系统学习某一项技术时,相信很多人会采用便捷的在线听课。在线教育不再受限于地域和时间,打开手机便能随时随地上课:

据中商产业研究院发布的《2019 年中国在线教育市场前景研究报告》显示,中国在线教育用户从 2012 年的 5957 万人增长至 2016 年 1.38 亿人。预计2019 年中国在线用户规模将突破 2 亿人,其中手机用户占大比例,在 2019 年将突破 1.5 亿人。

在线教育如此快速地发展,除了我们的教育意识加强外,其背后快速迭代优化的技术也起了重要的促进作用。

毕竟在线课堂中对视音频的清晰传播与速度要求很高,那么这部分的技术是如何实现的?全球各地的网络存在很大的差异性,如何保证来自不同地区的师生能接收稳定的音视频,共同完成课程教学与学习呢?

7 月 11 日,声网 Agora 在线教育行业实时音视频解决方案媒体沟通会上,声网 Agora 在线教育行业产品总监仇媛媛、首席音视频RTC专家陈功分享了声网的实时音视频技术。

在线教育发展历程

随着互联网的发展,在线教育也不断地蓬勃发展,回顾其发展历程可分为这几部分:

1.0 网校模式(90 年代末 - 2005 年),这时期的代表是 101 网校,核心技术是 Web2.0;

2.0 录播课模式(2006 年 - 2012 年),这时期的代表是新东方在线,核心技术是 CDN 点播;

3.0 直播课模式(2013 年 - 2017 年),这时期的代表是学而思,核心技术是 CDN 直播;

3.0+ 互动直播课模式(2018 年-今),这时期的代表是 Vipkid,核心技术是低延时互动直播;

4.0 全景互动模式(5G 时代),核心技术应为 AR/VR、AI、超高清、超低延时直播技术。

尽管课程模式技术不断迭代,但用户对基础的在线实时互动课堂场景需求可分为四大类:1对1课、小班课、互动大班课和双师课堂,针对各场景所遇到的技术难题均不同,需要不同的技术解决方案。

1 对 1 课堂:跨境网络该如何传输?

在最基础的 1 名教师对 1 名学生在线教学的场景中,仇媛媛说,这里有两个技术挑战:一是网络接入,例如有来自北美、菲律宾等地区的外教,还有分布在中国三、四线城市网络状况不好的学生,这些特殊网络该如何覆盖呢?

二是网络传输,由于外教有可能分布全球,为了保证传输质量,按照以往的做法是需要建立专线的,但专线的价格较高;而如果通过普通互联网的方式传输,网络质量会很差。

对此,声网提供虚拟实时通信网络 SD-RTN™,采用分布式架构,解决1V1等场景下跨境的网络传输问题。SD-RTN™ 在全球部署了 200 多个机房节点,搭建智能路由。

SD-RTN™ 是基于 UDP (User Datagram Protocol) 的网络架构,通过在互联网上不同的数据中心部署彼此协同工作的软件网络单元,相当于添加了一个虚拟层,这样是为了确保传输的稳定性和低延迟。特别是在弱网环境下,SD-RTN™ 根据以下节点条件实时自动分配最优路径:传输状态、负载条件、与用户的距离、响应时间。

目前其服务可用性达 99.99%,实现 60% 视频抗丢包,80% 音频抗丢包。

小班课环境嘈杂影响听课?AI 降噪来救驾!

小班课通常采用 1 对 4 或 1 对 6 的授课形式,其遇到的技术难题有:一是与1 对 1 课堂相比,一个学生同时要接收到 4-6 路的音视频流,这样对网络带宽的要求增加。一旦网络带宽不足,就会有丢包、卡顿的现象。

二是对手机性能有不少的挑战:每增加一段音视频,就要增加端上的解码压力,多余的解码占用和消耗 CPU 过高,手机一样会卡顿。

三是周围环境嘈杂的话,将会影响学生在课堂上的听讲。

对此,陈功介绍道,声网在策略上采用“老师优先、音频优先”,对于“老师优先”,在声网的 SDK 中增加“流权重”的概念,对高权重的流做一定的趋向化策略。而音频优先是,当检测出严重的带宽竞争时,会对视频的码率帧率进行一定的降阶处理,如果实在是无法恢复的情况下,技术实现上将会考虑关闭,保障基础的音频顺畅播放。

在机器性能方面,针对低端机做了优化,使得 CPU 占用降低了 20%。

至于环境嘈杂的问题,陈功介绍这是通过 AI 降噪来解决的。先是基于深度学习来实现人声和背景噪声的实时分离的,还能自适应各种声学结构,使得集成和调试的效果更好。目前 Agora 支持 Android、iOS、Windows、macOS、Linux、小程序、Web 等多平台的使用。

互动大班课如何解决延时问题?

在大班课里,上百人或者上百万的人是如何接入互动呢?你可能脑海里会有“卡卡卡”的字眼,毕竟之前大班课所用的技术是 CDN 直播,会有 3-10 秒延迟,CDN 连麦需要 2-3s 的切换时间,且一般通过用文本、大幕的形式,互动比较少。

对此,声网采用低延时和无缝连麦策略,学生可在 1 秒内接收到老师音视频。

在大规模的接入请求下,SD-RTN™ 提供 AP+UniLbs 统一接入分配服务,例如可接入 WebRTC 、P2P Stun、SD-RTN™ Edge 节点,来保证接入的合理性和最优化,还有接入服务是一个延迟的登录。

SD-RTN™ 提供多种模式数据的转发,包括单播、组播、广播,在单播和组播里是用到新型的网络拓扑。在这种拓扑下,如遇到大规模的用户将会自动发展成树形拓扑。这样的话可以在不同的区域和不同的机房间,自动地选出超级节点来做转发的代理。这样就可以智能地弹性扩容,来支持百万级别的课程教学。

双师课堂的画质流畅性如何保证?

在双师课堂模式里,主讲教师通过直播的方式给学生上课,在线下会有一名助教对学生进行指导。

此时学生看到的是一个相对固定的背景 (电子屏幕),和运动的前景 (老师) 叠加组成。而且需要大屏幕教学,84 寸甚至是 124 寸大屏,屏幕越大,对画质的要求越高,很多产品是采用 1080p 30fps 来设计,但陈功认为这样设计的话,在运动物体的边缘会有视觉上的拖影和顿挫感。为了解决此问题,声网采用 1080p 60fps 来改善观影体验。

除了上述四个基础课堂,声网还推出四个创新场景课堂:游戏化教学、在线音乐教学、AI互动课堂、超级小班课。随着技术的发展,相信在未来,在线教学也越来越来个性化、智能化,学生可选择更加灵活的授课方式。

集成如此多技术的 Agora,实际接入会很困难吗?我在官网试用了一个 Demo,如官宣的“4 行代码”体验开发了自己的第一个视频通话工程:

最后谈及随着5G的到来,那么之前声网所致力解决的网络问题是不是就迎刃而解了?

陈功回答道,网络这块分两段,一是网间通信,通过智能路由的最佳路径保证大网的传输质量。二是当用户接入时,网络丢包应对的抗丢包策略。虽然我们希望网络的基础设施越来越好,但不要忘了我们对于音频、视频高清的追求是无止境,现在传输 500K 数据可以达到较好的传输效果,等 5G 后可能会要求传输 5 兆、50 兆数据时,这样的话 500K 就不够用了。

正因为人们对科技无止境的追求,我们技术人的步履也不断往前,未来可期。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部