旷视开源底层AI框架,瞄准AI基础设施建设

旷视开源底层AI框架,瞄准AI基础设施建设
2020年03月26日 18:33 子弹财经

作者 | 龙老师

近期,最高层做出决定,围绕加快新型基础设施建设进度作出部署,有关部门和地方纷纷出台相应举措。一时间,市场掀起一股“新基建”的热潮。

其实,新基建的提法很早,早在2018年12月19日至21日,中央经济工作会议在北京举行时,会议就重新定义了基础设施建设,把5G、人工智能、工业互联网及物联网定义为“新型基础设施建设”,随后“加强新一代信息基础设施建设”被列入2019年政府工作报告。

为什么在当下这个时段,重申加速新基建?笔者认为,短期来看是为了增加对冲疫情对经济的负面效应,长期来看是为了给70%还没有完成数字化转型的传统经济换上数字化引擎,以起到降本增效、焕发活力,从而应对经济下行挑战和转型升级压力。

对于最近引起广泛关注的“新基建”,旷视科技可能是国内最早做出实质性反映的AI厂商。作为一个原生AI企业,旷视对于AI运用于生产力提升中的企业痛点和难点了如指掌,而为了进一步降低深度学习应用门槛、提升AI算法研发的效率,和帮助企业降本增效,旷视重新定义了AI基础设施并宣布开源自用6年的深度学习框架,其中看点满满。

1、同“框”

2020年3月25日,人工智能领军企业旷视举办线上发布会,旷视联合创始人兼CTO唐文斌重新定义了人工智能底层的基础设施,并正式发布了旷视AI生产力平台Brain++,同时宣布开源其核心框架天元(MegEngine)。

(图 / 旷视官方)

这被认为是国内AI领军企业为经济发展所依靠的新一轮的技术进步,进一步奠定坚实基础的实质性操作,也具有重大战略意义。

什么是AI生产力?什么是框架?我们先从框架说起。

两个问题——什么样的企业做开源框架?框架是干什么的?首先,开源框架是AI基础设施的一部分,它的推出至少有一个前提,就是已经有足够多的用户拥抱这一生态,更有足够多的未来用户希望利用这一生态。因此,开源框架的推出也意味着一个企业的AI生态逐步走向成熟。

所以,举目全球,能推出开源框架的基本都是顶级技术企业。

国际巨头推出的开源框架中,鼎鼎大名的有TensorFlow、 PyTorch、Caffe、CNTK和ONNX等,这背后又分别站着谷歌、Facebook及微软等巨头;另外,百度在宣布“All in AI”的前一年,开源了自研深度学习平台PaddlePaddle;此后,华为发布了自研深度学习框架MindSpore,并称将于2020年一季度开源。

(图 / 旷视官方)

因此,旷视科技能够推出自研的开源框架,说明至少在这一领域,已经与国内外巨头站在了同一条顶级赛道里。

那么,框架又是干什么的呢?

我们可以简单回顾一下计算科学的发展史,它的规律总体来说是性能不断提升,使用门槛不断下降。

笔者有幸采访过50年代的诺贝尔奖得主,他告诉我们,最早利用IBM大型机进行科研的人,往往要先编程,再运算,最后分析出结果。

现在我们应用的AI技术中,深度学习的引入是一个重要的拐点。但由于AI还属于爆发早期,所以能够运用AI的企业大多需要自己完成算法、算力、数据平台的搭建。换句话说,你要做出一盘菜,得自己种植、采摘,想好如何炒,最后自己动手炒……这带来的一个问题就是,企业需要配备专门的AI开发团队,开发团队要拥有很高的AI资质,这对于大部分企业,特别是中小企业来说是很不现实的。

(图 / 旷视官方)

OK,那我不自己炒,买个泡面填肚子如何?也行,也有AI企业提供一些工具,但它们的特点是功能单一而且能力偏弱,二次开发难且潜力弱。所以,仅靠“泡面”只能一时维生,无法长期发展。

天元框架有什么优势?我们仍用炒菜来打比方:算法研发就像是烹饪艺术,解决场景需要的制化算法就像是一盘菜,而深度学习框架就是炒菜(训练算法)的锅具。在传统开发环境中,AI开发者们会根据算法方向的不同而选用不同的框架,但是从原型设计到部署还需要切换开发工具,就像厨师每炒一道菜还要换个锅,锅和灶眼也不见得适配。

而为了解决这些问题,旷视推出了训练、推理及部署一体化的工业级深度学习框架,这样一来,天元对于AI开发者来说,就是一套智能化的一体锅,覆盖从训练到推理再到部署装盘全流程。不仅自带菜谱(模型库)还支持自定义菜谱(模型导入),具备显示屏灵活可控、方便操作,特别适合既要求美味,又追求效率和体验的AI生产者。

除此之外,旷视还为开发者搭建了覆盖算法研发全流程的AI生产力平台Brain++,在深度学习框架之外,提供数据管理和计算调度的支持。对应到炒菜的流程中,就是为“AI大厨”们准备了一间集成化、现代化的中央厨房,不仅有智能一体锅(框架),还包括配菜间(数据)和燃气灶台(算力)。

旷视从2013年左右开始做深度学习,在2014年完成了自研框架的搭建,再经过6年的产业实践和工业验证,正式于2020年3月向全球开发者开源,是安全可靠的国产深度学习框架,也见证了中国AI企业的世界性崛起。

2、新基建需要“基建的基建”

与2012年兴起的AI热相伴随的,是AI如何普及和为广大非技术性企业使用的推广普及问题。这个问题的更深一层,是对AI真正的产业化潜力和普及速度的追问。

有这种想法,不足为奇。如前所述,AI在普及早期,的确是面临应用难、推广难的问题,这不是一两年可以解决的,需要几代工程师的努力。

旷视在这个过程中也面临同样的问题。旷视自己趟过的路——是从早期的算法层向上生长,结合行业需求形成了软硬结合的全栈解决方案进入到了应用层,并构建了如机器人操作系统河图、城市管理操作系统等数字化中台或硬件中台。

(图 / 旷视官方)

但是旷视很快发现一个问题——旷视自己的开发能力是有限的,但场景中层出不穷的新问题是无限的。

特别是大量面对具体场景的算法,需要解决的不仅仅是算法问题,还需要深刻的行业know-how,也就是必须由本行业的专家提出问题的最佳解法,然后变成AI算法。但本行业的专家未必懂AI,这就造成了围绕具体场景开发新的算法很难、很慢,且成本很高。

所以,为什么我们看到AI最早在公共服务市场爆发呢?是因为城市管理机构有迫切的需求,又有很强的支付能力,所以很多AI企业才能用项目制的方式来解决具体的问题。

旷视科技意识到,这种模式只适合早期,要想让AI真的普及,真的形成生产力,从根本上来说,应该先解决基础设施建设的问题,才能让AI应用拥有持续的动力。我们或许可以说,这是引爆生产力的前提。

旷视CTO唐文斌则认为,在AI这个行业里,只有AI芯片平台和AI生产力平台能够被称为AI基础设施。抛开芯片这个硬件平台不谈,生产力平台是什么?行业一直没有清楚的答案。

而旷视此次的发布会,就是旷视对于“AI生产力平台”这个概念的定义。简单来说——旷视认为算法研发和普通编程不同,是一个系统工程,所以就需要一个能够协同优化数据、算法及算力的平台级产品,旷视对此提出了“AI生产力平台”的概念,并发布了旷视自研的AI生产力平台——Brain++。

(图 / 旷视官方)

旷视Brain++的出现,是为了帮助企业和开发者提升AI生产效率,规范生产流程,让每个拥有小场景需求的人都可以做出能够解决其关键问题的靠谱算法,真正做到“深度学习,简单开发”。

张小龙经常讲的一句话是,把简单留给用户,把复杂的事情留给开发者。所以,要想明白旷视的Brain++是如何实现“深度学习,简单开发”,我们还得略微研究一下这个平台的“三位一体”能力。

三位一体是指的AI落地的三要素——算法、数据和算力在一个平台中得到了动态平衡的最优解。那么,具体到旷视的Brain++,我们看到除了天元框架来起到一个算法生产中台的作用外,旷视也同步构建了深度学习计算平台MegCompute和数据管理平台MegData,这些与天元框架共同组成了Brain++。

简而言之,计算平台MegCompute解决的是优化计算资源配置的问题,在没有调配平台的时候,算力分配依靠人工“排班”,缺乏弹性。举个简单的例子,A工程师分配到了4块显卡的算力,但他不会24小时工作,当他不用的时候,别人也无法用,而反过来A如果临时需要增加算力,别人的卡他也没法用。而算力调度平台可以动态分配,你不用的时候我可以用,做到99.99%饱和的情况下又不过度浪费。

(图 / 有Megcompute前(多人共享计算资源效率低),来源:摄图网,基于VRF协议)

(图 / 有Megcompute前(弹性计算空间),来源:摄图网,基于VRF协议)

数据管理平台MegData则是解决了数据清洗、标注的标准化和自动化,据说以前AI行业有个玩笑,说人工智能实现的基础是“人工”,也就是手动标注。但MegData解决的问题是,如果你把一张照片标注为女性,那么下次同类的照片会自动标注,久而久之,系统会被训练的更为精准、智能,从而解决了数据燃料的“热效率”问题。

而这两个体系和天元的结合,则意味着AI基础设施自身的数据化、智能化配置达到了一个新的高度,总体效果则是极大降低了人工劳动,让AI研发者的重点从如何调教AI本身,变成如何解决具体问题。

发布会现场,天元开源项目负责人田忠博介绍,旷视的1400多名开发人员自己首先是Brain++的第一批用户,他们在研发过程中遇到了很多痛点,这些痛点也是行业共通的痛点,所以旷视在打造天元和Brain++的过程中就在不断克服并解决这些问题。

(图 / 旷视官方)

“我们可以说是帮用户先趟了一遍‘雷’,在Brain++开发的过程中遇到的问题,基本都是当前企业应用AI算法中会遇到的共性问题,从前端的数据生产、预处理和标注,到后期的模型训练、优化和算法封装,以及最终如何帮助AI业务落地,这些问题我们都遇到并解决了,”田忠博表示,“因为有痛点,有针对性,所以具备算法与框架的协同、高效训练系统和大规模能力的Brain++能够很好地克服这些问题。比如在算法训练环节,天元(MegEngine)可以帮助开发者实现大规模的、弹性的训练,将产品从实验室原型到工业部署原本数周或数月的时间成本缩短到小时级。”

这意味着在天元的加持下,企业可能只要以小时为单位的时间投入,就能把原本旷日持久的算法训练和推理的任务搞定,从而尽快形成算法进行产品的部署和封装。这对于大量本身不具备AI底层能力的企业来说,极大地降低了应用门槛,提升了AI应用的速度和优化效率。

发布会中,旷视除了重磅开源深度学习框架天元,还向业界展示了Brain++商业化的全景。“我们不仅将把深度学习框架开源使用,也将开放数据能力、算力能力给企业级种子用户,至少能够先让一部分企业实现AI+。”旷视资深副总裁赵立威提到,Brain++可以为企业用户提供AI生产全流程的服务,从专业咨询,到数据生产、模型优化,再到私有化AI平台的建设运维,满足各行业在“AI+”的过程中降本增效、自主安全和商业创新的诉求。

(图 / 旷视官方)

而这个平台的建立,也标志着旷视的客户,可以建立自己的竞争壁垒。

行业研究显示,随着数字化和智能化进程加速,未来企业的护城河之战将从“如何获取更多数据”转为“如何更智能地利用数据”。AI产业的马太效应持续加剧,这些壁垒将越来越高,各行业的“AI+”水平差距也将拉得越来很大。那么,旷视推出的深度学习框架和AI生产力平台就是打破这些壁垒的“杀手锏”。

3、应用面面观

不得不说,一场疫情除了给我们带来沉重的压力,也压出了中国数字化经济的韧性和创造力,几乎所有涉及产业互联网的企业,如腾讯、阿里、百度、华为及旷视都在利用AI在抗疫赋能上进行了种种的努力。

可以说,疫情是国民经济的试金石,也是AI经济的试验场。

举一个我们每个人都熟悉的例子——每个小区门口都配备了测温员,对于进出人员进行测温,由于小区的人流毕竟有限,所以人力尚可支持。

但是对于机场、车站及口岸这种人流超级密集的地方,人工测温就有极大的短板,不仅速度慢而且还容易增加感染风险。

在这个压力下,旷视在疫情期间通过Brain++高效的算法研发能力,用了不到10天的时间就完成了AI测温产品的部署,其中最核心的算法开发,只用了不到两天的时间。

(图 / 旷视官方)

简而言之,旷视的视觉AI可以连续且动态的检测大人流场景中每个人的体温,实时判断其是否经过测温,再调用非接触的红外设备进行测温,遇到温度异常会自动告警。

如果以前这个场景需要20个测温员,那现在只需要一个设备的操作员,节省下来的人力就相当于大大增加了设备的生产效率。而这其中,非接触测温设备相当于四肢,真正发挥作用的是AI识别系统。问题的关键在于,如果按以往的开发模式,开发一套这个系统可能需要200个工程师忙一周。

表面上节省了20个测温员,深层次节省了200个工程师,而且极大地提升了效率,这就是AI基础社会搭建完成后对社会生产力的提升,它不是一个单向提升,而是一个全向提升。

如果说上面的例子主要是体现了天元框架迅速生产算法的问题,我们可以再看一个Brain++在制造业里发挥“三位一体”能力的问题。

旷视有一家制造业的典型客户,它的配电产品生产过程中,经常面临配件颜色搭配错误、字符印刷残缺等质量问题。

长期以来,这个问题主要靠肉眼来识别,后期引入了传统的机器视觉,但效果不佳。

让我们看看Brain++是怎么解决这个问题的。

首先,数据管理平台MegData通过数据增广技术,可以为业务场景提供了大量的训练数据,降低工厂采集整理数据的成本;而深度学习框架MegEngine把训练、推理和部署一体化,实现了新的算法模型的快速选型、优化和封装,加上足够的算力分配,Brain++“三位一体”的结果就是,新的智能质检算法很快出现,有效地降低了生产线中颜色错误、字符残缺漏检率和误检率,极大地提升了工厂的生产效率。

其实,以上的两个案例仅仅是较为大型的应用场景,我们真实面临的还有许多“小场景”。而这些小场景意味着中小企业在应用AI时千变万化的需求,对于AI公司来说,解决这些问题不难,难的是以非常低的成本和很高的速度为这些企业提供它们的支付能力允许的服务,增加它们的AI竞争力。

打个比方,早期的AI就像米其林三星的餐厅,好吃但是太贵,而且一家店只有十几个位置。而旷视做的工作,相当于复刻了米其林的美食基因又把它中央厨房化了,这样大家都可以吃到便宜又好的菜,而且高度个性化。

即使这个解决方案以前没有出现过,Brain++也能迅速创新,这对于场景千变万化的中小企业来说,极大地降低了获取新能力的门槛和成本,从而为降本增效,打开传统积极的发展枷锁提供了条件。

举例说,比如某个制衣厂在疫情期间临时转型生产口罩,但缺乏标准化的质检流程导致良品率下降,那么传统的办法就是增加人工检验的人力;又比如某些新零售门店,要动态分析消费者在货架前停留的时间和补货的频率,从而优化供应链,那就需要很多人看着监控做记录。而AI产业的发展方向是避免AI技术成为企业的成本中心,这就需要发力底层的AI基础设施建设,激发生产力才加速算法的创新效率,从而分摊技术的投入成本。

(图 / 旷视官方)

为此,我们看到,整个AI产业要实现真正意义上的普及,需要具备为每个社会经济细胞赋能的能力,而这种能力则取决于整个国家、产业的AI基础社会建设,也取决于企业AI生态的基础是否厚实。

就好比智能手机流行爆发总是在高消费的城市市场,但能真正发挥普及作用往往取决于“村村通”式的广泛覆盖,后者才是考验基础建设能力的关键节点。

疫情苍穹下,AI大普及的时间窗口已经开启,而旷视的努力则为自己通向这个蓝海市场挣得了一张入场券。与巨头同框,只是个开始,远不是终局。

文中题图来自:摄图网,基于VRF协议。

财经自媒体联盟

新浪首页 语音播报 相关新闻 返回顶部