趋动科技:以GPU池化释放算力,加速AI在制造业落地

趋动科技:以GPU池化释放算力,加速AI在制造业落地
2022年08月08日 22:05 数控铣床2007

如果前几年业内还在验证人工智能的价值与可行性,现如今人工智能已经成为切实改变世界的革新技术,工业4.0时代的企业也逐渐认识到它对制造业转型升级的巨大价值。根据中国信通院发布的《人工智能白皮书(2022年)》显示,人工智能正在加速与制造业的融合,成为制造业发展的新动能,围绕着算法、算力和数据的技术创新将是人工智能落地制造业的关键。

◎ 文/ e-works 王聪

不难看出,在基于人工智能实现从数据到信息、知识、决策的转化过程中,算力正在成为挖掘数据价值的核心支撑力和驱动力。然而在现实应用中,作为高级图形处理和算力支持的GPU利用率却并不高,传统的物理绑定GPU方式正在束缚算力资源,让其无法发挥应用的价值,更别提在高级别渲染、虚拟现实和深度学习等项目中灵活的进行资源协作。

面对人工智能与制造业深度融合带来的算力挑战,趋动科技创新运用GPU资源池化的方式摆脱物理束缚,使用户能够根据应用灵活调用GPU资源、释放GPU价值。在日前趋动科技联合e-works举办的“智能制造行业AI算力池化”在线研讨会上,趋动科技售前解决方案顾问洪喜如详细介绍了“OrionX(猎户座)计算平台”和“GEMINI(双子座)AI训练平台”的功能特点,他表示趋动科技不仅能够通过池化GPU灵活分配资源,从而支持更多人工智能负载,还能为极端制造场景下运行的应用提供高性能算力,为企业实现算力资源最大化提供有效支撑。

洪喜如

趋动科技

售前解决方案顾问洪喜如

未来已来 

算力成为人工智能落地关键

回顾过去的一年,人工智能在细分垂直领域的探索明显加快,许多工业智能公司也相继完成了标杆场景的应用落地。埃森哲预计到2035年,工业因智能化应用增加值增速可以提高约2.0%,是所有产业部门中提高增幅最大的。《“十四五”智能制造发展规划》提出,到2025年,规模以上制造企业基本普及数字化,重点行业骨干企业初步实现智能转型。

在洪喜如看来,如果把数据比作第四次工业革命的燃油,那算力就是要把它转换成推动转型的引擎。例如在AI开发过程中,需要为开发人员提供高效,灵活的算力供给,满足多样化需求;在具体的建模过程中,算力则面临着性能、自动化、高效性方面的挑战;在进行业务推理过程中,则需要尽可能为各场景的AI推理业务提供稳定可靠,高效经济的GPU算力需求。这些依托于行业知识与经验的深度学习将产生更多贴近产业核心的智能应用,有助于形成以“生产场景需求”为导向的人工智能解决方案,进一步实现人工智能提升生产力。

从技术到场景,再到业务,层层推进,不管是在数据处理还是训练的过程,都需要大量的算力,而在后摩尔时代,数据的增长量远远超过了算力,因此对于GPU的应用加速就成为了关键。

图  制造业中的人工智能场景

为了最大化释放GPU性能,同时提升企业对于AI模型的训练效率,趋动科技推出了“OrionX(猎户座)AI 算力资源池化软件”和“GEMINI(双子座)AI训练平台”。洪喜如介绍一方面,OrionX计算平台可以在几乎零性能损失的情况下,提供对于物理GPU的细粒度、可远程、运行时动态可配置的虚拟化方案。通过高效的通讯机制,使AI应用可以运行在云或者数据中心内任何一个物理机,Container或者VM内而无需挂载物理GPU,同时为这些应用程序提供在GPU资源池中的硬件算力。

另一方面,随着云原生应用下沉与落地,越来越多的企业与开发者开始采用微服务、容器等新一代技术和方式加速数字化的转型。GEMINI AI训练平台以云原生容器服务为基础架构,调用云资源,配合人工智能、大数据以及分布式计算框架,服务于企业的AI算法开发、模型训练以及AI应用部署需求。借助容器、微服务、无服务器等云原生优势,企业和开发者得以在IT成本优化的条件下实现AI算法高效训练、应用敏捷开发、程序灵活部署和全生命周期管理。

图  趋动科技人工智能产品架构图

随需而动 

OrionX最大化释放GPU潜能

在工业领域,基于AI技术可以将工业大数据转化为有效信息、抽象为模型、辅助人类进行精准决策,最终实现工业过程高效配置和执行。但在实际应用中,GPU硬件在业务弹性支撑能力、资金投入产出、能耗和IT架构等方面仍然痛点明显。在如何更优化地使用GPU资源方面,洪喜如介绍主要分为四个探索阶段:

简单虚拟化:将物理GPU按照固定比例切分,如1/2,1/4等,此方式下算力和显存资源为独占模式,不支持资源动态调整;

◉ 任意虚拟化:物理GPU支持从算力和显存两个维度,分别按百分比和颗粒度切分,此方式算力和显存资源支持动态共享,同时支持资源动态调整;

◉ 远程调用:AI应用与物理GPU服务器分离部署,AI应用部署在云中任意位置,通过网络远程调用GPU资源;

◉ 资源池化:通过统一的GPU资源调度管理监控平台,实现资源管理、监控、调度、回收等功能,虚拟化后的OrionX vGPU资源按需调度,动态伸缩。

由此可见,传统的GPU虚拟化技术,或者叫GPU切片技术,本质上还是基于硬件的思维,对本地物理机上的GPU进行虚拟切割。而以趋动科技为代表的OrionX平台,不仅可以支持本地GPU虚拟化,而且还能打破单机资源调度的物理边界,让用户透明使用任意物理机上、任意数量的GPU资源,极大地提升了昂贵GPU的利用率和业务的灵活度。

洪喜如强调这种灵活性还体现在对异构资源的包容和拓展,由于OrionX平台呈现为软件定义的特点,所以既支持Nvidia的GPU,也可以使用寒武纪等加速卡。站在企业业务的角度,可以将其看作一个细颗粒度的资源池,并且可以与企业现有云平台深度融合,用户可以按需灵活调用,用完立即释放。此外,他总结OrionX平台的还拥有如下功能特点:

0

1

 实现资源昼夜复用

在许多制造企业的研发设计部门,白天可能存在大量CAD/CAE等软件的装配、渲染环节,处于GPU应用的高峰,但夜晚由于开发人员下班后GPU则处于闲置状态。使用OrionX平台后,打破GPU卡独占造成的资源孤岛,形成GPU资源池,按需动态调整白天晚上的开发和训练的资源比例,运行效率提升4倍以上。

0

2

 实现CPU和GPU资源合理配比

某些类型的训练任务(如大IO/仿真),CPU占满后,GPU使用效率较低,往往只能使用多卡中的1~2块。将任务部署到多个远程CPU服务器上,OrionX平台通过高性能网络调用远端未被使用的GPU卡,实现资源充分利用。

0

3

 实现多推理业务单卡复用

为避免业务争抢和干扰,企业会采取将不同推理模型运行在独立的GPU卡上,每一块GPU卡都没有得到充分使用,造成资源浪费。通过OrionX平台将不同AI业务推理模型运行在相对应的虚拟GPU上,可以实现GPU整体利用率提升3倍以上,避免资源浪费。

0

4

 利用显存扩容实现业务叠加

假设某单OCR模型显存占用12G,那么一张16G的T4卡只能运行一个OCR服务。OrionX平台可以为显存扩容,通过显存超分的业务叠加,硬件不增加但系统吞吐量提升80%,并大大提升弹性扩展能力。

以某企业4台GPU服务器实测,洪喜如介绍通过OrionX平台可以使GPU的使用率最高提升400%,算法工程师的工作效率最高提升50%,池化后的IT购置成本减少135万,每年能耗最多减少39,022 kw/h,池化后每年的电费降低27,315元,并减少二氧化碳的排放量17,529千克每年。

应云而生 

Gemini AI加速应用开发过程

工业物联网、大数据、人工智能等新一代信息技术迅速发展,对推动制造业数字化、网络化、智能化进程起到关键作用,IT和OT的融合越来越受到制造企业的重视。对于企业而言,让模型基于云化,使用DevOps技术等,让云化的内容和CI/CD(持续自动化和持续监控)方式搭配在一起,可以更灵活的把AI能力部署到终端,例如用PRC控制生产线上机械臂,释放更大的价值。

洪喜如介绍Gemini AI平台正是基于云原生思想的一站式AI开发、训练、管理平台,能够化繁为简,提高AI模型的开发和训练效率。具体而言,针对AI模型开发,Gemini AI平台深度整合算法开发环境,支持JupyterLab/网页终端/ssh登录等多种开发调试工具,可以帮助用户一键快速提交训练任务和保存镜像。目前,Gemini AI平台支持主流TensorFlow、PyTorch等AI框架,向下拓展与OrionX对接,满足虚拟GPU弹性释放并可以实时进行CPU、GPU、内存等资源监控。

例如在进行AI开发训练过程中,Gemini AI平台支持AI单机训练任务和分布式训练任务,匹配环境变量,快速提交分布式任务,支持Horovod/MPI分布式和PyTorch DDP分布式等多种分布式运行模式。通过合理利用分布式计算资源,可以将模型训练的时间从数天缩短到数小时乃至数分钟。

在进行AI资源调配时,Gemini AI平台自带AI数据集存储方案,支持对接企业级NFS、S3、OBS存储协议,方便工程师管理多种数据源。Gemini AI平台通过sftp通道传输大量数据并且支持后台异步处理。此外,Gemini AI平台还自带标准容器镜像仓库,实现镜像推送、拉取、管理和公开范围管理等功能。

针对AI运维管理,Gemini AI平台能够全方位的监控CPU、物理GPU、虚拟GPU、内存、网络 I/O、磁盘等健康状况,通过向下接入OrionX平台GPU池化能力,能够更加灵活的分配调用GPU资源,并支持虚拟GPU状态监控和实时告警。

可以看到,趋动科技的Gemini AI平台和OrionX平台根据用户的不同场景,提供差异化能力,同时两者又相互联系,使用户能够实现全局优化。

持续创新 

深耕行业为用户带来价值跃迁

从提升研发设计效率到企业全生命周期的数据管理,目前趋动科技的GPU池化技术正活跃在加速CAD/CAE软件应用、提升样本学习速度、AI智能终端编程等生产制造全过程。洪喜如介绍诸如自动驾驶、电信、银行、互联网等领域的头部客户都已开始采用趋动科技的Gemini AI平台和OrionX平台,实现算力的灵活调配,从而降低IT成本,提高生产运营效率。

例如某头部车企具有覆盖整车的研发生产能力,希望着力拓展自动驾驶领域研发。由于其传统的IT运维方式导致新建GPU成本高昂,虽建有共享服务区但资源、环境没有隔离,难以通过聚合大量资源加速训练。对此,趋动科技为其全面部署了Gemini AI平台和OrionX平台,通过对物理资源的全面池化,人员配额的二级资源优化管理,最大化复用资源,实现多机多卡的能力聚合,极大提升算法工程师的训练效率。通过AI任务所需数据、镜像、代码的集中管理,方便了数据复用和分享,同时保障了隐私和数据安全。

而针对某智能设备客户,其语音助手被广泛应用在智能家庭、智能穿戴、智能办公、智能出行、儿童娱乐等场景,针对其在线推理服务由于业务属性不同时段资源利用率低、研发测试业务CPU占用高GPU利用率低、平台侧无法灵活高效的交付GPU资源、AI算力无法灵活高效地统一管理和分配等一系列痛点。趋动科技通过OrionX平台为客户带来物理GPU和OrionX vGPU双资源池管理分配方案,将OrionX和客户现有AI PaaS平台进行集成, 构建了一个的统一调度的GPU资源池化层,实现了物理GPU和OrionX vGPU资源的统一调度、灵活分配、弹性伸缩等云化能力,为上层全栈云平台提供GPU算力资源。

从2019年成立之初,趋动科技就专注于为用户提供国际领先的数据中心级AI加速器虚拟化和资源池化软件及解决方案。洪喜如表示在获得市场认可的同时,趋动科技也得到了国家高新技术企业、北京市“专精特新”、中关村高新等企业认证。随着未来人工智能技术的广泛应用,不断增长的算力需求与现有GPU低利用率之间的矛盾将更加激烈,用户对于算力资源的可见性、可管理性、可拓展性等需求也会进一步放大。在此趋势之下,趋动科技将OrionX平台和Gemini AI平台能力开放给广大的生态伙伴,助力用户更加敏捷、高效地使用算力资源,让更多企业能够源源不断驶向数字化转型的价值新蓝海。

趋动科技

趋动科技于2019年成立于北京中关村高新技术园区,拥有专业的研发、运营和服务团队,被评为 WISE2020「新基建创业榜」最具成长性创业公司TOP20、「REAL 100创新家」、「2021创业邦100未来独角兽」、「投中2021年度 中国人工智能与大数据产业最佳投资案例Top10」等。趋动科技专注于为企业用户构建数据中心级 AI 算力资源池和AI开发平台,趋动科技的 OrionX 猎户座 AI 算力资源池化软件能够帮助用户提高资源利用率和降低TCO,提高算法工程师的工作效率。趋动科技的双子座 GEMINI AI 训练平台,为客户提供强大的AI算力管理服务以及高效的算法开发和训练支持,能够化繁为简,帮助企业建好AI平台、管好 GPU、用好 AI 服务。

凭借标准化、可复制的产品架构,趋动科技得到了包括互联网、金融、电信运营商、科研机构和高校等大量行业头部客户的认可。资本市场对于趋动科技的发展充满信心——趋动科技成立两年多已经完成近亿美元的融资,顶级的投资机构持续支持趋动科技的发展,包括国开装备基金、沙特阿美旗下多元化风投基金Prosperity7 Ventures、元禾重元、招银国际、顺为、高瓴、嘉御、戈壁、讯飞和涌铧在内的国内外顶级VC正在见证趋动科技锐意进取的脚步。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部