摘要
◎云栖信号:阿里云政企AI+操作系统浮现
◎为何是阿里云
◎走向确定性增长
消息人士对夸克点评透露,阿里云智能集团政企事业部有望扭亏为盈。
大概涉及到信披,官方未回应。但这让人想起19日云栖大会采访。阿里云智能研究员、副总裁、专有云总经理刘国华对夸克谈业务调整时说,“老石头领军的业务发展还是很迅速的”,上半年已完成全年目标。
这传递了很多信号。
有人或以为是收缩结果。去年以来,阿里云政企业务经历过调整。其中部分亏损的传统大集成项目(非专有云)被裁撤。外界认为政企业务很难规模化,更难盈利,阿里云或有意弱化。
夸克观感不同。结合上述消息、云栖及前段动向,我们认为,该单元重整后,非但未弱化,面向AI浪潮,反而已探索出一条富有协同效率的路径,并在多个度释放出新的发展动能。
可以说,2024年属于阿里云政企业务重新定位、夯实产品与方法论、稳健经营的一年;2025年,凭借原生混合云等平台级产品及落地能力,有望呈现出营收与利润规模并进的局面。
云栖信号:阿里云政企AI+操作系统浮现
观感主要来自云栖。峰会上,政企业务基本信息,简单总结,就是借助一个“一体两翼”平台,阿里云建构起一个从底层算力到大模型服务及智能体生成的政企行业AI+操作系统。
“一体两翼”。“一体”即AI驱动的公共云技术底座。近似阿里集团CEO吴泳铭说的“AI驱动、公共云优先”。外界以为“公共云优先”是业务,其实吴泳铭原话是“公共云技术优先”。“两翼”指的是飞天企业版智算版与阿里云百炼专属版2.0。它们都是专为政企客户打造的重磅产品。
所谓“政企AI+操作系统”,属于两翼协同与融合。飞天企业版新版已嵌入百炼专属版2.0,构成了完整闭环的政企行业AI+操作系统。
这系统的商业逻辑体现在哪?
拆解看。先从飞天企业版智算版开始。
新版最大特色,两词总结,“一云多算”与“公专一体”。它将智算能力深度融入专有云平台,实现通算、超算、智算一网调度与管理运维,足可满足政企客户“云+AI”协同发展需求。
2021年,飞天企业版实现“一云多芯”。通过消除底层硬件差异,化解了不同芯片架构的统管与调度难题,资源协同,可满足多云需求。
智算版面临的挑战不同,主要与大模型爆发后底层算力有关。
GPU已取代CPU成底层算力主流。但美国封锁供应链形成安全焦虑。本地涌现多家供应商,惜架构不一,算力碎片化严重。此外,各地投建许多智算中心,多芯异构使得看似规模不小的GPU服务器集群缺乏统管,算力池化低,并行计算性能效率低下。
两重碎片化导致算力巨大浪费。业内披露,目前企业训练大模型算力有效利用率不足50%。这与算力焦虑形成强烈反差。看来,靠堆卡,成本高企不说,亦很难解决供应链问题。
飞天企业版为此升级。它在异构算力池化、推理效率等能力上提升明显。
针对前者,刘国华表示基本分两步:一、先做统一纳管,将碎片资源变成可经营的云资源;二、统一纳管后,将GPU做成统一共池调度。
完成后,智算版GPU虚拟化和容器调度算力切分粒度可达1%,资源利用率提升100%;基于训推调度一体平台,算力碎片可减少30%。推理效率上,通过算法优化,单机多卡并行训练可自动选择最优通信链路,通信带宽最大提升100%;基于拓扑感知资源调度,模型吞吐量提升23%;GPU深度调优及显存、算子等优化后,性能较社区版提升10%。
实现不易。刘国华说,除GPU卡与算力外,互联互通才是训练中最关键的能力,很多受限,须跟硬件厂商合作。
此外,政企客户亦关注稳定性、模型构建及运维。稳定性上,智算版提供从训练任务到底层基础设施一体的监控和分析诊断,整体故障监控覆盖达80%。模型建构与运维上,增加了AI Studio和运维模型。前者兼容国产硬件,可进行训练、微调、测评,内置应用可快捷构建大模型并发布;后者以通义千问为基模,结合数据训练,效率提50%。
显然,智算版公专一体,不仅获得同根同源的公共云技术助益,亦拥有协同能力。后者正是过往政企混合云最大痛点之一。
它仍在进化。刘国华透露,今年的3.18版与明年的3.20版,核心能力都是原生混合云。
话外音就是:阿里云已打通底层各环节壁垒,完成标准化平台建构,为大模型规模化落地政企场景奠定了基础。
不过,刘国华强调,仅解决算力不够。真正落地,要靠模型应用驱动。否则,上述性能数字只是理论值。
说到模型应用,他表示,AI可在三大场景发挥:一、基模训练。万卡起步,仅BAT等少数企业或国家级城市智算中心能做;二是行业大模型。千卡可训。部署后,企业私有数据调优,万卡可实现;三是推理。场景更大,不看单卡或集群规模,更多跟业务相关。
刘国华说,不同场景用不同卡,能充分挖掘算力。如跟国产GPU厂商合作更多在推理,互联、单卡算力要求不高;企业级调优跟行业大模型训练,单卡算力要求苛刻,国内就BAT提供,更多跟国际合作。
如此,大模型就能快速落地政企场景吗?仍不够。还有很多挑战。
一方面政企业务的独特性、敏感性,对大模型开发环境有特殊要求;另一方面,政企市场历史悠久,有大量图表、公式等复杂资料,如何转换为大模型理解的数据,已成政企训练大模型、打造智能体的关键。
就是说,必须提供匹配这一场景的大模型服务与智能体搭建平台。
2023年,阿里云推出百炼,集成主流大模型,提供选型、微调训练、安全套件、部署及全链路应用开发。今年上半年升级为百炼专属版1.0,专为政企构建从基模推理到复杂模型定制训练及行业智能体搭建的一站式平台。
而此次云栖发布的百炼专属版2.0,除了大模型训推、模型兼容、数据解析、智能体搭建能力全面强化外,最大特色之一,就是嵌入了智算升级后的飞天企业版。从而,可基于公共云VPC和专有云部署,支持多芯异构算力调度、多租户模式下的算力/模型/数据隔离与共享。在智算能力与上述能力加持下,可实现真正意义上一条龙服务。
简单罗列它几个特点:支持高性能分布式训练,吞吐率提升20%;基于软硬协同的推理加速,精度无损量化升至0.5%,推速升3倍以上;预置通义多尺寸多模态大模型,兼容主流模型框架,支持三方模型接入。模型服务上,除了数据解析,借助工具和插件可拖拉拽搭建智能体。
截至目前,百炼专属版生成的智能体已在政务、电力、医药研发、科研等领域落地。
你不觉得,嵌入飞天企业版的百炼专属版2.0,属于政企数字化行业最完整、协同与集成度最高的解决方案、一套“政企行业AI+操作系统”么?
为何是阿里云?
在夸克看来,它也称得上阿里云政企业务甚至整个阿里云数字化最高方法论的凝结。
那么,如小标题,为何是阿里云?
还有,即便技术与商业逻辑出色,这套操作系统能否一定成功呢?
第一个问题,逻辑其实很简单。
那就是,跟它完整名字“阿里云智能”一样,这家公司拥有完整的技术能力与商业要素,也即“云+AI”。
展开一下:阿里云智能是本地唯一一家既拥有庞大公共云平台又拥有基础大模型的公司。同时,它也是全球唯一一家既持续做大模型开发又做大量模型开源的公司。截至目前,通义大模型是全球开源与开放程度最高的基础大模型。
你可能会说,拥有云计算与模型服务,规模不如你大,难道就不能做成协同一体的操作系统吗?
那倒不是。不过,规模差异很难忽视。
如果你的云计算业务规模小,即便你从产业逻辑上能研发出相近的一站式方案,也很难真正化解底层算力的难题。尤其是成本问题。
多年前,阿里云创始人王坚博士就对外做出过这一预判。若你有心,能注意到,此后每个阿里云一号位与核心高管都反复强调过观点。
谈及吴泳铭强调的“AI驱动,公共云技术优先”,刘国华说,无论公共云还是专有云,底层都是公共云技术,可谓同宗同源。公共云技术能力若是缺乏,不可能壮大规模。
“云计算想要创造价值,规模是基础。不能将规模做大,所有的故事都是忽悠人的。”他说。
因为,很多客户尤其政企客户,早已不是今天你随便卖个云技术给它或管理10~20台机器了。事实上,它们自身都已达万台服务器规模,有的电网客户2.5万台规模。如此规模,阿里云公共云技术才能发挥更大优势,尤其“公专一体”云业务形态的选择。
截至目前,阿里云是亚太、中国第一的公共云平台。它拥有向下定义硬件、向上定义软件的全栈化能力。
刘国华说,飞天企业版今年三个方面做了大的技术升级。除了智算平台支持多芯异构GPU融合管理,还有云平台智能化升级以及AIPaaS层整个智算落地效率的提升。其中涉及技术繁多。
“云计算”早已不是当初形态。云计算具有庞大的网络效应与规模效应。它是一条又宽又深又长的大河。此刻我们还说“云+AI”,好像分开,其实两者正在加速融合,成为更壮观的原生。
你可能会说,两大环节,难道不能采用系统集成方式吗?比如底层算力与混合云选一家,大模型服务、智能体搭建选其他。
逻辑上可以,尤其对大模型开箱即用或只是微调的一般行业。但政企行业特殊性决定了,整个方案除了单点、单一环节的技术与产品必须过硬外,你还必须具有高度稳定、协同一体的服务。刚才说过,这也是过往政企行业数字化的痛点之一。
事实上,你能从阿里云政企业务去年以来的组织升级中感受到这种要求。即便是阿里云智能,为了耕耘这一场景,内部也是全力倾斜聚合优势、重兵资源,才呈现今天的成果。
去年11月,阿里云成立三大事业部,即公共云业务事业部、混合云业务事业部、海外业务事业部。其中混合云事业部由李津负责,主要满足特定行业因政策限制、短期无法使用公共云的客户需求,重点考核利润,减少项目制软硬件订单销售,鼓励政企客户优先使用公共云。接着,两个月不到,也即今年1月,直接更名为政企事业部,而专有云产研、销售、服务团队并入,并成为一级部门,同时可销售所有公共云产品。
这一变化说明阿里云不但没有弱化政企,反而调集专有云上述单元重兵及公共云产品,直接将原混合云业务定义为政企事业部。这高度突出了它的行业属性与地位。
外界很容易忽视组织升级背后围绕政企业务展开的内部协同。一个快速变化的大模型时代,面对一个复杂的场景,不要说外部的系统集成隐含的协同脆弱性与交易成本,就连阿里云内部内部都经历着这种深刻的变革。
有必要补一个视角。涉及领导力。提一下阿里云智能资深副总裁、政企事业部总裁李津。他加入阿里集团正好14年。最初4年多担任集团技术保障部总监,随后两年转岗至阿里云任飞天基础产品研发资深总监兼行业线业务负责人。接着先后担任阿里云中国区业务总裁、全球服务部总裁,长达7年。直到去年担任现职。
想说的是,李津身上就展示了阿里云过去10年的变化。尽管他不是阿里云创始团队,但他拥有全局视野,应该是核心岗位转岗最多最完整的高管,覆盖了核心产品飞天、行业业务一号位、中国业务一号位、全球服务尤其交付一号位。此前曾多次采访他,他是一位技术、商业思维高度融合且拥有思想力的业务领军人。
啰嗦这么多,好像绕远了。这里绝对不是否定系统集成与开放性。
事实上,阿里云多年来一直不变的核心立场就是“被集成”。即便截至目前,阿里云政企业务也仍有与客户共创、高定制的项目,也是集成形态。而无论飞天企业版,还是百炼专属版2.0,内在同样都有这种特质。前者向下兼容多芯异构,向上兼容应用生态;后者兼容多种大模型。
事实上,多年前,王坚博士就强调,飞天是“云计算操作系统”。这一定位,仍是目前新产品的核心立场。只是说,它融入了更强的PaaS尤其AIPaaS能力。但无论如何,它仍是开放的平台。上面会长满各种智能体应用生态。
这也是我们将阿里云“一体两翼”的新方案称为“政企行业AI+操作系统”与最高方法论的真正原由。
走向确定性增长
再回到文章开头。看看阿里云政企事业部本财年有望扭亏为盈、上半年已完成全年目标消息,以及我们所做的断言。
我们说该单元面向AI浪潮,已探索出一条富有协同效率的路径,并在多个度释放出新的发展动能。正是建立在政企行业AI+操作系统与最高落地方法论的基础上。
过去,一些亏损的大集成项目,侧重的是项目制软硬件订单销售。这类项目不但交付难,建成后,也很难沉淀下能够规模化复制的方案。它当然有利于拉动营收,吻合那个周期财务面的短期诉求。但很难持续。
此次云栖大会两大重磅产品的公布,以及“一体两翼”之下的融合形态的产品,已为阿里云政企业务创造出一条大模型规模化落地的路径。
再加上2025年预期中的原生混合云,以及持续升级的百炼专属版,当然也有部分公共云产品销售,这一业务的增长将变得更可预期,更具确定性。
这一单元考核的并非是单纯的规模。短期肯定还是要缩减亏损,正式走向盈利。但随着模型应用与智能体生态壮大,它有望出现我们所做的断言:2024年属于阿里云政企业务重新定位、夯实产品与方法论、稳健经营的一年;2025年及之后,凭借原生混合云等平台级产品及落地能力,有望呈现出营收与利润规模并进的局面。
这一动向,也将有助于提升阿里云智能集团整体财务面质量。
2025Q1,尽管营收规模被阿里国际数字商业、菜鸟物流超越,但结合规模、利润,考察整个增长的质量与平衡度,阿里云可谓高质量增长。剔除集团关联交易,整体营收同比增6%;公共云营收同比增两位数;AI相关产品营收连续两季增幅达3位数;整个单元经调整EBITA同比增155%达23亿。
财报会上,阿里集团CEO吴泳铭说,下半财年,阿里云整体增幅会上到两位数,其中一半以上的增速贡献,将来自AI产品相关带动。由于AI产品的毛利相对有利,这其实暗示了营收与利润双增动向。
此前,夸克曾预判,本财年之后,阿里云有望呈现千亿营收、百亿净利的局面。它将成为阿里集团又一头现金奶牛。
云栖上,政企业务传出近扭亏为盈、半年完成全年任务的消息,更是有利于阿里云整体财务目标的达成。随着平台级产品与大模型落地方法论走向成熟,这一单元未来有望贡献更多。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有