世界级大模型群,进化阿里云服务器操作系统新范式

世界级大模型群,进化阿里云服务器操作系统新范式
2024年09月25日 15:25 云科技时代

在2024云栖大会上,阿里云CTO周靖人宣布:通义开源模型累计下载量已经突破4000万,通义原生模型和衍生模型总数超过5万,成为仅次于美国Llama的世界级模型群。本次云栖大会上,阿里云还宣布了通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o;发布最强开源模型Qwen2.5系列,上架语言、音频、视觉等100多款全模态模型……

在世界级大模型群背后,是阿里云的AI基础设施。阿里云正以AI为中心,全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适配、融合,加速模型的开发和应用,打造一个AI时代的最强AI基建。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

作为AI基础设施的关键,阿里云服务器操作系统也进化出了全新范式。2024云栖大会上,阿里云智能集团研发副总裁马涛正式宣布阿里云服务器操作系统 Alibaba Cloud Linux(简称Alinux)实现产品升级全新首发。

自2020年开源并推动成立OpenAnolis龙蜥操作系统开源社区以来,阿里云Alinux作为龙蜥的下游衍生版,具备了一云多芯、安全可靠、稳定高效等能力,针对云+AI应用场景全面升级,为全球用户提供稳定、安全的算力优化极致体验。

新范式:AI原生

随着整个云与企业IT计算体系从CPU为中心向GPU和加速计算为中心快速迁移,计算任务从传统应用向AIGC应用大规模过渡,AI原生架构和AI原生操作系统也呼之欲出。

阿里云CTO周靖人在2024云栖大会上表示,阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。

专家在2024云栖大会的“AI原生架构峰会”上指出,在过去7年,随着云的分布式架构、分布式中间件、分布式数据库、容器化和微服务化等云原生技术成为云与企业IT的主流,云原生已经正式确立为云与企业IT的范式。

而大模型的到来,又进一步将云的技术推向AI原生,这包括底层异构芯片融合纳管以及指令集级别的调优,以及操作系统、高性能计算、存储、网络、调度、编译器、数据、模型等多个层面的优化设计甚至是重新设计。

阿里云应对大模型AI的爆发,在基础架构层面做了大量技术升级,在高性能计算、存储、网络、调度、智能监控运维等多方面进行了能力升级。

例如:为了将万卡甚至十万卡推理或训练集群构建成一台超级计算机,构建了异构芯片协同调度能力;网络I/O操作消耗导致集群有效算力利用率随着规模增长而下降,阿里云通过多种优化将算力集群的效率提升到90%以上;针对大规模集群故障,阿里云增加了全栈式监控指标、单机内毫秒级发现、故障分钟级发现、秒级Check Point检查机制等,实现了整个高性能集群无感的修复等等。

正如“双十一”在过去十多年的极限挑战中,驱动了阿里云技术向云原生转型并实现飞跃;未来十年,“大模型”的新挑战将引领阿里云技术从已成熟的云原生领域,迈向更加前沿的AI原生化进程。

例如,在2024云栖大会上,阿里云就推出了AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。在AI原生化的过程中,阿里云的众多技术创新也将落到操作系统层面,推动AI原生服务器操作系统新范式的形成。

探索AI原生操作系统

面向大模型的AI原生操作系统,到底长什么样?服务器操作系统向下调度硬件资源,向上支撑软件应用,为AI大模型大规模落地提供关键环境保障。而面向大模型的AI原生架构正在颠覆上层软件应用和下层硬件资源,究竟哪些改变将永久性落地到操作系统中,目前还在观察和探索阶段。

龙蜥社区在业界最早展开操作系统AI探索,现已兼容国内外主流GPU,并针对广泛使用的AI框架提供原生支持。在2024云栖大会“操作系统开源专场”上,阿里云智能集团研发副总裁、龙蜥社区理事长马涛与英特尔资深技术总监杨继国、浪潮信息系统软件产品部总经理苏志远、安谋科技基础设施事业部软件总监朱松等龙蜥社区合作伙伴一起发布了能力全面升级的Alinux以及Alinux产品全家族。

作为龙蜥开源操作系统的下游衍生版,全新的Alinux不仅支持10余款国产及国际主流CPU/GPU芯片,并且基于阿里云自研的倚天CPU芯片及 ECS 产品,通过内核层调度、内存、网络、编译等不同层面的优化,实现了在大数据、数据库等核心应用场景全平台性能提升20%以上,在AI搜推场景通过AI协议栈优化及软硬件协同技术,提升搜推集群性能15%以上、单节点性能25%以上。

得益于众多通用、异构芯片厂商,特别是国产自主芯片厂商在龙蜥社区的积极参与和贡献,阿里云可以更好地发展“一云多芯”战略,在获得更健壮的硬件供应链保障的同时,实现统一资源管理和调度,进而向广大用户提供更高效的算力基础设施服务。在不断推进底层硬件“一云多芯”的基础上,Alinux还在探索更高层面的AI原生操作系统。

在前不久的第二届龙蜥操作系统大会上,龙蜥社区公布了“AI原生操作系统”发展路线,提出AI容器镜像、智能运维AIOps、OS Copilot文档建设等三大探索方向,加速AI与操作系统的融合发展。而“AI原生操作系统”又可分为System for AI和AI for System两大领域,其中分别包括了前面提到的三大探索方向。

在2024云栖大会“操作系统开源专场”上,阿里云首次完整的展示了两大领域全景。

在System for AI领域,阿里云Alinux在OS&Kernel方向推进了RAS、存储、网络等关键技术,提升了AI基础设施的稳定性与性能;在AI容器镜像方向推出了AC2(Alibaba Cloud AI Containers ),提供开箱即用的操作系统分发形态;在Confidential AI机密计算方向,推出了AI机密计算方案,提升AI场景全链路安全水位。

在AI for System领域,阿里云Alinux推出了基于AI算法和专家的智能调优工具轻豚(KeenTune)、操作系统智能助手OS Copilot以及智能运维诊断平台扁鹊(SysOM)。

在2024云栖大会上首次亮相的阿里云服务器操作系统产品全家族,自底层向上包括了:“一云多芯”算力、操作系统发行版Alinux、操作系统扩展形态AC2、操作系统服务套件OS Copilot和SysOM,以及贯穿全栈的Confidential AI机密计算,最终向上支持Web、数据库、大数据、AI训推等云+AI应用。

其中,AC2是全面支持多元异构算力、经过编译优化开箱即用的AI容器镜像,包括内置CUDA AI库、AI框架PyTorch等,内置Intel、AMD、NVIDIA等硬件厂家在AI生态上原生适配,并结合阿里云基础设施进行性能优化、兼容性和稳定性保障,让用户可以在阿里云上全容器场景下有更好的使用体验。

AC2于2024年4月正式上线,已帮助数十家企业解决了AI场景下的不同问题,覆盖金融、券商、电商、自动驾驶等领域。其中,具有代表性的是帮助蚂蚁数科的身份安全品牌ZOLOZ解决在视觉AI认证领域的算力与成本问题。蚂蚁集团ZOLOZ技术专家谭华哲在2024云栖大会“操作系统开源专场”中介绍了ZOLOZ借助AC2实现AI云原生海外规模化落地的情况,包括实现了AI场景实时弹性、AI场景成本优化、AI镜像按需拉取毫秒级启动、AI模型快速拉取、AI场景的离在线资源潮汐分时复用等多种收益等。

为了实现开箱即用,AC2强大的AI容器镜像体系集成了众多业界主流框架和软件。阿里云不仅提供AI基础软件、框架和算子库,还融入了大量的优化实践,让用户无需具备复杂的软件全栈编译优化能力,就能获得编译优化的收益。阿里云智能集团高级技术专家郁磊在2024云栖大会“操作系统开源专场”上介绍了阿里云的编译优化实践对于LLM大模型训练所带来的显著价值以及AI容器镜像体系。

OS Copilot是阿里云研发并在今年6月开启邀测的一款基于大模型构建的智能操作系统助手。OS Copilot 结合大模型的自然语言优势,加上操作系统团队的历史经验专项调优,为Linux用户带来专业、高效、智能的体验。OS Copilot可以通过自然语言帮助用户生成准确命令行并执行,支持调用KeenTune、SysOM等系统组件完成调优、运维等场景的实施,并扩展支持阿里云CLI。在2024云栖大会上,OS Copilot公共云版本正式上线。龙蜥社区还发动广大的技术厂商和用户,将自家的Linux操作系统运维语料库贡献出来,共同做大做强OS Copilot,这就是OS Copilot文档建设计划。

SysOM是龙蜥社区系统运维SIG打造的一站式操作系统运维平台,融入了龙蜥社区成员的成功商用运维实践经验,帮助用户在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理,特别是针对大规模集群的智能监控方案,从容器角度、节点角度去评估集群健康状态,结合AI指标关联分析、智能化深度诊断,分析问题根因。

阿里云作为龙蜥社区系统运维SIG的发起方之一,也将自己的实践贡献给龙蜥社区。在第二届龙蜥操作系统大会上,龙蜥社区联合系统运维联盟生态合作伙伴,共同发起了“SOMA 智能运维计划”,包括建立智能运维标准和评测系统、搭建运维知识库、搭建智能运维机器人、解决在AI场景和架构下性能问题。阿里云在会上演示了SysOM智能诊断机器人,探索了基于大模型智能体的诊断机器人设计。

智能调优工具轻豚KeenTune是一款AI算法与专家知识库双轮驱动的操作系统全栈式智能优化产品,为主流Linux操作系统提供轻量化、跨平台的一键式性能调优。自2021年9月正式成立龙蜥智能调优SIG并宣布KeenTune开源以来,吸引了众多合作伙伴的深度参与,并提交了多个专利和学术论文,是龙蜥社区的标杆SIG之一。

在机密计算方面,阿里云Alinux集成了Confidential AI技术,支持多种主流的机密计算平台,无论是CPU还是GPU处理的数据,都将得到全链路的数据加密保护,确保敏感数据与模型只在加密内存中进行处理,实现从存储、传输到计算全过程的端到端安全保护,确保敏感数据和模型在一个完全隔离且加密的环境中进行处理和使用,填补了AI安全领域在系统层面的安全空白。在2024云栖大会上,阿里云联合中科院软件所、南湖实验室、中国电子信息产业发展研究院等,共同发布了《机密计算保障人工智能系统安全》技术发展与趋势研究报告。

坚持长期主义

阿里云服务器操作系统Alinux源自阿里云十余年自研积累,于2014年完成阿里云数据中心HostOS的100%覆盖,在阿里自用操作系统场景实现CentOS全面替代,于2020年宣布开源并成立了龙蜥社区,2022年底在阿里云ECS云服务器GuestOS保有量上超越CentOS,成为云上保有量第一的服务器操作系统。Alinux支撑阿里云达到全球第三、亚太第一的市场规模,在全球范围内累计服务超30万用户,产品部署超千万规模。

阿里云智能集团高级技术专家张金利在2024云栖大会“操作系统开源专场”上介绍阿里云投入操作系统研发的初心:首先是应对大规模复杂算力场景稳定可靠高效运行,为支持百万级服务器集群和分布式架构,操作系统需要满足复杂算力场景稳定、安全、性能、成本等综合诉求;其次是软硬一体协同突破创新,全面支持国产及国际主流芯片,同时围绕自研芯片支撑云+AI场景,操作系统需要连接软硬件上下游协同创新;第三是核心技术自主发展与突破,包括产业供应侧技术突破、消费侧服务千行百业,操作系统需要建立全面自主演进技术体系,实现可持续发展。

阿里云在服务器操作系统领域坚持长期主义。迄今为止,阿里云服务器操作系统Alinux历经了三代产品代际演进。从2009年阿里云成立伊始,即投入服务器操作系统的研发。当时的阿里云服务器操作系统第一代产品即Alinux 1,第一代产品主要进行了技术积累,产品主要服务内部业务,包括服务阿里集团业务定制化诉求,支撑了飞天1.0架构、飞天5K项目,同时进行了社区早期探索,促进构建开放中立的社区治理体系。

从2016年开始,阿里云服务器操作系统进入第二代产品即Alinux 2,这一阶段主要为大规模集群场景深度优化,产品服务内部业务和上云客户。Alinux在这一阶段为新兴云原生计算范式推动容器技术栈演进,自研了内核“混部”技术支撑“双十一”业务,支撑阿里集团核心技术上云,这一阶段支撑了神龙计算平台、百万IOPS存储、100G高性能网络技术等。

从2021年到现在,阿里云服务器操作系统进入第三代产品即Alinux 3,这一阶段为支持超大规模云+AI算力,深入推进软硬协同,实现了技术路线自主演进。Alinux在这一阶段支持了更大规模复杂场景的稳定安全高效运行,支持集群高并发、高稳定性,帮助应用实现高性能、安全可信运行;同时,Alinux与倚天、CIPU等硬件高度协同,不断创新;成为了云上占比第一的发行版;发起成立了龙蜥社区,阿里云助力龙蜥社区技术成果规模化应用。

Alinux从倚天ECS产品开始建设初期就作为其默认搭载的操作系统,通过与倚天ECS的软硬协同优化,进一步释放倚天性能。操作系统在保证软件兼容性的同时,通过内核层调度、内存、网络优化匹配 CIPU+倚天Arm架构,运行时的编译/配置优化,对大数据、数据库场景进一步提升性能,主打应用场景性能提升20+%。

作为一个开放且兼容的操作系统,Alinux支持丰富的开源生态体系。阿里云积极与Linux、Apache、CNCF、OpenAtom、OpenAnolis等开源社区合作,共享创新红利,引入更完善的发行版质量体系,确保产品品质,并积极回馈开源社区,提供给用户多样性的选择。其中,以阿里云为理事长单位龙蜥操作系统开源社区在2020年9月成立,并联合发布了“Alibaba Cloud Linux 服务商招募计划”。

龙蜥社区的成立,是阿里云在服务器操作系统领域坚持长期主义的重要体现。到2024年8月第二届龙蜥操作系统大会,龙蜥社区已经拥有24家理事单位和1000余家合作伙伴,涵盖了主流的操作系统厂商、芯片厂商、整机厂商、云计算厂商和应用厂商等,基于社区操作系统发行了超过14款针对下游的衍生版,龙蜥操作系统装机量突破800万套,服务用户超过100万,是国内规模最大、生态最全面的服务器操作系统之一。

2020年CentOS宣布停服,激发了用户向国产服务器操作系统迁移。根据2023年底中国信通院的用户调研显示,用户意愿迁移至龙蜥操作系统的比例超过半数达53%,排名第一。根据2024年5月20日,中国信息安全测评中心和国家保密科技测评中心发布安全可靠测评结果公告(2024年第1号):阿里云服务器操作系统(Alibaba Cloud Linux)顺利通过测评,并获得安全可靠等级“I级”,阿里云在操作系统领域积累的自主研发能力和产品获得国家权威机构认可。

作为自用一方操作系统,Alinux承载所有阿里系技术栈,配套完善运维保障体系,具备高度兼容CentOS、广泛的国产芯片适配、软硬协同优化、技术生态繁荣以及更优的AI支持等优势,提供长达13年的长期维护与技术支持。尽管已经进入后CentOS时代,但目前阿里云上仍有45%左右的用户在使用CentOS,其中80%的用户使用CentOS 7,影响数十万用户。为了保障暂时无法迁移的客户系统的安全和稳定,阿里云推出CentOS安全接管方案。同时,阿里云针对EOL生命周期结束的系统,包括CentOS 7和Alinux V2,推出了丰富的解决方案,确保阿里云客户的系统安全。

在第二届龙蜥操作系统大会上,社区推出了Anolis OS 23 官方正式版,同时发布“Anolis OS 23生态衍生计划”“CentOS替代计划”“AI应用推广计划”等三大生态计划。Anolis OS 23历经了三年的研发,是龙蜥社区基于操作系统分层分类理论,面向上游原生社区独立选型,全面支持智算的首款国产操作系统。阿里云智能集团高级技术专家张金利在2024云栖大会上介绍了阿里云对三大计划的积极推动,并宣布将在2025年Q2推出基于Anolis OS 23的阿里云服务器操作系统V4技术预览版。

整体来看:今天谈AI原生,就和2010年谈云计算、2014年谈容器一样,处于早期但又即将爆发的时刻。正如同阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上所说,新技术革命会在人们的怀疑中成长,让很多人在迟疑中错过。但阿里云服务器操作系统不会错过,因为阿里云在服务器操作系统坚持长期主义,不仅拥有超强技术竞争力和云上规模第一,是国产操作系统市场上性价比高的用户首选,而且在世界级大模型群的“极限挑战”下,阿里云将以Alinux为支点,以龙蜥为引桥,为繁荣中国基础软件生态贡献力量,进而带领中国操作系统进入世界级基础软件阵营!(文/宁川)

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部