AI 激战进入下半场,“推理”还卷得动吗?

AI 激战进入下半场,“推理”还卷得动吗?
2024年06月27日 14:56 InfoQ

作者 | 鲁冬雪

不久前,一场前所未有的价格战在 AI 领域打响,其激烈程度堪比一场商业风暴。以阿里云、百度、腾讯为代表的头部厂商纷纷宣布大幅降价,引发了圈内巨大震动,其中阿里云的通义千问 GPT-4 级主力模型 Qwen-Long,其 API 输入价格从 0.02 元 / 千 tokens 直降至 0.0005 元 / 千 tokens,降幅高达 97%!

价格战愈演愈烈的原因有很多,但无论是什么原因,我们看到的都是,通用大模型崛起后的这场价格战,将云厂商的竞争推向高潮。从讲“服务故事”到血拼 tokens 价格,云厂商的价值在这场“降本”的变革中再次受到严峻审视。但聚焦技术本身,如果想要实现技术的可持续性发展,把握好技术革新与规模经济之间的关系才是真正的破局之法。

随着云计算技术的不断革新和规模效应的扩大,AI 服务成本显著降低,让更多企业和个人能够负担得起并采纳 AI 服务。同时,云计算飞轮的加速旋转也带来了极大丰富的计算资源,让 AI 模型能够更快、更准地完成训练和推理。

过去半年,美国湾区的推理已经迈入每秒生成千个 token 的大关,英伟达发布了号称“史上最强的 AI 芯片”,官方称推理性能提升了 30 倍;百度发布了文心大模型 4.0 的工具版,官方称该模型的推理性能提升了 105 倍,推理成本降到了原来的 1%;腾讯太极机器学习平台研发了 Angel-HCF 推理框架和 Angel-SNIP 压缩框架;META 公布了其定制 AI 芯片 MTIA 的最新版本,专门设计用于 AI 训练和推理工作,还在 AI 推理和规划方面进行了深入探索,逐渐接近通用人工智能(AGI)……显而易见,当大家“卷”完行业大模型的构建,比拼谁能拥有更多业务数据进行模型训练之后,“AI 推理”或成为新赛点。

根据 IDC 数据,随着人工智能进入大规模落地应用的关键时期,云端推理占算力的比例将逐步提升,“预计到 2026 年,推理占到 62.2%,训练占 37.8%。”这一预测进一步强调了 AI 推理在未来市场竞争中的核心地位。而高性能 AI 推理的背后是海量算力,这意味着 AI 基础设施将是未来市场竞争的基本盘。

据信通院发布的《新一代人工智能基础设施白皮书》数据显示,AI 领域的大模型参数量正在以惊人的速度增长,年均复合增长率达到 400%,算力需求的增长更是超出了摩尔定律的预测,达到了惊人的 15 万倍,对 AI 基础设施提出了前所未有的挑战。传统的 CPU、GPU 堆砌方案已经无法满足 AI 大模型的研发需求,加上企业对于 MaaS(大模型即服务)的需求日益增加,企业需要更高效、更灵活的基础设施来支撑 AI 应用的开发和部署。

可以说,新一代 AI 基础设施不仅要关注硬件设备的升级,更要注重软件、算法和数据服务的整合与优化,需要通过精细化的设计和重构,提升计算、存储、网络以及数据服务的性能,为 AI 应用提供更高效、更可靠的支持。

1

云服务"规模经济":AI 基础设施成本大降的终极利刃

今年 3 月,开源平台 ClearML 发布的最新调研报告《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》中显示,企业购买推理方案的关键因素是成本——为了解决 GPU 缺乏的问题,约 52% 的受访者在 2024 年积极寻找低本高效的 GPU 替代品用于推理,其中 20% 的受访者表示对低本高效的 GPU 替代品感兴趣,但还找不到替代品。这意味着,由于大多数企业尚未达到生成式 AI 的大规模生产,低本高效推理计算需求将呈现增长趋势。

在如此趋势下,越来越多的企业开始将 AI 推理迁移到按需付费的云端进行。

云计算服务市场是一个典型的“规模经济”。随着用户基数的扩大,云厂商可以通过大规模采购硬件、优化资源分配和提高运营效率来分摊固定成本,从而实现成本效益的最大化,这种成本优势让云厂商能够以更具竞争力的价格向市场提供服务。同时,规模经济效应还能加速技术创新和服务多样化,较大的用户基础为其带来了更多的数据和反馈,这有助于其更深入地理解客户需求,快速迭代产品,推出更符合市场需求的新服务和功能。

而在所有的云服务中,GPU 云服务器对 AI 基础设施建设的意义最为关键,它极大地提升了 AI 基础设施的处理能力。通过集成 GPU 云服务器,AI 基础设施能够更高效、更快速地完成训练和推理任务,从而加速 AI 项目的研发进展。这不仅能使企业抢占市场先机,还能在获得大量数据后进一步优化自身模型,积累更为丰富的数据库。

以阿里云 GPU 云服务器为例,其神龙架构支撑裸金属实例,实例内 GPU 实现全速 P2P 功能,集合通信能力提升 20%,在微调和多卡推理过程提升性能 6%。在支持包年包月和按量计费的两种低成本购买方式的情况下,阿里云 GPU 云服务器还提供了针对 AI 应用部署及优化的免费工具,实现面向训推场景的 GPU 性能优化,其在同等硬件条件下,LLM 大模型推理性能提升超 100%,LLM 大模型微调训练性能提升 50%。

去年一经上线就出圈爆火的 AI 应用“妙鸭相机”,随访问量的激增,对 GPU 服务器的算力需求激增至数千台规模。阿里云 GPU 云服务器为其提供了训推一体的解决方案,助其缩短 19% 的端到端微调时间,推理效率提升 100%。训练时间的减少,不仅意味着成本的降低,也意味着妙鸭 C 端客户更短的等待时间和更好的体验。

2

云服务创新:AI 时代 IT 基础架构变革的雷霆引擎

深度学习自 2012 年在 AI 领域确立其核心地位之后,尽管为应用带来了显著赋能,但很长一段时间里并未彻底改变应用研发范式。直至云服务的崛起,数字化基础设施的格局发生了根本性变化,计算、网络和存储的虚拟化使得算力成为基础服务,云原生架构的应用研发模式大幅提升了开发迭代效率。后来随着大模型技术的广泛应用,大模型以 AI 原生应用的形式深入多场景,并转化为一种通用的服务 MaaS,降低了 AI 技术的落地门槛。而作为基础设施的云服务,也在大模型发展的推动下,产生了云原生“AI 化”的转变,重塑了云计算产业格局。

这种转变不仅体现在 AI 技术作为服务(MaaS)的广泛应用上,更在基础设施层面推动了 GPU 云服务器的革命性转变。面对高速演进的 AI 技术对 GPU 资源提出的愈来愈高的要求,基于云原生“AI 化”的趋势,以确保资源能够按需分配、高效利用。当前,以容器为代表的云原生技术正在完成进一步创新,IT 系统需要更加模块化和灵活以适应 AI 应用的迭代和更新。

在 AI 应用研发场景中,当 GPU 云服务器被多个用户或应用共享时,特别是在资源需求不均或变化频繁的情况下,资源分配和调度可能不够灵活,导致 GPU 利用率低下。此时便可以使用类似于阿里云容器服务 Kubernetes 版 ACK 提供的云原生技术来解决问题。ACK 丰富的 GPU 集群弹性伸缩能力可以帮助企业灵活应对工作负载变化,根据资源使用情况,企业可以快速动态调整容器数量,数分钟内扩展至上千节点。容器所具备的环境隔离性保证了 AI 模型推理的稳定性和一致性,减少因环境差异导致的错误和冲突,可以加速模型的迭代和部署过程。

阿里云 ACK 提供“云原生 AI 套件”,企业可以充分利用云原生架构和技术,在 Kubernetes 容器平台上快速定制化构建 AI 生产系统,并为 AI/ML 应用和系统提供全栈优化。在实际 AI 推理场景下,基于标准 Kubernetes 提供的组件化能力,同时通过共享 GPU 方案,对比自建 GPU 集群算力利用率提升 100%。除此之外,通过数据加速 Fluid,AI 推理场景数据访问资源成本可以降低 10 倍左右。更值得一提的是,这套云原生 AI 套件自 6 月 6 日起全面免费,企业成本直接降为 0!

除了云原生架构的迭代创新,数据作为 AI 技术的“食粮”,其存储架构也在发生变革。随着数据量的激增,传统的存储解决方案已经无法满足 AI 对于高吞吐量和低延迟访问的需求。因此,可以在单个全局命名空间中无限扩展到数十 PB 甚至更多、可以为 AI 工作负载提供理想的存储解决方案——对象存储技术被广泛应用并持续迭代。

在目前的 AI 推理场景中,大家常会遇到的问题是,模型推理需要拉取加载模型文件,在调试过程中还需要不断切换新的模型文件进行尝试,而且随着模型文件的不断增大,推理服务器拉取模型文件所需时间越来越长。

面对这个挑战,许多企业将阿里云对象存储 OSS 作为解决方案。对比传统存储,OSS 的吞吐能力超过 10Tbps,从 OSS 下载 270GB 模型文件用时降低至 21s,通过低延时高吞吐的方式快速把模型文件传输到容器节点,减少 GPU 等待时间,可大大提升推理效率。此外,阿里云 OSS 加速器在 AI 推理环节支持 SD、Transformers 等多种推理框架,性能最高可 burst 至 40GB/s。

可以说,大模型的发展标志着 AI 技术进入了一个全新的阶段,它不仅仅是对以往 AI 技术迭代的延续,更是对底层 IT 基础设施和上层应用开发模式的一次深刻重构。云服务作为 IT 基础架构的核心部分,必须承担起引领创新变革的重任。

3

生态协同:云计算与 AI 深度融合的超级加速器

如今,大模型已经开始卷价格,对比云计算用了 16 年才开始卷价格,AI 市场厮杀的激烈程度不言而喻,甚至 AI 已经让卷到"很卷"的云计算变得“更卷”。

于此,云厂商不仅需要有强大的技术研发能力,更需要构建一个健康、活跃的生态,以实现资源的优化配置和价值的最大化,而创新就是云计算飞轮持续旋转的核心动力。AI 借助云计算的强大算力处理海量数据,实现智能化应用;云计算则为 AI 提供稳定的技术底座,促进技术再升级。两者形成的良好技术生态共同助力着全产业智能化发展,吸引着更多开发者、企业参与技术创新。

通过生态协同,云厂商能够与上下游企业共同产品和服务的持续创新;通过与合作伙伴的深度合作,实际业务场景下的需求正在驱动着云厂商技术迭代与创新。

这种繁荣的生态系统为阿里云带来了更多的创新服务和应用,从而铺建了其在行业里的领先地位。通过合作伙伴的支持,阿里云为客户提供更加丰富多样的云计算产品,其“先进、稳定、易用、高性价比”的优势也助力许多企业客户获得了业务成功。这个过程中,阿里云积累了丰富的市场经验,同时拥有了庞大的计算资源和海量数据,为 AI 大模型的研发提供了坚实的后盾,从而走在了大模型厂商前列。

阿里云在 AI 大模型研发与云计算领域的双重领先优势,让其在 AI 基础设施构建方面拥有了得天独厚的条件。不仅为 AI 基础设施的构建提供了坚实的基础,更在不断地将这一优势转化为实际的产品和服务。而且,阿里云非常清楚——除了技术具有前沿性外,如何将这些技术有效地应用到实际场景中以解决实际业务问题,同样至关重要。

不仅如此,今年 618 阿里云首度推出 5 亿算力补贴,并带来多项 200 余种热门云产品折上折活动,助力更多企业、创业者与开发者可以使用普惠算力,更好地上云创新。

登录阿里云官网,获取算力补贴

展望未来,云计算和 AI 技术的融合将进一步加速,共同推动数字化转型的浪潮。云计算的飞轮已经加速旋转,它带来的不仅仅是成本的降低和效率的提升,更是业务模式的创新和生态的构建,AI 技术也因此将得到更加广泛的应用和普及。我们期待看到更多的企业能够利用阿里云产品和服务,实现业务的快速增长和创新发展,共同推动 AI 技术的更快发展。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部