Hammerspace与驿心科技强强联合,为中国铸就超大规模AI存储“新引擎”

Hammerspace与驿心科技强强联合,为中国铸就超大规模AI存储“新引擎”
2025年03月17日 11:55 数据猿

中国科技股正在强势反弹,跑赢纳斯达克100指数,重新点燃全球投资者的兴趣。

AI大模型应用的快速普及,以及AI基础设施的大规模投入,宛如双轮驱动着中国AI市场的迅猛增长。在今年“两会”的政府工作报告提出,未来一年的首要任务之一是支持“人工智能大模型的广泛应用”,努力提高AI算力和开发“开源模型”成为两个重点。

3月5日,下一代数据周期架构领导者Hammerspace公司开启了中国市场的战略布局,旨在满足中国本土超大规模计算企业对智能化数据调度日益增长的需求,以支持人工智能、高性能计算及其他GPU密集型应用场景。

同时,Hammerspace携手驿心科技为中国用户打造超大规模AI存储解决方案,通过统一文件与对象存储平台,凭借跨数据中心和云端的无缝编排能力,为企业提供高效、经济的AI数据管理方案。

Hammerspace的战略举措基于其过去一年创纪录的业务增长,全球客户采用率同比增长32%,多区域营收实现10倍跃升。对低成本和节能基础设施的需求不断增长,行业的关键变化正在推动 Hammerspace 和整个行业的增长,以支持大规模GPU计算,以及混合云和多数据中心架构的快速采用。

Hammerspace董事总经理Molly Presley

Hammerspace董事总经理Molly Presley接受数据猿采访时说,Hammerspace有一个宏大的愿景,即让所有数据,无论是存储在边缘或者异地的数据中心,还是云端,都能按需流动,实现实时访问。Hammerspace正与中国众多客户积极接触,期待与更多有AI、HPC存储场景需求的企业携手合作。

从以存储为中心到以数据为中心

真正改变数据使用与保存的方式

在新一轮的数据革命浪潮中,AI训练、GPU计算以及数据分析等数字化进程,促使数据的使用与存储方式迎来根本性变革。

当下数据消费主体已从人类转变为机器,传统的“以存储为中心”的架构暴露出诸多弊端:

非结构化数据快速增长,存储中心化架构阻碍了海量非结构化数据发挥其应有的价值。

高性能计算集群、GPU集群、应用以及全球化用户对实时数据的需求极为迫切,但现有存储中心化架构难以满足实时数据供给的需求。

泛滥的数据副本给数据治理和安全带来严重威胁。传统存储在无缝对接云资源方面存在困难,现有IT架构无法满足AI训练、推理、分析中GPU集群的数据吞吐需求。其根源在于存储系统与数据应用场景相互割裂,严重削弱了企业的数字竞争力。

而Hammerspace带来了“以数据为中心”的颠覆性架构,通过软件定义实现数据与硬件解耦,有效破解了存储困局,诸多优势开始显现,如具备AI/HPC级别的性能与扩展能力,可无缝延伸至云端,能进行自动化数据编排等。

如此一来,数据孤岛现象被彻底消除,无论计算集群、应用或者用户位于何处,都能够实时访问所需的数据资源。

作为全球AI领导者及AI技术创新的坚定投入者,中国也有必要改变数据使用与保存的方式,建立以“数据为中心”的AI基础设施。Hammerspace与驿心科技的合作,能够为中国超大规模计算企业提供即时价值,完善现代化的数据基础设施并加速AI战略落地。

Hammerspace的突破性技术与中国技术生态及渠道伙伴的深度融合,将以前所未有的方式助力中国企业释放运营效能、扩展AI应用边界。

除服务中国超大规模AI客户之外,Hammerspace 还在投资布局中国乃至整个亚洲的大规模AI、HPC和多云应用场景。

Hammerspace携手驿心科技

为中国打造超大规模AI存储解决方案

当前的 LLM 仅使用了人类生成的大约3%的数据,而占据当今互联网流量的 97%的非结构化数据还没有得到充分的利用。现在AI大模型正在越来越多地使用视频、音频和其他富媒体格式。

显然传统的存储方法难以跟上非结构化数据的爆炸式增长,以及高效使用大型计算集群所需的性能,尤其是在AI模型激增的情况下。

Hammerspace与驿心科技达成战略合作,旨在为中国打造超大规模AI存储解决方案,助力企业应对AI时代的这些数据管理难题,开创高效、经济的AI工厂新时代。

其中,驿心科技专注于让超大规模AI基础设施更易访问且高效运作。面对AI产生的海量非结构化数据,驿心科技通过深度整合、优化软硬件,打造出具有成本效益且扩展性高的AI存储解决方案,解决传统存储方法难以应对非结构化数据爆炸式增长、无法满足大型计算集群高性能要求等问题,助力支持下一代应用所需的海量、多样化数据的全局访问。

Hammerspace作为下一代数据周期架构领导者则提供成熟的高性能全局数据平台(对象与文件存储)。其数据平台为大规模计算集群提供高性能数据通道,实现统一数据源的数据编排,并以标准化方法灵活支持客户选用的计算、存储及网络基础设施。

Hammerspace的全局数据平台已在Meta管理的2.4万个GPU集群的开源LLM部署中得到验证,解决了数据在分布式环境下难以高效管理与输送至GPU的难题,为下一代AI基础设施奠定基础。

双方合作为从部门级AI项目到大规模生产部署提供了成熟架构,帮助企业在保持最佳成本效益的同时,消除数据瓶颈,最大化计算资源利用率,简化操作流程。

恰逢Hammerspace加大在中国市场的投入,此次合作有望为中国AI基础设施领域带来革命性变革,如借助软硬件优化、对象存储与超大规模NAS架构,实现经济高效的存储扩展;为多模态AI工作负载提供自动化数据编排;利用先进的数据自动化技术,实现数据清理、组织与合成等数据处理革新;为自动驾驶、机器人等垂直行业应用提供无缝支持;高效利用资源,大幅降低资本支出等。

全局数据平台

实现跨站点、云端、存储设备的非结构化数据统一管理

大型语言模型(LLM)的最新发展翻开了AI经济性的一页,预示着AI模型越来越强大,不仅扩展了对推动AI所需的分布式数据集的访问,而且减少了基础设施的投入,并提供了满足现代AI工作负载苛刻需求的高性能存储。

Hammerspace全局数据平台致力于打破数据壁垒,能够为跨站点、跨云端、跨存储的计算集群、应用以及用户提供极致的并行性能。通过独特的全局命名空间,该平台将分散在各地、各云端以及各存储系统中的非结构化数据统一整合,构建成并行全局文件系统,具备HPC级别的高速数据处理能力,成功消除了数据孤岛现象,使得无论计算集群、应用或者用户身处何方,数据资源都能够实现实时访问。

Hammerspace全局数据平台重塑数据管理新格局。Hammerspace全局数据平台提供真正意义上的全局基于标准并行文件系统,在多站点、多云环境下提供统一的全局命名空间,并且支持将数据存储在所有主流厂商的新、旧存储设备上。

通过“元数据就地同化”技术,平台能够将现有非结构化数据统一为单一数据集,使得数据在短短几分钟内就能对用户可见并立即可用。

同时,Hammerspace全局数据平台巧妙地融合了HPC文件系统的优势与标准NFS协议,兼具HPC性能与企业NAS的易用性,有效加速了AI数据通路和GPU计算。

在数据编排方面,平台实现了无感多站点数据编排,具备基于目标的数据策略与可编程元数据管理能力,用户可以通过GUI、API或CLI定义简明策略,以此控制数据的放置和保护。

同时,平台还提供Advanced Cross - Platform Data Services跨平台的先进数据服务,极大地简化了跨多站点、多云和存储系统的数据安全与治理工作 。

Hammerspace全局数据平台的架构设计精巧且高效。其并行全局文件系统以单一全局命名空间的形式,跨越多个站点和云,允许从多个站点同时读取和写入文件。

元数据层或控制平面与数据层或数据平面相互分离,为平台带来了更快的性能、数据放置的灵活性以及独立性。

在部署上,平台展现出极大的灵活性,可以作为软件部署在物理机、虚拟机,以及AWS、Azure和Google Cloud等云实例中。

在文件访问协议方面,平台支持NFS v4.2、NFS v3、SMB 2、SMB 3、S3和NVIDIA GPUDirect Storage、CSI等多种协议,确保文件系统中的所有数据都能够通过任何一种协议进行访问。

平台利用NFS v4.2客户端与并行NFS和NFS Flex Files(均为标准Linux内核的一部分),构建了带有Flex Files的并行NFS,从而提供基于标准的并行文件系统架构。

该平台具备强大的扩展能力,能够从一个存储节点线性扩展至数千个存储节点,并且在扩展过程中不会出现性能下降的情况。

在存储介质支持上,平台可以在NVMe闪存、SSD、HDD和磁带上存储和分层数据,所有这些操作都在单个文件系统中完成。

此外,平台支持任何供应商的任何存储类型,包括服务器、NAS、块设备、对象存储、公有云和磁带,能够充分利用现有存储系统,吸收来自这些系统的元数据,并且几乎不会产生停机时间。

Hammerspace全局数据平台的数据编排服务功能丰富且强大。它能够实现数据就地同化,即吸收来自第三方存储系统的元数据,与此同时将数据保留在原位置,使得文件能够在几分钟内就对用户可见,整个过程无中断,停机时间极少。在数据策略制定上,平台允许用户定义基于目标的数据策略,用户可以通过API、CLI或使用文件系统图形界面进行设置,以此实现自动化数据放置和保护。

在数据服务的精细度上,平台提供文件级颗粒度数据服务,任何策略或文件移动都可以在共享目录甚至文件颗粒度级别应用。管理员还可以应用自定义元数据标识(Tags)和标签(Labels),并且授权用户能够将自定义元数据标签分配给文件系统层次结构中的任何文件夹,层次结构中以下的新文件和文件夹将自动继承这些标签,实现自动化元数据继承。

此外,策略可以由元数据的任何组合触发,包括文件系统元数据和自定义元数据,进而实现自动化数据服务。这些数据服务可以在所有存储类型和位置的文件颗粒度级别进行全局自动化,涵盖数据保护服务(如快照、克隆、复制等)和数据移动操作(如分层、迁移等),并且能够根据策略自动跨NAS、对象存储、云和磁带进行跨平台分层存储。

在数据存储与保护方面,Hammerspace全局数据平台同样表现出色。其多站点复制功能可以使用文件系统自身策略功能实现自动化,也可以通过用户或应用按需进行,并且支持一对一和一对多方案。

在数据冗余与恢复方面,平台通过部署多台数据服务节点组成带纠删功能的存储空间,采用纠删编码技术,具有高度的弹性和效率,速度比传统的擦除编码方案快两倍。

在数据备份与副本管理上,平台支持跨多种存储类型的共享级快照,既可以是计划的,也可以是即时的,并且在所有站点上都是一致的,还可以存储在任何地方,包括云中。其中,快照适用于共享级别,而克隆适用于文件和目录级别;快照具有只读属性,而克隆是可写的并且可以移动。对于公有云存储或对象存储中的数据,平台会自动进行重复数据删除和压缩,以实现更快的复制并降低带宽和容量消耗。

在数据安全方面,平台支持利用第三方密钥管理服务器(KMS)以及密码进行加密,同时支持在访问文件时和后台扫描文件时进行病毒检测。平台还可以启用文件版本控制,将其作为文件颗粒度级别的声明性目标自动发生,当指定了此类版本控制策略的文件或数据集发生更改时,会随时触发版本控制。此外,平台具备防篡改(WORM)、误删除恢复等功能。

Molly Presley表示,Hammerspace是一个纯软件的解决方案,具备部署在物理机、虚拟机,包括云上的实例。所有的数据都会在客户指定的设备或者系统中得到保护,符合审计的要求,在数据主权方面大家可以放心。

客户成功故事

让数据发挥应用的价值

在存储技术革新的浪潮中,Hammerspace致力于用软件定义存储,从根本上改变数据的使用与保存方式。而Hammerspace分享的客户成功故事,则全方位展示其技术实力与应用成效。

Meta作为行业先锋,在人工智能领域不断探索创新,尤其是在开源Llama系列大模型的开发上卓有成效。为了突破传统存储架构的限制,实现模型训练效率的飞跃,Meta与 Hammerspace展开了深度合作。

在Llama 2和Llama 3模型训练项目中,Meta面临着极为复杂的挑战:3000台GPU服务器搭载着24000块GPU,需要高效协同运作;同时,1000节点存储集群要保障数据的快速读写,实现12.5TB /s的聚合吞吐量。

Hammerspace凭借其先进的技术架构,为Meta打造了基于标准协议的存储解决方案,成功打破了数据访问的壁垒。这一合作使得工程师能够借助数千个GPU对作业执行交互式调试,实现了数据随处可访问,大幅提升了GPU的利用率,满足了Meta对GPU近乎100%利用率的严苛要求,且以即插即用的方式融入Meta现有的技术架构,不破坏网络与存储的稳定性。

当进入Llama4的训练场景并在追求极致性能和GPU使用率的宗旨不变的情况下,Meta开始着重考虑能源消耗问题。Hammerspace再次帮助Meta实现了在能源消耗率较低的地区进行大规模数据训练,且无需将数据在不同站点间频繁移动,不仅降低了能源成本,而且还在节省能源消耗和实现GPU 超高性能的前提下,加快了数据训练任务的完成速度。

Meta首席工程师高度赞誉Hammerspace在Llama 2和Llama 3模型训练中的表现,称其基于标准协议的架构如同施展魔法,成为Meta在AI存储领域的不二之选,也为其他AI训练场景提供了极具价值的借鉴范例 。

Molly Presley表示Meta 在调研市场上所有主流存储厂商后,最终选择与 Hammerspace 合作,主要有几个关键原因:其一,Hammerspace采用NFS原生协议,该协议早已内置在Linux 内核中,因此无需在Meta现有的计算集群上安装任何客户端程序。

其二,Hammerspace能够提供线性增长的存储性能,如目前其存储节点规模已达到1000 +以上,充分满足了Meta对存储性能扩展的需求。

Blue Origin作为亚马逊创始人Jeff Bezos旗下的火箭发射公司,在美国境内9个地点开展不同业务,如研究火箭图纸、准备发射及分析飞行数据等,各地数据需求各异。

借助 Hammerspace技术,Blue Origin公司实现数据实时跨地点流转,火箭发射后分析人员能立刻获取详细发射参数进行分析,结果也能即时反馈给火箭设置人员用于改进。Blue Origin数据访问速度提升80%,通过分级存储节省超100万美元成本。

美国Los Alamos国家实验室在1000台英伟达SuperPOD部署项目中,采用Hammerspace软件方案取代Lustre。Hammerspace凭借独特的Tier 0解决方案,利用每台GPU服务器闲置的本地硬盘构建Tier 0层存储,打造全局命名空间的第0层,大幅提升读写性能与CheckPoint效率。

在大规模GPU服务器集群场景下,该方案无需额外开销,还能依据指定策略,让数据在生命周期内合理存于闪存到磁带等不同存储介质。方案实施效果显著,为实验室节省了大量硬件、能源投入,还减少了数据中心空间占用。

Molly Presley表示,Hammerspace的软件方案能整合包括DeepSeek新的3FS存储系统在内的现有存储数据,输送给GPU训练芯片,提升GPU利用率,加速数据价值实现,降低存储成本与能耗,消除数据孤岛现象,切实达成AI场景下高性能存储。

文:放飞 / 数据猿

责编:凝视深空 / 数据猿

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部