DeepSeek呼唤全新的数据存储

DeepSeek呼唤全新的数据存储
2025年03月18日 18:48 数据猿

在大模型产业这座宏伟大厦之中,算力、算法和数据一直被视为三大核心支柱。其中,由于算力存在短板,吸引了最多的关注度。然而,随着国内AI芯片技术的不断突破,加之DeepSeek的横空出世,打破了产业界过往对“堆砌算力”的迷思。既然算力不再是严重的挑战,那么中国大模型的未来就是一片坦途,鲜花着锦了呢?答案是否定的。仍旧有一个幽灵,盘旋在大模型的上空。这个幽灵就是存力。

存力从广义来说就是数据存储系统,存储系统是一项融入软硬件和诸多协议的系统级产品,承担着数据存储、读写和传输的重任。回顾过去几十年信息革命的历史,每一次需求的变迁,都带来了存储技术的重构。

2024年4月,开源大模型Llama 3发布会的访谈中,扎克伯格提到,外置专业存储在大模型的训练起到至关重要的作用。

随着大模型规模化应用的高歌猛进,面对万卡集群、万亿参数和海量的数据浪潮,传统存储系统的局限性被陡然放大,俨然已经成为算力之外的又一个巨大考验。在大模型时代存储产业正在受到哪些挑战,新的应用需求为存储产业提出了哪些新课题,产业正在经历哪些新变革?围绕诸多问题,近期,在数据猿举办的线上论坛上,极道科技行业解决方案经理张策、西部数据资深售前工程师芦浩,两位深耕行业多年的资深专家,分别从软件系统和硬件设备两个视角出发,带来了来自产业一线的前瞻性思考。

大模型规模化应用下

存储产业面临新课题

根据数据统计,2025年2月,平均每天有4600万用户在使用AI智能助手APP,相较一月份实现了翻倍。这个增长的变量主要来自于DeepSeek ,DeepSeek2月平均日活数超2300万。DeepSeek的火爆无疑是大模型规模化应用的一个生动注脚,当下各类基于大模型的应用开始大量涌现,不仅带来全新的数据产生模式,也为数据处理、数据调动、数据管理等提出全新挑战。传统存储行业的格局正经历前所未有的重塑。

西部数据资深售前工程师芦浩认为,大模型规模化商业应用为存储产业带来了四个新趋势:

一、高容量化。大模型在模型训练过程中的中间数据,以及模型迭代后的版本数据都需要大量留存。像ChatGPT要处理 PB级的数据量,这就决定了存储系统需要向更高容量迈进,具备Pb级甚至EB级以上的存储能力;

二、多模态化。当前大模型已经进入到多模态的新阶段,海量的语音、文字、视频以及编程数据在数字世界自由的碰撞和组合,并进行跨协议、跨区域、跨系统的交互,这需要存储系统具备跨模态的实时处理能力;

三、高速响应化。大模型正进入“用起来”的新阶段,有些产业如金融、医疗等对于延迟容忍度极低,微秒之间就要形成精准的推理结果。高速运算的背后需要存储系统源源不断提供数据支持,确保模型在高并发应用需求下高效运行;

四、低成本化。成本问题均匀地考验着每一家大模型厂商,高昂的成本让一些巨头都为之咋舌。大模型处理的数据量越大,对存储系统的性能要求就越高,存储性能越高,存储系统的设备成本,运行和维护成本也必然大幅提升。让成本和性能实现均衡发展,让成本不再是不可承受之重,也是大模型突围的重要方向。

极道科技行业解决方案经理张策则认为,大模型规模化商业应用,为存储产业带来了三大变化:

一、超大规模的集群化部署。过去几年,大模型的参数规模从几万增长到几千亿乃至万亿,比如ChatGPT-3拥有1750亿参数,GPT-4据说已经达到了万亿参数。面对超大规模的训练需求,通用的NAS存储将无法支撑,只有通过集群化、多级部署,才能构建起庞大且灵活的存储系统,支撑这个人类有史以来最“聪明”、最庞大的神经网络架构,高效地运转。

二、分布式并行处理。大模型在训练和推理的过程中,数据读写非常频繁,只有分布式并行文件存储系统提供可扩展、多节点的能力,才能应对数据爆发式增长需求。张策说:“高性能并行文件存储系统,能够为用户在单节点上提供高达70GB/s的性能,如果在多节点的环境下,数据处理能力将呈指数级增长。”

三、安全可靠。稳定性和可靠性是存储系统的基石。GPT-4 的训练使用了约 25000 个 A100 GPU芯片,然而其模型 flops 利用率仅有32%到36%。算力利用低效的问题根源,就是大量故障所导致的。如果无法保证数据安全和服务的稳定性,即便是堆砌了天量的算力,也将被各种故障问题所吞没。

存算协同将是大势所趋

从2022年开始,中国大模型厂商陆续经历了“搞算法”、“抢数据”、“堆算力”几个阶段,中国大模型基础设施几乎已经完备,甚至在最弱的算力层面,曾经的“算力恐惧症” 已经慢慢变成了“算效焦虑症”了。

事实上,存储性能直接决定了大模型在训练推理过程中的GPU利用率。对于GPU架构而言,堆叠算力单元不是难事,当前计算任务主要耗时集中于等待数据从存储系统到达计算单元的过程,而非计算单元进行矩阵计算的过程。较差的存储性能会严重增加GPU闲置时间,导致模型落地困难、业务成本剧增。

大模型的发展不仅为对底层存储基础设施提出了更高要求,更倒逼着软件定义存储(SDS)向高性能、弹性化与智能化方向迭代。以DeepSeek R1模型为例,这是一个拥有6710亿参数的混合专家(MoE)模型,模型推理的实时性、业务的复杂性、任务的多样性等共同驱动SDS与计算层深度融合,催生存算一体解决方案。

对于存储产业而言,不仅要在物理层面进行一场技术上的突破,更需要在思维上实现进行更新。

在技术层面,芦浩认为,市场渴望更高性能、大容量、低成本的技术突破。在性能方面。未来的存储硬件应进一步提升接口带宽,比如更高的PCI的标准,更高速的网络接口,未来可能达到800G甚至1.6T,或是采用多通道并行的传输模式来增加数据传输速度,或者优化存储介质降低延迟,或者改进存储架构,减少数据查找定位等操作时间。同时因为大模型训练会带来大量的文件读写操作,所以就需要对存储硬件有高的IOPs性能突破。

西部数据创新路径

存储容量扩展方面,需要用Scale Out和 Scale Up纵向扩展和横向扩展的存储架构,提高存储容量以容纳海量的数据。在功耗和成本方面,大力探索新型的存储介质,比如HAMR(Heat-Assisted Magnetic Recording) 这种新型的磁性媒介数据存储技术,可使得数据位变得比过去更小且密度更高,同时保持磁稳定和热稳定。

“我们需要围绕大模型的全周期进行技术突破” 芦浩表示。

人工智能六个阶段数据增长

在AI应用及推理阶段,通过技术创新可以让训练数据缓存到高速的存储中,这样在训练过程中模型可以直接从缓存中读取数据,减少了从硬盘读取数据的延迟,从而提高了模型训练的速度和效率。

在数据预处理的过程中,像数据的清洗、格式转换以及特征提取等任务,往往需要重复性的访问,这会导致I/O带宽的开销以及计算资源的浪费,还可能影响数据完整性。

通过缓存机制的创新,让GPU主要专注于模型训练,而 CPU则并行的处理数据加载和预处理的任务,CPU只需要执行高效的这种数据加载操作,最大化提高GPU的利用率,加快模型的训练速度,缩短模型的训练周期,进而减少训练成本。

技术创新之外,存算协同的发展模式更是未来的大势所趋。

倪光南院士曾指出,用广义算力去定义一个算力中心,才更准确。如果去计算存算比的话,美国的算力中心存算比为1.11TB/GFlops,中国约为美国的37.8%。

存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。我们知道,大模型是生长在深度学习网络这座地基之上的,而深度学习需要数据在计算单元和存储单元之间频繁的移动。在移动过程中不但产生了巨大的能耗,并且还耗费了大量的时间。存算协同打破了“存储-计算分离”的模式,直接在存储单元内部集成计算单元,支持数据本地化处理,降低网络传输瓶颈。极道科技作为国内首家提出存管算协同的分布式系统厂商,张策表示,存算协同的算力平台不仅能应对大规模数据集的处理挑战,支持复杂计算任务,还能通过与存储的协同,针对业务类型优化存储配置,进而借助计算集群的智能化加速科研分析效率。

存算管协同模式

他进一步举例来说,在智算中心里面很多的模型计算任务,它们各自都拥有着不同的计算需求,在海量数据的环境下,这些任务同时都会向存储系统发送不同模式的I/O请求,这会导致大量的无序I/O堆叠在一起,对管理和优化都造成了挑战。

存算协同突破计算瓶颈

张策指出,在实际的运行中,系统中硬件能力存在大量的“闲置”。问题的关键就在于在存储这一端,它无法独立的把这些无序堆叠的I/O拆解出来,因为它缺乏这些任务的启动的时间、地点、类型这些具体信息。而通过存算协同的机制,我们可以将关键信息传递给存储系统,使得存储系统能够识别并拆解这些无序堆叠的I/O,化无序为有序,并针对这些不同的I/O去进行精准的优化。

“比如,对于I/O密集型的计算任务,计算系统会将其所需要的数据放置在适合I/O操作的存储系统中,加快数据的提取速度;对于带宽敏感型的任务则会将数据放置在带宽充足的存储系统中,来确保计算过程中数据的高效传输。这种计算与存储的协同,使这个系统能够智能的去匹配最优的存储类型,显著提升流程执行效率。”张策说,“在一些产业实践中,系统性能提升了6倍以上, CPU的利用率几乎达到了100%,磁盘的负荷也基本上保持在95%以上。”

大模型既是存储产业的需求者

又是革新者

对存储产业而言,大模型不仅仅是作为一个“提需求”的存在,作为一项正在赋能千行百业的新技术,大模型同样也在反哺存储技术的发展和革新。

张策指出,在存储系统的计算和管理方面,大模型都带来了巨大的提升作用。在计算方面,大模型能够精准分析每一个计算任务,计算作业所需要的存储带宽,CPU、GPU资源,从而精准判断作业执行周期,完成时间等。

2025年,随着DeepSeek和Manus等超级AI单品接连问世,一个属于大模型的璀璨时代,正在显露天际线。而大模型的主旋律,也在从拼参数向拼应用演化。在新的阶段,算效的价值将会越发凸显。存储产业作为优化效率的重要基础设施,将扮演比以往更重要的角色,但也势必要承担更大的责任。大模型是最严格的命题人,也是最严格的阅卷人。以存促算,存算协同的新格局将逐渐成型,在新旧格局的转换中,变革往往都是最剧烈的。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部