AI的风,终究还是吹到了存储身上。
在这个算力需求无比膨胀的AI时代,高端GPU“一卡难求”已成为常态,但众所周知,人工智能三要素除了算法和算力之外,还有作为算力基础的数据,这也让存储市场迎来了新的机遇,毕竟从IDC的调研结果来看,预计到2028年,全球将产出394ZB的数据,其中AIGC领域的数据产出尤为突出。在此背景之下,大容量存储解决方案无疑是满足AI海量数据存储需求,提升存储效率的最佳选择。
正如Solidigm亚太区销售副总裁倪锦峰在MTS2025存储产业趋势研讨会上所说的那样,“庞大的训练数据集是AI从想象跨越到现实的关键桥梁,存储则扮演着妥善破解数据管理难题、确保数据有效服务于AI的重要角色。”
持续深耕QLC领域
说来有趣,脱胎于英特尔,成立于2021年12月份,手握Floating Gate和Charge Trap两大核心技术的Solidigm在QLC领域的技术积累要比很多人想象的更长,从2018年起,彼时的英特尔就在积极推动QLC的发展,如今随着AI时代的到来,存力需求的快速增长也让Solidigm在QLC领域的提前布局迎来了回报。
倪锦峰在大会上表示,这一轮AI的爆发很大程度上改变了存储演进的方向,其原因是来自多方面的,首先,GPU的算力发展非常快,但存储的能力没有跟上,反而有时会成为瓶颈;其次,AI加速了电力和空间的需求,能源、电力成为数据中心建设机房时需要优先考虑的问题,特别是在欧美地区,能源供应增长无法满足数据中心需求的趋势已经越来越明显;最后,爆发式增长的数据总量加速了大容量SSD的部署需求。这些都在加速存储技术的创新。
事实上,Digital Realty在8月份针对欧洲进行的一项调研也很好地说明了这点,目前企业实施AI战略最大的阻碍是缺乏足够的存储空间来存放AI所需的海量数据集,对存储的需求甚至要排在算力和网络的前面。因此,越来越多的企业开始认识到高效存储的重要性,尝试部署大容量SSD来应对未来的存储需求。
众所周知,一个典型的AI数据工作流程涉及数据摄取、准备、模型开发、调整、优化等不同过程,而每一个步骤由于工作负载特性的不同,对存储的要求也有所不同,例如在存档阶段,数据量特别庞大,但是对性能要求不高,而这也是大容量QLCSSD最适合发挥的舞台。
就在不久之前,Solidigm推出了122.88TB的D5-P5336 QLC SSD,是目前行业里容量密度最高的QLCSSD产品,相比于传统的HDD JBOD或者替换TLC SSD JBOD的方案可以实现4-8倍空间占用的节约,同时在总功耗、散热、电力等方面都有非常出色的表现。
与Solidigm在更早之前推出的61.44TB的D5-P5336 QLC SSD相比,122.88TB的D5-P5336在性能方面没有任何损耗,这是因为两款产品采用了同样的ASIC和架构,只是容量翻了一倍。同时,由于122.88TB Solidigm D5-P5336针对数据密集型工作负载进行优化,其在内容分发网络、通用服务器混合负载负载,对象存储等方面都有着相当不错的表现。
但值得一提的是,于QLC SSD而言,容量的增加也意味着成本的飞涨,这是因为SSD从架构上讲就需要用DRAM做缓存或者做映射,此前业内甚至有专业人士表示“SSD的容量不会突破30TB”,毕竟容量越大,DRAM也越大,成本也就越不好控制。
“Solidigm的产品中,DRAM只用来做映射不用来放数据,TLC SSD产品中这个比值基本上是1:1000,相当于4T的盘需要4G的DRAM,用来做4K映射。来到大容量QLC SSD这边,如果继续做4K映射就会出现很多问题,比如寻址范围不够,成本太高,要求的寿命期很长等等,Solidigm的解决办法是把IU做大,减少对DRAM的需求,不过这也需要客户对工作负载进行一定的调整,比如把小块变成大块,随机变成顺序,以此来充分发挥QLC SSD的性能,Solidigm也在帮助客户做这方面的工作。”倪锦峰在接受采访时表示。
在过去很长时间里,业界总是对QLC SSD的寿命有所怀疑,实际上,122.88TB的D5-P5336在耐用性方面可以达到0.6DWPD,整个全生命周期的写容量约为134.3PBW,在混合工作负载的情况下很难写穿,即便是进行5年不停的32K 100%随机写入或者4K 100%的随机写入,寿命也不会完全消耗。而且换个角度来说,容量一旦达到这个水平,对晶圆质量、电容、电阻等关键技术的要求反而更高了,从成本角度出发,大容量QLCSSD的可靠性实际上要更高一些。
市场的反馈也说明了这一点,从2018年到现在,Solidigm已经出货超过100EB的QLC SSD,并且财富500强的前五名以及70%以上的OEMAI解决方案供应商都在大规模采用Solidigm的QLC SSD产品。
另外,对大规模数据中心而言,部署大容量的SSD可以为GPU释放宝贵的能源,虽然目前TLC+HDD仍然是国内部署最为广泛的解决方案,但在能源有限的海外,全QLC的方案已经在替换原有的方案了,在可靠性不降低的前提下,能够有效节省空间、电力和维护成本,特别是在电力方面,混合方案大约有20%的电会用在存储上面,纯TLC方案是8%,而大容量纯QLC则只有3%左右,这也就意味着节省出来的电可以支持更多GPU的部署。
倪锦峰在研讨会期间还介绍了两个客户应用QLC SSD的案例,第一个是欧洲专注于技术推动工业领域创新的公司InoNet在自动驾驶场景的应用,通过部署30TB QLC SSD替代传统的HDD,在容量增加的前提下,减少了维护成本;另一个则是伦敦动物学会监测动物环境的场景,由于每天都要拍摄大量的照片用于实时分析,因此对存储的要求会很高,通过部署Solidigm的QLC SSD方案,图像预处理速度从3分钟缩短到了30秒,为伦敦动物学会的科研和动物保护工作提供了强有力的支持。
目前,U.2接口的122TB D5-P5336 QLC SSD已经开始送样,明年第一季度就会开始大规模量产,而E1.L接口的122TB D5-P5336 QLC SSD也会在晚些时候开始量产。
为AI时代做好准备
上文中提到,在整个AI生命周期中,随着工作负载的不同,对存储的要求也会有所区别,除了大容量的QLCSSD产品之外,Solidigm也提供了AI各个阶段所需的各种SSD解决方案。例如在数据准备、训练、checkpoint、推理等对容量密度要求不高,但对读写性能要求较高的场景,Solidigm D7-PS1010、D7-P5520,以及D5-P5430这样的SSD会更加合适。
特别是Solidigm早些时候发布的其首款PCIe Gen5 SSD产品D7-PS1010/PS1030系列,不但具备行业领先的读写性能,可以在更短的时间里完成数据读写操作,从而更好地利用昂贵的GPU资源,同时在能耗比方面的表现也十分优秀,并专门为AI的工作负载进行了优化,可以用来加速各种复杂的工作负载,包括比较复杂的AI场景。
如今,Solidigm已经有了非常广泛的AI存储解决方案,其中SLC SSD产品D7-P5810系列,具备超高的性能和极长的寿命;再往下是超高速的PCIe 5.0 SSD PS1010/1030系列,具备高性能和高能效比;接着则是Solidigm目前出货量最多的TLC PCIe 4.0产品P5520/5620系列,在数据中心和企业端客户有着广泛的部署;最后则是大容量的QLC SSD产品P5430/P5336系列,其中D5-P5430 QLC SSD可以“无缝”和TLC SSD进行切换,而D5-P5336则有望在未来通过更大的容量来实现对HDD的替换。
在倪锦峰看来,多年来在SSD领域的摸爬滚打让Solidigm有了全面且强大的存储产品组合,在AI需求爆发之后,Solidigm厚积薄发的产品也经过了市场检验,形成了属于自己的独特优势。
首先,企业级SSD从研发、测试、验证到客户的部署需要很长时间,而Solidigm已经在时间上实现了领先;其次,在QLC领域,Solidigm是为数不多同时掌握Floating Gate浮栅技术和Charge Trap电荷捕获两大技术的厂商,而Floating Gate浮栅技术在大容量QLC SSD产品会更具有特点,这也给了Solidigm更大的信心和实力。
除此之外,Solidigm还在中国拥有端到端的从研发、生产、技术支持、方案开发、测试验证、质量可靠性全方位的能力,为客户提供全方位的技术支持,持续践行“在中国、为中国”的服务理念。
“Solidigm现在对自己的定位不仅仅是存储厂商,而是AI基础设施提供商。AI的发展需要海量数据,海量数据需要基础设施,基础设施需要提高存储效率,提高存储效率就需要Solidigm的产品,换句话说,AI需要Solidigm。”倪锦峰在最后表示。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有