在数字产业里,虽然新技术、新应用、新概念不断快速迭代,但算力和存力是不变的两大底层支撑。
而对于曙光这家公司来说,先进算力和先进存力,都是曙光长期投入研发的重要业务之一。有这样业务布局的公司,在国内实在不多。
写这篇文章,是为了写曙光存储的历史。但我每每写到历史,就会有点偏到人身上去——曙光存储人有一种独特的魅力,他们的朴实、简单,他们对底层技术的极度热爱;他们关注内心目标而不是外部噪声的聚焦力,都给我留下了深刻的印象。
中科曙光总裁历军说,我们相信,变化是常态,而在任何时代,唯有强者“恒存”。
我想说,只要你们的精神一直如此,我相信曙光存储会恒存,还会更好。
——导语
01
从一间玻璃房子讲起
对中国的计算机发展史略有了解的读者,想必对如今中科曙光门口的那座“玻璃房子”有特殊的记忆。
上世纪80年代,原石油工业部地球物理勘探局曾花费巨资从国外购买了一台大型机,没想到,对方不仅对后期的集成和维护狮子大开口,还提出了一个让中国IT人铭记至今的屈辱条件——在设备使用过程中,为防止机器核心技术外泄,设备机房必须采用全透明的玻璃墙壁,因为对方要时刻监控中方操作人员的一举一动,甚至连计算机的启动密码和机房钥匙都要由对方控制。
曙光在自家门口复刻这间“玻璃房子”,意义不言自明,那就是铭记历史和砥砺奋进。
如今,中国早已在高端计算领域多次登上世界级榜单的TOP1位置,但很少有人知道,在与高端计算息息相关的高端存储技术方面,这20年间,我们也经历了从不能自给到部分技术领先全球的艰辛旅程。
时间退回到在2006年,当时,曙光要做一个大型、高端的计算系统。在存储容量上,规划的容量是16个PB。
容量还不是最关键的,最关键的是要把这个存储系统做成共享存储系统,简言之,就是一种允许多个处理机或计算机共享同一个存储设备的体系结构。
曙光当时把国内做存储的企业甚至是高校梳理了一遍,结论是国内当时根本没有共享存储的成熟技术。
顺便科普一下,共享存储计算机系统由于支持传统的单地址编程空间,减轻了程序员的编程负担,因此它具有较强的通用性。
但问题的B面是,早期的共享存储都是使用集中式存储的,由于多个处理机共享存储器,从而使得存储器性能成为系统瓶颈。
所以,在这个基础上又发展出了分布式共享存储和带有高速缓存的分布式存储,但这又带来了新的问题,比如缓存的一致性问题……总之,任何高技术体系都是这种“跷跷板”的发展模式,即新特性和新缺陷总是此起彼伏,但总体性能是螺旋式上升的。
国内没有,只得求人,但令曙光感到气愤的是,国际厂商也掂出了这个需求的技术含量,也很清楚当时中国企业的技术解决不了这问题。
于是,它们报了一个天价。
这个价格高到什么程度?简单说就是,如果按外方报价买了这套存储系统,这个高端计算系统就干脆别做了,因为其它子系统的预算都被这个天价给吃掉了。
求人不得,还得靠己。
关键时刻,还是自家人靠得住。于是,从2006年提出需求开始,这个当时只有技术原型的项目,开始针对一个真实项目的具体问题进行立项研发。
就在曙光的研发团队还在死磕这套共享存储式系统的时候,国际IT行业可谓风云变幻。
2007年1月9日,在美国旧金山的马士孔尼会展中心举行的Macworld大会上,乔布斯发布了初代的iPhone,从而奏响了移动互联网时代的序章;而到了2009年,第一代真正获得市场认可的iPhone产品问世,并以中国联通合约机的方式在开始在国内市场销售。
所以,这一年我们也通常称之为中国移动互联网的元年。
移动互联网的到来,使计算设备的拥有最小单元从家庭、单位变成了个人,使分时在线变成了全时在线,每个智能手机用户都能实时使用运算能力和高带宽通信;同时,每一个单点设备也都时刻产生海量的个人数据,这使得大数据和云计算在一夜之间从概念变成了现实。
或许是嗅到了大数据时代爆发的先声,2009年也是全球企业存储市场的一个“超级大年”。这一年,网络设备厂商Cisco(思科)宣布进入服务器和存储市场,与此同时,著名的存储企业EMC参与了NetApp的竞购,并与Cisco、VMware两家厂商结成VCE联盟;同时,Oracle收购了SUN公司,使得这家数据库起家的企业,具备了存储软硬件一体的产品结构。
而当人们都瞩目美国的存储市场发生的惊人巨变时,很少有人注意到一件小事——苗艳超研究员带着自己的几个组员,进入了曙光公司工作,而他们事业的起点,就是2006年那个需求推动的分布式共享存储的核心——分布式文件系统ParaStor,版本号1.0,这也被公认为曙光存储公司的事业起点。
换言之,如果没有2006年的天价事件,可能ParaStor还是实验室里的产品,甚至可能永远都是。但是机缘巧合之下,中国人的奋起直追终于导致了一个了不起事业的开端。
这个开端,就是在移动互联网的元年,有一家中国公司也来到了分布式存储历史性大发展的起跑线前。
虽然团队只有区区几人,但它踏对了时点,与世界范围内的大数据产业的爆发是同频同步的,从而使得中国自己的存储产业,在一个非常正确的时点开始了奋起直追,也使得至少在这个细分赛道上,我们与世界领先的时间差缩到了最小。
而转过年来,就是2010年,这一年最大的事情就是千团大战。也就是围绕团购这一种商业模式,在风险投资的推动下,有成百上千的创业团队参与竞逐……虽然只有极少的几家活了下来,但是它却框定了下一个十年里中国互联网产业的基调——应用导向和需求导向、超高渗透率和超大市场空间,以及10亿级的潜在用户群体。
可以说,这些大背景、大环境与曙光存储发展节奏的暗合,是中国存储领域的一件幸事,从而为今天曙光存储的辉煌打下了根基,为中国存储事业的腾飞找到了风口。
02
分布式时代
历史的很多因果都是相互纠缠的。
众所周知,曙光是以高端计算和底层技术自研而闻名世界的,但笔者要加上一个小小的注脚,那就是曙光并没有仅仅守着高端计算业务,而是早在2007年就启动了x86服务器业务,而这个对于曙光存储来说,也是一个决定成败的先觉条件。
应该说,曙光存储在分布式和集中式存储领域都取得了成功,这一点后面还要详叙,但必须指出的是,曙光存储的崛起主要是踩中了分布式存储的风口,而分布式存储和移动互联网、分布式计算、云计算、大数据等技术的发展,都是相互融通、互相促进的。
简而言之,最早的存储设备都是集中式的,它们的特点是大而且昂贵,所以主要使用在大型的计算设备上。
当然,既然有集中式,自然也就有分布式。有人认为,分布式的历史可以追溯到DEC公司在上世纪70年代开发的一个文件管理系统。
但是真正让分布式存储大放异彩的,则是互联网时代的到来。
随着个人计算机和互联网的发展,人类“生产”数据的能力空前的加强,人类访问数据的需求也在与日俱增,和前述大型机构的数据不同的是,互联网服务器上存储的大多是所谓“消费级数据”,比如各种多媒体文件、聊天、游戏记录等等,它们对个人而言可能是珍贵的,但总体上对于可靠性的要求远远低于大型机构如银行的核心数据。
这就需要人类去改变思路,用一种更有拓展性、更有弹性,同时也兼顾可靠性的存储系统来取代传统、昂贵的集中式存储,从而应对浩瀚无边且日益增长的数据存储需求,同时它还要与互联网的商业模式有特别好的适配性。
而曙光存储赶上的就是互联网发展的2.0时代,也就是移动互联网的到来。
移动互联网的到来,催生了三个早有概念,但真正到了移动互联网时代才大放异彩的技术的迅速商业化,这就是分布式存储、云计算和大数据。
首先是分布式存储,简而言之,它可以看作是基于一套文件系统管理下的一组服务器,这组服务器可以由很多台相对廉价的x86服务器构成,但通过文件管理系统和网络协议,可以使用户“如同”访问单机一样存储或读取数据,同时,在后台,又通过冗余机制的设置进行多重备份,从而弥补它们单机可靠性的不足。
而分布式存储遇到了云计算之后,立刻成为后者的重要组成部分,产生了云存储这个概念。云存储进一步发挥了分布式计算的高可用性、弹性和可扩展性优势,使得用户可以将数据存储在云端,而不必依赖于单一的物理存储设备,这极大的降低了数据存储的成本、提升了访问的效率,从另一个角度助推了互联网产业的发展。
而硬币的另一面是,分布式文件系统的发展,也迎来了大数据时代的到来,分布式文件系统(如HDFS)和对象存储(如Amazon S3和OpenStack Swift)开始成为关键的基础设施,用于存储和管理海量数据,进而为人们挖掘和利用这些数据提供了保障,这又直接催生了AI产业的发展。
而曙光存储赶上的就是几十年难遇的一个存储、数据、通讯能力、商业应用都爆发的时代,而它在这个时代迈出的第一个脚印,就是前面说到的ParaStor,它与x86服务器可谓相得益彰,是灵魂与肉体的关系。
而过硬的技术能力、特别顽强的研发精神,加之曙光在高端计算、自主研发方面的美誉和经验,就都成为曙光存储得以快速发展的基础。
有报道记载,2012年7月,时任曙光存储产品总监惠润海曾经对外界立下战书:“三年后,曙光存储要占领国内10%的市场份额,进入存储主流市场”。
惠润海敢说这个话,是有底气的。
曙光存储人有一种性格特质,就是从来不满足于只是跟上主流技术,而是一定要弄懂底层机制,从而为超越主流打下基础。
比如我们前面说的ParaStor的1.0版本,虽然严格上讲还不是一个成熟的文件系统,但已经能够最大支持4,096个存储节点的横向扩展,突破了传统存储系统在容量和性能上的瓶颈,也奠定了曙光在海量分布式文件系统的技术基础,可以说是“出道即超越”,而这种精神一直渗透在曙光存储的DNA里。
“当时,市场上主流的分布式存储有很多,其中国际大厂的产品的价格,在相同配置上可能是我们的5-10倍,但我们那个时候就有一个理念,就是绝不打‘廉价’这个招牌,而是一定要在性能上等同或超越国际品牌”, 中科曙光存储科技有限公司总裁何振对笔者说:“当你的性能超越对手之后,性价比就变成了质价比,用户的获得感就会很强;而如果一味强调性价比,但性能上不去,你就称不上主流品牌,更不要说去抢夺赛道头部了。”
当时ParaStor面临的最大问题之一,就是如何提升存储空间利用率,在一个CANU三代基因组装测试项目中,用户要求曙光ParaStor的性能必须超越某厂商宣称的“代表业界最高性能”的同类产品,才考虑把其业务迁移到曙光平台上。
面对新挑战,曙光存储的研发人员在短短的两周时间里,将整个业务流程各阶段的数据IO特点梳理得非常透彻,并从底层代码层面进行了逐一调优,最终用户计算用时从9.2小时降低到7.3小时,实测性能超过友商20%以上。
“底层调优是我们的特长,也是我们能够领先于其它厂商的根本保证。我们和开发前端应用的工程师不太一样,就好比开发一座楼,我们要做的是从物理学、力学、建筑学上搞清楚怎么设计楼的架构,包括良好的空间利用率、坚强而又有韧性的楼体框架、科学合理的水电气设计等等”, 在曙光的存储研发专家看来,“而只有这些做好了,前端的应用开发者才能在这个基础上,去装修、美化空间,用各种方式去卖、去出租这些空间,而我们要做的就是科学的设计和打好基础,这也决定了我们对底层核心技术的热爱和追求。”
在这种精神的支持下,曙光存储的技术迭代,以惊人的速度在进行。
2013年,ParaStor2.0版本发布,增强了数据保护机制,从而使得曙光存储具备了可为用户构建数据全生命周期管理的一体化方案的能力。得益于此,在这一年曙光存储就拿下了重大的标杆项目——为央视国际打造6PB存储资源池。
同年,曙光存储还在全国多地中标气象局、环保局的项目,而如前所述,这种机构的数据价值高、安全要求高、性能要求高,原本被默认为是集中式存储或国际大牌存储厂商的分布式存储的潜在客户。
而曙光存储的崛起,为它们提供了不仅是在技术上领先,同时又兼顾成本优势、自主安全的选择,这就是曙光快速发展的秘密——其实,这根本不是秘密,只是是否能坚持做到而已。
2015年终于来到了,据IDC报告显示,ParaStor在国内NAS市场排名位居第一,营收同比增长42.6%,占全部NAS存储市场份额21.6%。
也就是说,三年前惠润海下的战书达成了,而且市占率不是此前承诺的10%,而是21.6%,比此前的承诺翻了一番。
直到今天,ParaStor还一直保持国内分布式文件存储市场占有率的前两位。
在和多位曙光员工的交流中,我感到了曙光存储人的朴实,也感到了他们的坚持,这使得曙光存储在业务上有了两个重要的差异化竞争力。
第一个差异化竞争力,就是对于底层技术不懈的追求。
这些年,自主研发的呼声一直很高,但也造成了一些行业的浮躁,造成了一些“套壳”“借鉴”的风气。
可以举的一个例子,就是苹果手机和安卓手机的系统之争,人们往往会发现,虽然苹果手机的内存好多年都在6GB上停滞,而有的安卓手机的内存已经提升到了24GB,但是苹果手机就是相对更加的稳定、流畅、后台保活率更高。
而苹果之所以能做到这一点,在于其实现了从自研芯片、操作系统、应用框架、应用生态的全闭环,从而使得真正意义上的端到端优化成为现实;而安卓虽然版本迭代快、分支多,但很多厂商缺乏对于安卓底层机制的掌控能力,往往只能在UI层面上进行优化,从而在系统运行的效率上始终停滞不前。
可以说,曙光存储就是中国存储领域的“苹果”,何振说,曙光人在这一点上很坚定——因为曙光存储的价值观就是:曙光存储的软件体系,要做到完全自主研发,而非根据开源软件或代码搞二次开发,这才使得曙光存储始终具备代码级的定制开发与调优能力,可根据用户实际需求,进行定制化设化开发。如今,曙光存储拥有了多个领先业界的中国自研存储产品。
第二个差异化竞争力,就是曙光存储人的眼光,始终能从更高一个层次上考虑问题。
我曾说曙光的发展是踏对了时间点,但光是赌对时间,其实并没有实际意义,你必须超越时间。
例如,2013年的发布的ParaStor的2.0的另一个特性,就是对云和大数据的良好支持,这使得曙光存储在云计算勃兴的时代,驶入了快车道,而当时行业里对云计算的未来看不清楚的人还有很多。
但曙光存储很早就对云计算的特性进行了分析,并特别关注块存储的发展。
云存储有多种存储方式,但块存储有一些突出的特性,例如特别适应云服务器的存储,可以用来存储云服务器的系统盘和数据盘,提供高性能的存储服务;同时,块存储在对数据库存储、大规模数据分析的低延迟读写上,也有明确的优势。
曙光存储运营总监石静对笔者说:“我们很重视块存储,但也不止于块存储。我们率先提出了融合存储的概念,简单说,就是ParaStor对主流的文件、对象和块协议,都要做到良好的支持,从而让一套存储应对用户不同的业务需求,实现彻底的融合。”
在这种理念的推动下,2019年,曙光存储正式推出自主研发的分布式块存储系统XStor1000,可以高效对接主流的云平台,满足云化转型的结构化数据存储需求。
事实再一次证明曙光存储的路径选择是正确的,2023上半年,IDC发布的软件定义存储市场的报告中指出,块存储的份额占整个市场的31.3%,同比增长19.7%,在公共服务、政企、通信等行业都得到了广泛的应用,而曙光存储也成为中国软件定义存储市场的TOP3。
03
那一箭,此刻正中AI大模型
2024年的6月25日,曙光存储召开了主题为“先进存力,凝聚数据要素”的新品暨品牌发布会,震撼发布全球首个亿级IOPS集中式全闪存储FlashNexus,重磅升级分布式全闪存储ParaStor,同时推出行业首个通存解决方案,应对“强无止境”数据存储性能和成本需求。
可谓是三箭齐发。
虽然本文主要梳理的是曙光存储在分布式存储领域的发展,但不得不说,尽管昂贵,但集中式存储性能往往代表存储厂商的最高水准。
而曙光这次出手不凡,本次发布的FlashNexus系列不仅是全球首个亿级IOPS集中式全闪存储,还是业界唯一有百控级扩展能力的集中式存储产品,稳定性保障首次突破7个9,综合性能领先同类产品50%以上,又一次用前沿技术引领产业革新。
简单的说,FlashNexus这种超级全闪存储,主要服务的就是AI,特别是大模型的训练和推理。
“现在的大模型训练和推理所用的系统,对算力要求很高,但另一个方面,算力卡的占用效率其实又很难提升,这里面设计到很多通讯和调度的原因,但从存储人的角度看来,就是要避免存储这个子系统成为大系统的短板”,曙光存储全闪产品总监卫然说:“所以,我们的ParaStor全闪存储具备五级数据加速技术,目的也很简单,就是搭配全路径AI亲和机制,让数据无需等待。”
既然已经谈到了“未来”,曙光存储人也坦然的和笔者分享了对于“存力”的未来的三点思考。
首先,从整个系统的角度来看,中国企业在信息系统建设中,对于存储的重视程度,还有待提高。
“中国企业对于存储的重视程度不够,这涉及到一个算存比的问题,它指的是在大模型训练过程中,大量的时间消耗在数据加载而造成算力的浪费”,张新凤说:“倪光南院士曾经在公开演讲中讲过一个数据,即中国AI的存算比仅是美国的37.8%,而为了解决这一问题,需要建立更合理的算存比,以平衡算力、存力和运力的配置,充分发挥算力的作用。我们也测算过,在极致发挥硬件性能的前提下,ParaStor可以帮助提升AI全平台整体表现实现20倍以上的提升,包括国产平台、x86和Arm平台,这是我们对于AI时代的最好回应。”
“另外,从更宏观的维度看,先进国家在一个计算系统的建设中,对于算力和存力的投资大概在7:3,而我们在国内实践中接触到的是8:2甚至是9:1”,张新凤说:“这意味着对于存储的投资不足,看似省了钱,但结果是系统的均衡性下降,反而拉低了系统的上限。”
其次,石静分享了一个很有趣的观点,她说:“虽然我们这次发布的是集中式存储设备,但是这并不意味我们的发展路径变了,分布式存储仍然是更适合这个AI时代的选择,或者可以说,无论是AI的训练和推理,还是大数据挖掘,乃至于大模型在云侧和端侧的协同,与云计算充分融合的分布式存储还会是主流“。
事实上,笔者也认为,FlashNexus这种超级存储装置的发布,其实也包含了曙光存储对未来市场的一种看法,就是集中式存储和分布式存储会互相走进、促进。
比如,这次发布的集中式存储设备上,其实同时体现了分布式和集中式的理念,比如,唯一百控就强调了系统的可扩展性,传统观念认为这是分布式的优势;而得益于其高性能,用户也可以在分布式网络中接入这种高性能的节点,提高系统的上限……而且笔者相信,随着技术的演进,这种高性能存储装置有可能在几年或一定时间之后,拥有成本大大下降,最终成为一个普通的平台也能用得起的节点,就像我们的个人电脑和手机已经基本实现了全闪存化一样。
而最后也是最为重要的是,曙光存储的路,其实就是中国数字化发展的写照,可以说从2006年的那次机遇开始,曙光存储的每一步都踩在时代的节点上。
”从数字化转型初期、到企业上云,到现在的AI的技术创新和应用推广。基础之一就是数据要素的汇集和价值挖掘,而数据要素的汇集与有效流通,就需要存力、算力的均衡发展,价值挖掘则既需要高算力,也需要高存力的性能支撑”,何振说:“如果说,我和我的同事对于曙光存储的未来有信心,那不如说,是我们对中国的发展有信心,现在‘新质生产力’的提法,我的理解是要建立在全局要素的数字化融通之上的,而我们的数字化建设虽然如火如荼,但没有数字化的行业还何其多也,每人一个数字人、甚至是好几个智能体,又需要多少空间?”
他风趣的说:“有的同事说,曙光存储今天的成功,是20年前射出的一箭,命中了今天的大模型。我基本同意这个观点,但也要加一句,大模型太大,不命中反而很难。对于一个以存储为事业的人来说,整个世界都是数据,而我们才最多开掘了1%甚至是0.1%,所以,我们是在一个有极大的确定性的事业做极有挑战性、又利国利民的工作,我感到振奋,我也知足。曙光存储的每个人,都为我们存储着数字化中国而且未来还会更多,而自豪不已。”
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有