人工智能浪潮下,Solidigm的应对之道

2025-03-24 18:38:37 来源: 互联网
历经多年的探索之后,人工智能终于在最近两年迎来了大爆发。这一方面受惠于ChatGPT的大繁荣所带来的AGI浪潮,进而驱使各大厂商为了未来的AI梦想厉兵秣马;另一方面,今年年初DeepSeek的现象级爆火,让一体机也火了一把。

在点燃了这两把火以后,虽然备受质疑,但人工智能的硬件需求水涨船高。

Solidigm亚太区销售副总裁倪锦峰在日前举办的MemoryS 2025中国闪存市场峰会演讲中也直言,在2024年的闪存市场峰会过后,整个存储行业迎来了AI存储需求的爆发。此时此刻有Deepseek为代表的AI新势力的推动, AI存储的2025年比2024年度更好。



“AI正在重塑千行百业,作为AI重要基石的存储也在经历着根本性的变革。当前这波存储方案变革浪潮中,有两个因素值得考虑:电力和空间。国内很多领先的互联网和创新存储方案提供商已经在非常积极地研究大容量SSD来替换HDD,以解决即将发生的电力/空间限制.” 倪锦峰接着说。

从倪锦峰的介绍我们可以看到,深耕多年的Solidigm已经蓄势,待发!

人工智能,需要怎样的存储?

为了帮助大家更好地了解AI存储需求,倪锦峰首先介绍了AI 工作负载。如下图所示,这是一个典型的AI 工作负载或者说 AI数据关系。只有了解了数据如何流动以后,我们即可找出其中的存储瓶颈,并加以解决。



例如在训练阶段,GPU需要高性能连续的随机数据输入。在这种情况下,如果存储性能很差的话,GPU会一直在闲置状态,因为GPU很贵,这带来的资源浪费可想而知。因此,我们希望最大限度提升GPU能力。

“再比如,训练会时不时中断来做check-pointing,这需要高性能顺序写入,而传统的HDD则很难胜任。存力建设需要高性能、高容量、高可靠的SSD打好坚实的基础。” 倪锦峰继续说。

再看一个典型的AI集群部署方案以及对应的数据流动。如图所示,绿色是GPU算力服务器,棕色是NAND SSD缓存tier,浅黄色是OSS高密存储。这一类部署方案在国内特别是大的互联网厂商和传统厂商广泛部署的一种应用场景。



倪锦峰在演讲中强调,在当前AI的推动下,100兆瓦的数据中心比较常见,到不远将来可能千兆瓦数据中心也会涌现,这就需要我们有更好的方式节省能源、提升效率。总而言之,在我们的众多数据中心,特别是AI数据中心都或多或少的面临这样两大挑战:

一、存储密度低: Digital Realty 去年在欧洲进行的一项调查证实,缺乏足够的存储空间来存放AI所需的海量数据集被企业列为头号挑战。而在其他条件相同的情况下,更高密度意味着更少的数量,亦即更低的功耗。

二、GPU使用率低:因为价值不菲且角色重要的GPU应该尽可能被使用,获得更高效率来体现其对AI的价值。因此需要更大容量更高性能的存储来不断feed数据,以最大化GPU利用率。

换句话说,高密度存储在AI系统中不可或缺。



从上图可以看到,当采用以大容量QLC为基础的高密度存储方案,在实现同样的算力和存力的情况下,能大大降低功耗并减少空间和节省电力,也可以在同样的50MW 电力预算下进一步提升算力和存力,同时也节省了很多机架和空间。

倪锦峰重申:“存力建设离不开高性能、高密度、高可靠的SSD产品。”

“在数据摄取和存档阶段,需要高密度、好的读性能以及较好的写性能,Solidigm P5336大容量QLC SSD能很好地胜任;而数据准备、训练、checkpointing, 推理等阶段,对容量密度要求不高,但对读写性能有较高要求,那么PS1010 Gen5 PCIe或者已经非常成熟的P5520 TLC以及P5430高性能QLC SSD也可很好满足需求。” 倪锦峰接着说。

如他所说,Solidigm拥有广泛的SSD产品序列,满足AI不同工作负载的需求。

成就客户,激发数据无限潜能

虽然从名字上看,Solidigm是一家相对年轻的公司,但事实上,这是一家源自于英特尔出售的NAND和SSD业务,Solidigm公司于 2021 年 12 月正式成立,目前是半导体领导者SK 海力士在美国的独立子公司,受惠于其数十年的存储创新经验,Solidigm塑造了自身独特的技术优势、专业知识和用户洞察。

作为全球领先的创新 NAND 闪存解决方案提供商,Solidigm致力于成就客户,激发数据无限潜能,推动人类发展进步。

倪锦峰也指出,在过往积累的知识产权支持下,Solidigm拥有了浮栅(floating gate)和电荷捕获(charge trap)技术,能提供基于SLC, TLC, QLC的广泛产品支持,并且拥有丰富的规格、接口和容量选择,不断致力成为优化数据存储解决方案的首选合作伙伴。

“在QLC特别是大容量QLC SSD方面的长期投资以及不懈坚持,也让Solidigm得到了丰厚的回报。” 倪锦峰透露。
倪锦峰介绍说,QLC相比于HDD在容量密度、性能、可靠性和能耗效率等方面都有显著的优势。强大的存储性能可提高AI开发性能和可靠性,同时节省电力和机架空间。据了解,从2024年Q1开始,AIGC on prime算力提供商和终端客户开始大规模使用大容量QLC SSD来替代HDD,解决日益突出的空间, 电力, 以及算力/存力不匹配问题,这给Solidigm带来全新的发展机遇。

去年,Solidigm还发布了支持E3.S和U.2两种外型规格的Gen5 SSD产品D7-PS1010/PS1030。它们具有超高的性能、领先的能效比,以及丰富的产品特性,专为AI 数据管线做了架构优化,从而能大幅提升性能。



正如倪锦峰在此前的演讲中所说,AI不同阶段展现出不同的工作负载特性,因此需要厂商对工作负载有深入的了解并对SSD做相应的优化,以达到最佳的平衡和最好的收益。归根到底,对AI存储来说,性能很重要,这也正是Solidigm所擅长的。

据介绍,相比于行业其它产品,公司新推出的PS1010在数据准备/训练/检查点/推理阶段所展现出了领先的性能优势。除了关注性能之外,Solidigm也非常重视能效比,如图所示,Solidigm D7-PS1010和业界其他两家产品在各工作负载下面的性能/功耗比,数值在外圈则更佳。由此也可以看出,Solidigm D7-PS1010在大部分工作负载下面都展现了明显的性能/功耗比优势,而这些工作负载则正是AI管线里面最为常见的。

“从紫色这个圈可以看出来,典型的能效比下我们的PS1010的能效比要好很多。“倪锦峰说。



2024年11月,Solidigm还推出了使用整个12英寸晶圆的die打造的122TB D5-P5336 数据中心 SSD。与业已规模出货的61.44TB版本相比,全新D5-P5336提供两倍存储空间,率先为客户提供五年无限随机写入耐用性,是AI和数据密集型工作负载理想的存储解决方案。

倪锦峰表示,随着AI应用领域的不断拓展,数据存储在功耗、散热和空间限制等方面都迎来新的挑战。而Solidigm全新122TB D5-P5336 SSD能够大幅提升能效和空间利用率,为核心数据中心到边缘的各种使用场景提供行业领先的存储效率。

“这并不是简单的容量叠加,而是在产品架构、研发、生产等全链条质量管理体系的一次跃迁。对SSD架构,芯片生产和封测,SSD封装和测试以及质量可靠性验证等都提出了更高的要求。因为任何一个失效,对客户就意味着超长时间的fail over management, data rebuild等。而Solidigm在这些方面积累了丰富的经验,也经历了时间的检验。” 倪锦峰自豪地说。

以推动创新为己任

如倪锦峰所说,在过去的发展中,Solidigm一直以来都以推动创新为己任,特别是在QLC等领域的投入是持续和有成效的,公司也获得了广大合作伙伴和用户的认可。自2018年以来,Solidigm QLC产品的累计出货也超过100EB。



从上图可以看到,PS1010/PS1030, P5336和过去产品线一起构成了Solidigm数据中心存储产品组合。其中,最上面的是P5810是SLC产品,提供超高性能和超高寿命SLCSSD;PS1010/1030提供极为优异的随机读写能力和极佳的perf/w,为AI训练提供有力的存储保障;P5520/5620系列则是Gen4 PCIe产品,这是互联网公司用的最多的产品,也是出货量最大的产品,针对实际工作负载进行优化,拥有U.2, E1.L, E1.s等诸多外形规格,在互联网和数据中心得到广泛的应用。而P5430/P5336则是Solidigm QLC系列产品,拥有最高122 TB的诸多容量选择并支持各种不同接口形式,因其优异的随机读能力以及领先的能效,还有卓越的容量可扩展性,为近来AIGC存储发展提供了坚实的基础。

在倪锦峰看来,高速发展的AIGC对以HDD为主的传统存储带来巨大的挑战,其性能、密度、可扩展性等都很难跟上算力发展的节奏,此外功耗、IDC 空间,机架位等也愈发成为算力发展的瓶颈,因此在TCO模型里面,都会排在影响因子的前列。此外,存储方案的迭代需要比较长的时间,需要在存储架构,硬件开发验证,软件优化等方面做大量系统性的工作,以确保解决实际问题的同时拥有较好的TCO。

他同时指出,2024年是QLC替代HDD的元年,除了之前提到的其它地区on prime AIGC服务提供商之外,几乎所有互联网大厂都在大力探索落地HDD替代方案。为此,Solidigm坚信,更多的大容量QLC解决方案能进一步帮助行业方案创新,推动生态系统更快完善。

倪锦峰总结说,AI是一个重大意义的技术革命,给整个行业注入了强心剂,但是AI对基础设施要求还是蛮高的,所以存储决策也变得愈发重要。有见及此,Solidigm将持续发力,为当下AI时代提供最为广泛的端到端的存储解决方案。

“我们愿意和中国的客户和合作伙伴一起,加速存力方案创新,为AIGC发展打好坚实基础。希望我们领先技术和领先解决方案能助力中国伙伴们夯实存力基础,更好释放数据价值,助力AI发展。”倪锦峰在演讲最后如是说。
责任编辑:Ace

相关文章