国内最大6万卡AI4S集群投用:中科曙光“超智融合”加速世界模型发展

2026-04-16 18:31:46 来源: 互联网
点击
正如大家所见,AI正在重塑全球千行百业。作为产业进步的第一生产力,“科学研究”也不能置身事外,这让AI For Science(简称AI4S)在近年成为全球热点。
 
对于该热点,中科曙光高级副总裁李斌在日前的一场分享中表示:“把AI方法用在科学和工程领域的做法一定是正确的,因为神经网络方法可以逼近任何连接函数但AI4S不能取代传统的数据运算,两者应该结合。”


 
在他看来,AI4S的本质就是由科学大数据驱动、数学物理与方法和神经网络方法相融合,并根据实际计算场景去做精度灵活选择。针对这个兴起的新潮流,李斌认为,我们需要为之打造匹配的AI4S算力基础设施。
 
AI4S对算力提出新需求
 
如上所述,AI4S很重要,这首先体现在这是一个很大的市场。相关数据显示,2024年,AI4S就已经是百亿赛道,全球收入规模更是200亿人民币。再考虑到AI4S的主要下游客户是生物制药、新材料和半导体设计等极具潜力的行业,AI4S未来的成长规模会更大。
 
而“算力”作为实现AI4S的重要支撑,在其中的作用不言而喻。而“超智融合”则更是 AI4S发展的大势所趋。
 
李斌在演讲中指出,过去说到超算,大家根深蒂固地认为其主要是服务于科学和工程的领域,是以数学物理方程为核心的确定性的高精度计算为主。但实际上,超算的定义非常朴素——就是一台比通用计算机性能更强的系统。
 
从当前系统体系结构角度来说,超算本质上就是一个分布式并行的计算机。正因如此,在面对人工智能模型参数越来越大,需要多机多卡做分布式训练的时候,用超算的架构和算力来支撑模型的训练就变成了在人工智能时代超算概念的一个自然延展。
 
“另外一方面,超算和智算的概念除了是延展的关系之外,更重要的是它走向融合。”李斌在演讲中说。在他看来,现在AI4S的本质就是由科学大数据驱动,数学物理与方法和神经网络方法相融合的过程。“新兴的智能计算因为需要超算架构来支撑,所以变的超算化,传统的超算因为有了AI4S的加持变的更加智能。”李斌强调。
 
此外,未来像世界模型和物理AI这样一些需要真实物理约束的模型技术会加速发展,。在这种趋势推动下,“超智融合”时代正在汹涌袭来。李斌表示,面向未来的AI4S算力基础设施应具备以下下几点特征:
 
要有强大的算力,而且这个算力需要具有通用性和全精度,能够支撑覆盖各种碎片化的AI4S的场景;二、相比过去的超算,还需要增强基础设施的互连和存储能力,以应对现在模型训练的数据传输以及科学大数据的存取要求;三、相应系统不但需要有更强的智能化资源管控和服务能力,还要稳定可靠,能够支撑长达数月模型训练需求等。
国家高性能计算机工程技术研究中心副主任曹振南则直言,AI4S不仅需要强大的算力底座和生态,还要将数据、模型、应用、生态、环境等关键要素结合起来。此外。自主的软硬件生态环境也是不可或缺。
 
基于上述洞察,中科曙光持续投入并终于在近日带来了全新的AI4S计算集群。
 
6万卡AI4S集群,国内最大
 
据介绍,中科曙光最近在郑州国家超算互联网核心节点投入使用的AI4S计算集群是国内最大规模的同类集群,拥有超智融合全栈技术能力,能满足用户从集群性能、软件模型优化、科研应用效率到科学智能体开发的多维需求,为“人工智能+科学技术”在国内的规模化落地提供保障。



从算力上看,该集群通过6万卡集群部署,提供了全球顶级的超智融合算力;从精度上看,依托自主可控核心芯片,该集群可支持8/16/32/64位宽的全精度计算,高效处理高维函数和复杂科学问题;从互联上看,通过国内首款类InfiniBand无损高速网络scaleFabric系列产品,该集群可充分满足AI4S计算集群对高带宽、低时延网络的极致需求;通过“超级隧道”、AI数据加速等设计,这个集群实现从芯片、系统到应用的三层传输协同,避免存储IO瓶颈;
 
此外,该系统可根据任务需求灵活匹配、调度集群的计算存储网络等资源,并发作业调度效率超每秒万次;在智能化运维、数字孪生系统以及浸没相变液冷技术的支持下,这个集群的系统可用性达到99.99%,能保障集群长周期稳定运行
 
也正是得益于这种“超智融合、全精度”设计,中科曙光新推出的AI4S集群可同时高效支撑传统科学工程计算(高精度)与AI大模型训练(低精度并行),破解单一架构无法同时兼顾的痛点。因此,中科曙光的AI4S计算机集群已与高校、科研机构与企业的广泛深度合作。
 
据透露,截至目前,该集群已在生物、材料等多领域完成大规模并行计算测试并取得多项突出成果:3万卡规模蛋白质折叠模拟较传统算法加速1000倍;4.5万卡规模实现万亿原子液态水分子动力学模拟,在打破世界模拟规模纪录的同时更让效率提升3个数量级以上;助力湍流直接模拟规模扩展至百万亿网格,大幅提升科研效率。
 
值得一提的是,随着该集群的落地运行,国家超算互联网平台(scnet.cn)也已构建起国内规模最大的AI4S计算基础设施,总计链接超300万CPU核和超20万GPU卡,并接入全国一体化算网调度体系,为全国高校、科研院所和企业提供普惠化AI4S算力服务。
 
回看近年的发展,从ScaleX(万卡)到国家超算核心节点(3万卡)再到今日发布的AI4S集群(6万卡),中科曙光一直不断刷新计算集群工程化部署的行业纪录。凭借这种“曙光速度”,公司成功实现了从通用AI到AI4S的全栈技术跨越,不仅加速了“人工智能+”在各学科落地,更成为我国抢占AI产业应用制高点的重要支撑。

责任编辑:SemiInsights

相关文章

半导体行业观察
摩尔芯闻

热门评论