从互联IP到GPU集群:芯动科技解码下一代算力底座的挑战与机遇

2026-05-29 20:43:00 来源: 互联网
点击
5月28日,在未来半导体生态大会上,芯动科技GPU事业部总经理何颖带来《下一代GPU芯片组的趋势、挑战与产业链机遇》的主题演讲,系统阐述了智能体爆发背景下GPU互联与显存解决方案的技术演进路径,并全面展示了芯动科技作为国内高性能IP与GPU领域领军企业的全栈能力与产业布局。

芯动科技GPU事业部总经理何颖

智能体时代:算力、互联与存储的三重瓶颈


何颖指出,自2023年ChatGPT问世以来,大语言模型已发展至新阶段。2026年,以“小龙虾”为代表的智能体以及AI编程等深度应用场景不断涌现,对底层算力提出了更高要求。用户在使用手机端AI应用时频繁遭遇“算力不够”的提示,折射出当前算力供不应求的严峻现实——token产生速度远落后于需求。单一芯片已无法满足大模型训推需求,将多颗GPU通过高速互联组成集群成为必然路径。

在大模型时代,算力需求的瓶颈正从计算核心转向存储与互联。以LLaMA 70B模型在128K上下文场景为例,一台搭载8张H100的服务器所能支撑的并发数十分有限。何颖强调,下一代算力芯片亟需突破三大方向:极致的互联带宽、超低的通信延迟以及大容量高速内存。当前PCIe带宽已无法满足需求,英伟达NVLink 5.0的带宽已达1.8 TB/s,是PCIe的14倍以上;而通信延迟一旦过高,将直接导致AI响应卡顿,用户体验骤降。

何颖梳理了当前主流芯片厂商与产业联盟的互联方案:

· 英伟达:采用NVLink加NVSwitch的封闭生态。NVLink 5.0单芯片带宽1.8 TB/s,可支撑72颗芯片组成NVL72超节点;最新Rubin架构将带宽翻倍至3.6 TB/s,并进一步扩展至异构集群,将存储、LPU等芯片也融入高速互联网络,形成NVLink Fusion。
· AMD:走全互联(full mesh)路线,不依赖交换芯片,通过GPU间点对点直连实现最低延迟,同时将CPU与GPU纳入同一网络。但该方案连线数量呈指数级增长,难以扩展至超大规模集群。
· 产业联盟:UALink联盟已吸引阿里云、字节、海光等中国企业加入,旨在建立开放互联协议,允许不同成员的芯片通过统一协议互联,但面临挑战英伟达CUDA生态的难题。
· 其他协议:博通倡导SUE协议,华为推出灵衢(UnifiedBus)并实现软硬件全打通,CXL 3.0则基于PCIe 6.0致力于将NVLink、UALink等融合成更大的通用互联。这些技术均面向256卡乃至上万卡的大规模集群场景。

芯动科技:二十年IP积淀,构建“计算+存储+连接”全栈能力


作为一家拥有二十年历史的芯片企业,芯动科技同时扮演两个角色:一是为全球多家晶圆代工厂提供互联IP及其他IP的供应商;二是自研GPU、存储及软硬件解决方案的产品公司。公司已设立武汉、珠海、苏州、西安、大连、成都七大研发中心,在国产工艺节点上与中芯国际等伙伴深度合作,能够提供最先进工艺上的互联解决方案。

据介绍,芯动科技的业务全面覆盖计算、存储、连接三大赛道:

· 计算:自主研发风华系列GPU,涵盖图形渲染与AI推理。
· 存储:提供HBM、GDDR、LPDDR、DDR等显存解决方案,以及Data Buffer、RCD等存储类芯片。
· 连接:开发PCIe桥接芯片与Switch芯片,以及高速Serdes IP。

风华三代GPU:从云渲染到国产工作站的全场景覆盖


截至目前,芯动科技已成功量产三代风华系列GPU:

风华1号:国内首款4K级服务器GPU,面向云渲染场景。单颗GPU可支撑8路云游戏并发(如《原神》),实现多用户共享。

风华2号:极致低功耗桌面级GPU,广泛用于信创领域的政企办公、交通轨道、能源、金融等行业市场。

风华3号:去年推出的全功能GPU,实现了光线追踪与8K重度渲染,填补国产图形工作站GPU空白。单机8卡可提供896GB显存容量,能够容纳DeepSeek 671B满血版大模型本地化部署,同时也可用单卡或双卡支撑30B、72B等模型的本地推理,兼具重负载渲染与AI推理能力。

目前,风华4号、5号正在研制中。

芯动科技的核心竞争力还源于底层高速互联IP的自主研发。其Serdes家族覆盖从112G/56G(采用PAM-4调制)到PCIe 6.0/5.0、HMC、USB、SATA等全系列。112G Serdes已于今年1月成功回片测试,眼图清晰,标志着芯动成为国内首家提供经过验证的112G高速互联解决方案的供应商。

基于112G Serdes,芯动可为客户提供符合UALINK/SUE协议的GPU互联方案,通过两层交换网络实现256颗GPU卡的点对点高速互联,支撑大规模AI训练与推理集群。

在PCIe Switch方面,芯动已量产24 Lane PCIe 3.0 Switch和120 Lane PCIe 5.0 Switch,未来将推出144 Lane PCIe 5.0 Switch以及114 Lane PCIe 6.0 Switch。其Switch方案打破了传统树状结构,通过Switch间直连可将多颗GPU组合成低延迟的大规模网络。

存储前沿:HBF与PIM开启异构计算新范式


何颖重点介绍了两种前沿存储技术:

HBF(High Bandwidth Flash):由三星、海力士和SanDisk联合提出的3D堆叠闪存技术,可提供极高带宽,但存在写入次数有限(约10万次)和读取延迟较高(约20微秒,而HBM延迟约100纳秒)的弱点。为此,芯动通过2.5D封装将HBF、HBM与GPU集成在一起,并配合缓存与预取等软件调度技术来掩藏延迟损失。

PIM(存内计算):将计算单元置于存储近端,利用超高带宽在本地完成Attention等带宽密集型计算,避免数据在GPU与内存间反复搬运。英伟达Rubin架构已采用基于SRAM的PIM;国内则更多探索3D PIM,通过垂直通孔将DRAM与逻辑Die直接集成。芯动科技拥有完整的GPU、封装与接口技术,可提供完整的PIM设计,支持2.5D或2D(UCIe接口)Chiplet封装。经测算,GPU加PIM的异构计算相比纯GPU方案(如Blackwell B200)可带来2.5倍到3.5倍的性能提升。

未来展望


何颖总结道,下一代GPU芯片组的技术趋势将围绕架构设计、算力提升、能效优化、异构集成、光电融合等方面的变革与融合展开。互联规模将持续扩大,光电融合将成为必然方向;同时,GPU、LPU、NPU将整合为异构计算池,内存也将实现池化,这一切都依赖于先进封装与互联技术的发展。

芯动科技将持续以一站式IP核、定制化芯片以及高性能GPU产品为核心,依托从底层IP到上层软硬件的完整供应链与创新体系,为国产AI算力底座提供坚实支撑。公司将继续与产业链上下游伙伴紧密合作,共同推动中国人工智能产业向上游核心技术迈进。
责任编辑:chenguang

相关文章

半导体行业观察
摩尔芯闻

热门评论