首页 > 半导体 > 正文

从互联IP到GPU集群：芯动科技解码下一代算力底座的挑战与机遇

2026-05-29 20:43:00 来源: 互联网

点击

5月28日，在未来半导体生态大会上，芯动科技GPU事业部总经理何颖带来《下一代GPU芯片组的趋势、挑战与产业链机遇》的主题演讲，系统阐述了智能体爆发背景下GPU互联与显存解决方案的技术演进路径，并全面展示了芯动科技作为国内高性能IP与GPU领域领军企业的全栈能力与产业布局。

芯动科技GPU事业部总经理何颖

智能体时代：算力、互联与存储的三重瓶颈

何颖指出，自2023年ChatGPT问世以来，大语言模型已发展至新阶段。2026年，以“小龙虾”为代表的智能体以及AI编程等深度应用场景不断涌现，对底层算力提出了更高要求。用户在使用手机端AI应用时频繁遭遇“算力不够”的提示，折射出当前算力供不应求的严峻现实——token产生速度远落后于需求。单一芯片已无法满足大模型训推需求，将多颗GPU通过高速互联组成集群成为必然路径。

在大模型时代，算力需求的瓶颈正从计算核心转向存储与互联。以LLaMA 70B模型在128K上下文场景为例，一台搭载8张H100的服务器所能支撑的并发数十分有限。何颖强调，下一代算力芯片亟需突破三大方向：极致的互联带宽、超低的通信延迟以及大容量高速内存。当前PCIe带宽已无法满足需求，英伟达NVLink 5.0的带宽已达1.8 TB/s，是PCIe的14倍以上；而通信延迟一旦过高，将直接导致AI响应卡顿，用户体验骤降。

何颖梳理了当前主流芯片厂商与产业联盟的互联方案：

· 英伟达：采用NVLink加NVSwitch的封闭生态。NVLink 5.0单芯片带宽1.8 TB/s，可支撑72颗芯片组成NVL72超节点；最新Rubin架构将带宽翻倍至3.6 TB/s，并进一步扩展至异构集群，将存储、LPU等芯片也融入高速互联网络，形成NVLink Fusion。
· AMD：走全互联（full mesh）路线，不依赖交换芯片，通过GPU间点对点直连实现最低延迟，同时将CPU与GPU纳入同一网络。但该方案连线数量呈指数级增长，难以扩展至超大规模集群。
· 产业联盟：UALink联盟已吸引阿里云、字节、海光等中国企业加入，旨在建立开放互联协议，允许不同成员的芯片通过统一协议互联，但面临挑战英伟达CUDA生态的难题。
· 其他协议：博通倡导SUE协议，华为推出灵衢（UnifiedBus）并实现软硬件全打通，CXL 3.0则基于PCIe 6.0致力于将NVLink、UALink等融合成更大的通用互联。这些技术均面向256卡乃至上万卡的大规模集群场景。

芯动科技：二十年IP积淀，构建“计算+存储+连接”全栈能力

作为一家拥有二十年历史的芯片企业，芯动科技同时扮演两个角色：一是为全球多家晶圆代工厂提供互联IP及其他IP的供应商；二是自研GPU、存储及软硬件解决方案的产品公司。公司已设立武汉、珠海、苏州、西安、大连、成都七大研发中心，在国产工艺节点上与中芯国际等伙伴深度合作，能够提供最先进工艺上的互联解决方案。

据介绍，芯动科技的业务全面覆盖计算、存储、连接三大赛道：

· 计算：自主研发风华系列GPU，涵盖图形渲染与AI推理。
· 存储：提供HBM、GDDR、LPDDR、DDR等显存解决方案，以及Data Buffer、RCD等存储类芯片。
· 连接：开发PCIe桥接芯片与Switch芯片，以及高速Serdes IP。

风华三代GPU：从云渲染到国产工作站的全场景覆盖

截至目前，芯动科技已成功量产三代风华系列GPU：

风华1号：国内首款4K级服务器GPU，面向云渲染场景。单颗GPU可支撑8路云游戏并发（如《原神》），实现多用户共享。

风华2号：极致低功耗桌面级GPU，广泛用于信创领域的政企办公、交通轨道、能源、金融等行业市场。

风华3号：去年推出的全功能GPU，实现了光线追踪与8K重度渲染，填补国产图形工作站GPU空白。单机8卡可提供896GB显存容量，能够容纳DeepSeek 671B满血版大模型本地化部署，同时也可用单卡或双卡支撑30B、72B等模型的本地推理，兼具重负载渲染与AI推理能力。

目前，风华4号、5号正在研制中。

芯动科技的核心竞争力还源于底层高速互联IP的自主研发。其Serdes家族覆盖从112G/56G（采用PAM-4调制）到PCIe 6.0/5.0、HMC、USB、SATA等全系列。112G Serdes已于今年1月成功回片测试，眼图清晰，标志着芯动成为国内首家提供经过验证的112G高速互联解决方案的供应商。

基于112G Serdes，芯动可为客户提供符合UALINK/SUE协议的GPU互联方案，通过两层交换网络实现256颗GPU卡的点对点高速互联，支撑大规模AI训练与推理集群。

在PCIe Switch方面，芯动已量产24 Lane PCIe 3.0 Switch和120 Lane PCIe 5.0 Switch，未来将推出144 Lane PCIe 5.0 Switch以及114 Lane PCIe 6.0 Switch。其Switch方案打破了传统树状结构，通过Switch间直连可将多颗GPU组合成低延迟的大规模网络。

存储前沿：HBF与PIM开启异构计算新范式

何颖重点介绍了两种前沿存储技术：

HBF（High Bandwidth Flash）：由三星、海力士和SanDisk联合提出的3D堆叠闪存技术，可提供极高带宽，但存在写入次数有限（约10万次）和读取延迟较高（约20微秒，而HBM延迟约100纳秒）的弱点。为此，芯动通过2.5D封装将HBF、HBM与GPU集成在一起，并配合缓存与预取等软件调度技术来掩藏延迟损失。

PIM（存内计算）：将计算单元置于存储近端，利用超高带宽在本地完成Attention等带宽密集型计算，避免数据在GPU与内存间反复搬运。英伟达Rubin架构已采用基于SRAM的PIM；国内则更多探索3D PIM，通过垂直通孔将DRAM与逻辑Die直接集成。芯动科技拥有完整的GPU、封装与接口技术，可提供完整的PIM设计，支持2.5D或2D（UCIe接口）Chiplet封装。经测算，GPU加PIM的异构计算相比纯GPU方案（如Blackwell B200）可带来2.5倍到3.5倍的性能提升。

未来展望

何颖总结道，下一代GPU芯片组的技术趋势将围绕架构设计、算力提升、能效优化、异构集成、光电融合等方面的变革与融合展开。互联规模将持续扩大，光电融合将成为必然方向；同时，GPU、LPU、NPU将整合为异构计算池，内存也将实现池化，这一切都依赖于先进封装与互联技术的发展。

芯动科技将持续以一站式IP核、定制化芯片以及高性能GPU产品为核心，依托从底层IP到上层软硬件的完整供应链与创新体系，为国产AI算力底座提供坚实支撑。公司将继续与产业链上下游伙伴紧密合作，共同推动中国人工智能产业向上游核心技术迈进。

责任编辑：chenguang

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

从互联IP到GPU集群：芯动科技解码下一代算力底座的挑战与机遇

智能体时代：算力、互联与存储的三重瓶颈

芯动科技：二十年IP积淀，构建“计算+存储+连接”全栈能力

风华三代GPU：从云渲染到国产工作站的全场景覆盖

存储前沿：HBF与PIM开启异构计算新范式

未来展望

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

从互联IP到GPU集群：芯动科技解码下一代算力底座的挑战与机遇

智能体时代：算力、互联与存储的三重瓶颈

芯动科技：二十年IP积淀，构建“计算+存储+连接”全栈能力

风华三代GPU：从云渲染到国产工作站的全场景覆盖

存储前沿：HBF与PIM开启异构计算新范式

未来展望

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月