带宽战争前夜,“中国版Groq”浮出水面
2026-01-15
11:24:56
来源: 李晨光
点击
在AI算力赛道,英伟达凭借Hopper、Blackwell、Rubin等架构GPU,早已在AI训练领域建立起了难以撼动的技术壁垒与行业地位。但随着即时AI场景需求爆发,传统GPU在面对低批处理、高频交互推理任务中的延迟短板愈发凸显。
为破解这一痛点,英伟达重磅出击,斥资200亿美元收购Groq核心技术,抢跑AI推理市场。
这一金额不仅创下英伟达历史最大手笔交易、刷新了推理芯片领域的估值纪录,更鲜明地昭示着英伟达从“算力霸主”向“推理之王”转型的意志。
紧随这一动作,据技术博主AGF消息进一步披露,英伟达计划在2028年推出新一代Feynman架构GPU——采用台积电A16先进制程与SoIC 3D堆叠技术,核心目的正是为了在GPU内部深度集成Groq那套专为推理加速而生的LPU(语言处理单元),相当于给GPU加装了一个专门处理语言类推理任务的专属引擎,直指AI推理性能中长期存在的“带宽墙”与“延迟瓶颈”。


这些动作表明:AI行业的竞争正从单纯的算力比拼,转向对单位面积带宽的极致追求——这与英伟达此前“大模型推理90%的延迟源于数据搬运,导致算力利用率常低于30%”的结论不谋而合。
无独有偶,AMD通过3D V-Cache持续验证存储靠近计算的效能逻辑;d-Matrix、SambaNova等明星AI推理芯片公司,更是聚焦流式执行与片上带宽构建核心竞争力,用实际行动印证这一行业共识。
带宽战争打响,谁是“中国版Groq”?
回看中国市场,AI浪潮推动下,国产大模型多点突破、强势崛起,本土AI芯片企业集体爆发并密集冲击IPO,资本热度居高不下。
然而,当英伟达选择通过Feynman架构来补齐推理短板时,就意味着谁能率先解决“带宽墙”问题,谁就握住了下一轮周期的入场券。
在这一背景下,国内赛道涌现出前瞻性布局者。
近日,半导体行业观察注意到,一家源于北京大学物理学院的AI芯片公司——寒序科技(ICY Technology),宣布完成数千万元人民币新一轮融资。这家企业以“超高带宽推理芯片”为核心产品,被业内视为中国大陆少有的在技术路线层面正面对标Groq的前沿技术团队。
“中国版Groq”的名号,初见端倪。
实际上,寒序科技的技术披露并非偶然,而是源于在内部保密原则下的长期的低调深耕。
早在2024年9月与2025年11月,寒序科技就已联合北京大学物理学院、计算机学院、集成电路学院,以及澳门大学模拟与混合信号集成电路全国重点实验室,先后承担、主持两项北京市科技计划项目。他们前瞻性地锁定0.1TB/mm²/s超大带宽流式推理芯片研发,在省部级重大研发任务中,在北京市科学技术委员会的指导下,在任务书中全面对标Groq的技术路线与带宽指标。
这意味着,当Groq因LPU爆红被视为“推理新范式”时,中国科研与产业团队已在国内同步推进一条差异化的实现路径。
据了解,寒序科技采用“双线布局”构建核心竞争力:一方面,已发布SpinPU-M系列磁概率计算芯片,推出1024比特全连接伊辛退火求解硬件,覆盖组合优化与量子启发式计算市场;另一方面,本轮融资的核心看点——SpinPU-E磁逻辑计算芯片系列,直指大模型推理解码(Decode)阶段加速,以片上MRAM(磁性随机存储器)为核心介质,构建超高带宽磁性流式处理架构。


能看到,寒序科技并未跟随主流GPU的片外DRAM/HBM或Groq的存算一体SRAM方案,而是选择了片上MRAM这条更底层、更物理本征、更具长期想象力的技术路线。
众所周知,当前主流的AI计算范式面临多重困境:采用HBM的GPU方案,带宽受限于昂贵的2.5D/3D先进封装,核心存储器件HBM产能被海外巨头垄断且面临出口管制;采用SRAM的Groq方案,则因SRAM单元面积大、成本高,单芯片存储容量有限,难以规模部署千亿参数大模型。
面对这些行业普遍的困局,寒序科技源自北大物理学院,从凝聚态物理的角度,从第一性原理进行思考,利用本征功耗更低、速度更快的“电子自旋翻转”,代替“电子电荷运动”来进行存储与计算。
而这种底层逻辑的革新,正是源于MRAM技术带来的核心优势。它兼具SRAM的高速、DRAM的高密度与闪存的非易失性等优势,其直立结构的磁性隧道结,通过垂直微型化和CMOS工艺兼容性,能够大幅降低对复杂封装的依赖,在成本、功耗和可靠性上具有显著优势。

与SRAM方案相比,MRAM技术的差异化优势十分突出:
存储密度领先:主流AI推理架构深度依赖片上SRAM以换取高速,但SRAM正面临严峻的微缩困境。传统SRAM每个存储单元由6个晶体管(6T)组成,存储密度低,存储容量小,存储典型的DeepSeek-R1-671B大语言模型可能需要数千片Groq LPU芯片,且5nm以下节点尺寸几乎停止缩减;而MRAM天然采用1T1M(1个晶体管+1个磁隧道结)结构,单个MTJ可以执行SRAM 6个晶体管的存储功能,同等芯片面积和工艺节点下,存储密度是SRAM的5-6倍。
工艺成本更低:MRAM的物理结构优势,使其在国产工艺制程即便落后一代的情况下,性能指标也能对标甚至超越采用先进制程的SRAM方案。这意味着MRAM无需追逐极先进制程,大幅降低流片与量产成本(单片成本可降至原来的十分之一以下),同时保障了供应链自主可控。
非易失性与高能效:MRAM断电后数据不丢失,无需像SRAM/DRAM那样持续刷新,待机功耗接近零,具备快速启动、低待机功耗、高耐用性等优势;同时避免了SRAM的漏电流损耗,为边缘端和云端的大规模部署提供极佳能效优势,大幅降低运行成本。
工艺成本更低:MRAM的物理结构优势,使其在国产工艺制程即便落后一代的情况下,性能指标也能对标甚至超越采用先进制程的SRAM方案。这意味着MRAM无需追逐极先进制程,大幅降低流片与量产成本(单片成本可降至原来的十分之一以下),同时保障了供应链自主可控。
非易失性与高能效:MRAM断电后数据不丢失,无需像SRAM/DRAM那样持续刷新,待机功耗接近零,具备快速启动、低待机功耗、高耐用性等优势;同时避免了SRAM的漏电流损耗,为边缘端和云端的大规模部署提供极佳能效优势,大幅降低运行成本。
通过自研的磁性存算一体流式架构,寒序科技将MRAM的器件优势转化为芯片级系统性能。据悉,SpinPU-E芯片架构的目标是将访存带宽密度提升至0.1-0.3TB/mm²·s,不仅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是英伟达H100(0.002-0.003 TB/mm²·s)的数十倍。


据了解,英伟达GPU的架构最初面向大规模训练与图形渲染场景设计,强调峰值算力与吞吐能力,并通过多级缓存、动态调度和共享存储来适配高度并行但相对粗粒度的工作负载。在大模型推理的Decode阶段,GPU性能瓶颈主要来自对外部存储(HBM)和复杂内存层级的高度依赖。该计算过程呈现出强序列性、小批量和带宽主导等特征,与GPU设计初衷明显错配。在实际执行中,GPU仍需要通过多级缓存和共享存储来访问,数据到达计算单元的时间并不固定,不同计算单元之间也需要反复等待和协调。这使得访存延迟和执行顺序经常波动,矩阵加乘单元很难按照固定节拍持续运行,算力难以稳定发挥。
而寒序科技采用确定性的“磁性流式处理(MSA)架构”,将大规模MRAM Banks紧邻矩阵加乘单元部署,并围绕推理数据流构建多级流水执行路径,使权重和中间激活在局部高带宽范围内按固定顺序流动。通过在硬件层面同时约束存储位置、访存带宽、通信路径与执行节拍,该架构在Decode阶段显著降低了延迟抖动与外部存储访问依赖,实现更高的带宽与更快、更稳定的推理性能。
值得关注的是,MSA架构并非简单的存内计算概念,而是围绕推理场景,对数据流组织、存储-计算耦合方式以及执行节拍进行重新设计,在保证超高带宽的同时,显著降低对先进制程与复杂封装的依赖。
有业内人士指出,这一路线与NVIDIA在Feynman架构中所释放的信号高度一致:未来推理性能的竞争核心,不再是算力规模,而是单位面积带宽与执行范式。
走出北大实验室的秘密武器——“天时地利人和”
SpinPU-E展现出的性能优势,并非偶然的技术选择,而是核心团队跨学科积淀、全链条技术把控与前瞻性路线布局的成果。
据报道,寒序科技是国内首个有能力跑通从物理、材料、器件到异质集成、芯片设计、算法的交叉团队,核心成员源自北京大学物理学院应用磁学中心——国内磁学研究的顶尖高地,拥有近70年的磁学积淀,核心成员横跨凝聚态物理、电子科学、计算机技术、人工智能等多领域:首席执行官朱欣岳兼具凝聚态物理、人工智能算法与集成电路的交叉背景,曾主导多模态AI算法开发、多颗高性能专用芯片研发,带领团队完成四轮市场化财务融资与产品化;首席科学家罗昭初作为MIT TR35入选者,曾于清华大学、苏黎世联邦理工学院完成自旋电子学、磁性计算的科研工作,深耕微纳磁电子学与磁存储/计算,拥有深厚的学术积累与Nature、Science正刊成果,团队历经多次流片验证,既保有前沿技术探索的锐气,又具备工程化落地的能力。
相比纯粹的架构创新,寒序科技这种“材料-器件-芯片-系统-算法”的全链条视野和全栈攻关能力,让MRAM技术得以从底层原理到上层系统实现协同优化与突破,而非仅停留在逻辑和架构层面的修补。
这也是寒序科技被视为精准踩中2030年行业时间轴的前瞻性下注的核心原因。这种对行业趋势的精准踩点,不仅体现在技术路线的选择上,或许也蕴含在对商业化路径的思考中。
回溯Groq的成长轨迹来看,其业务从核心的GroqChip LPU推理芯片起步,逐步延伸至加速卡、服务器系统、数据中心集群,最终构建了云服务平台,形成了“芯片-硬件-系统-云服务”的全栈布局。
沿着Groq被验证的商业逻辑向前推演,寒序科技大概也会沿着相似的路径开展自己的业务版图——以SpinPU-E磁逻辑芯片为起点,向上构建硬件产品矩阵,最终通过云服务触达更广泛市场的全栈路径,以构建更强的技术壁垒和产业竞争力。
更关键的是,这条路径并非简单的模式复刻,而是基于本土产业现状的创新破局——当行业苦于HBM成本高企、SRAM微缩放缓之时,寒序科技没有陷入“算力堆砌”的内卷,而是利用MRAM磁性计算新范式,在中国本土成熟供应链基础上,筑起了一座对标全球顶尖推理性能的带宽高地。
这种从底层物理原理出发的差异化竞争策略,或许正是其作为“中国版Groq”浮出水面的核心底气。
MRAM开启新型存储“黄金时代”
· 破局“带宽封锁”
寒序科技对MRAM技术的探索并非孤例,背后是一场从“备选”走向“必选”的新型存储技术浪潮。尤其是在全球半导体产业的演进与地缘政治激荡背景下,为MRAM在内的新型存储铺就了一条通往AI算力核心舞台的“黄金赛道”。
寒序科技对MRAM技术的探索并非孤例,背后是一场从“备选”走向“必选”的新型存储技术浪潮。尤其是在全球半导体产业的演进与地缘政治激荡背景下,为MRAM在内的新型存储铺就了一条通往AI算力核心舞台的“黄金赛道”。
2024年12月,美国商务部工业与安全局(BIS)发布新出口管制规则,明确限制向中国出口内存带宽密度超过2GB/s/mm²的尖端存储器。
这一封锁点,直指AI推理芯片的命门——带宽。
目前,英伟达、AMD等巨头极度依赖HBM,而HBM产能几乎被SK海力士、三星、美光等海外存储原厂垄断,且受限于复杂的2.5D/3D先进封装。同时,Groq所代表的SRAM路线价格极高(Groq 230MB片上SRAM内存的单卡售价2万美金),在先进制程微缩上也已近极限。
在此背景下,MRAM路线的战略价值陡增。它不仅在物理特性上具备跨代超越SRAM的潜力,更重要的是,它能基于国产28nm/22nm等成熟制程实现超高带宽,彻底规避对尖端工艺和海外HBM供应链的依赖。这不仅是技术路线的“备选”,更是中国半导体产业在算力领域破除卡脖子困境、实现差异化突围的“必选”。
有业内专家表示,这一战略意义迫切需要国家有关部门给予更高重视与政策倾斜。MRAM不仅是单一存储技术的革新,更能带动磁性材料、磁电子器件、存算一体架构等全产业链突破,有望彻底改变国内在HBM领域的落后局面和SRAM对先进制程的依赖,为AI算力产业打造自主可控的“第二曲线”。
· 全球共振,商业化拐点已至?
当前,产业界正在用实际行动表明,MRAM不再只是实验室里的美好构想,而是凭借独特优势正成为全球半导体产业布局的重点。
当前,产业界正在用实际行动表明,MRAM不再只是实验室里的美好构想,而是凭借独特优势正成为全球半导体产业布局的重点。
其中,晶圆代工龙头与芯片大厂均在积极布局:台积电、三星、英特尔、SK海力士、IMEC等凭借其先进的技术研发和大规模生产制造能力,已明确将嵌入式MRAM推进到22nm、16nm甚至更先进节点,持续提升MRAM的性能和集成度。
恩智浦与台积电合作推出16nm FinFET车规级eMRAM,应用于其S32系列高端MCU,实现写入速度比传统闪存快10-15倍、耐久性超百万次;瑞萨电子也推出了基于22nm工艺的STT-MRAM技术,瞄准汽车MCU市场;
GlobalFoundries、Everspin在12nm和22nm工艺上紧密合作,将MRAM纳入工业级和车规级量产方案;Avalanche与联电携手合作推出22nm STT-MRAM,在工业级和航天级市场拥有深厚积淀。
GlobalFoundries、Everspin在12nm和22nm工艺上紧密合作,将MRAM纳入工业级和车规级量产方案;Avalanche与联电携手合作推出22nm STT-MRAM,在工业级和航天级市场拥有深厚积淀。
据LexisNexis数据统计,2004-2013年间,MRAM市场的专利申请量保持稳定,每年约有300至400项专利申请。需要注意的是,图表末尾的下降并不代表兴趣的下降,而是专利申请和公开之间的时间存在滞后。


这些头部厂商的集体行动,清晰印证着MRAM正从“备选技术”升级为“主流方案”,在汽车电子、边缘AI、高端计算等领域的商业化落地进入爆发前夜。
回看国内市场,本土半导体厂商同样敏锐捕捉到了新型存储技术的发展机遇,积极布局相关领域。
RRAM领域涌现出昕原半导体、铭芯启睿、燕芯微等玩家;MRAM赛道,寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等纷纷崭露头角,为国内MRAM的发展奠定了产业基础。相对于RRAM基于电子电荷迁移,是一种统计物理范畴下的阻变器件;MRAM的存取机理是基于自旋的确定性两态翻转,更加可控、精准,大规模制造下器件一致性、器件寿命极限都更有优势与潜力。两者均被台积电等半导体巨头作为下一代面向AI的存储技术重点押注。
具体来看,本土MRAM厂商各有侧重,多数主要集中于存储、加密、嵌入式控制等传统领域,例如:致真存储专注于磁性隧道结(MTJ)的核心器件研发与制造工艺,掌握从材料研发到器件制造的全链路技术,拥有国内唯一的8英寸磁存储芯片专用后道微纳加工工艺中试线。近期与北京航空航天大学联合攻关,研制出全球首颗8Mb容量自旋轨道力矩磁随机存储器芯片(SOT-MRAM),实现SOT-MRAM容量规模化突破。
驰拓科技专注于MRAM存储芯片的技术研发与生产制造,建有12英寸MRAM量产中试线,是国内首家实现MRAM量产的企业。近期成功突破垂直磁化体系技术瓶颈,存储器件TMR关键指标比肩国际头部代工厂量产的STT-MRAM。
凌存科技专注于存储模块开发,致力于将MRAM技术从核心器件层面推向终端应用,成功开发了世界首款高速、高密度、低功耗的存储器MeRAM原型机及基于MeRAM的真随机数发生器芯片,产品广泛应用于车载电子、高性能运算、安全等领域。
寒序科技则独辟蹊径,与多数国内MRAM企业不同,其以MRAM为核心介质构建计算芯片,将MRAM的物理优势转化为算力与带宽优势,开辟了“磁性计算”这一全新赛道,致力于从计算层面引领国内MRAM技术从利基低毛利领域向高端市场跨越,成为国内MRAM技术从存储替代向计算革新跨越的关键力量,举起大旗与国内磁学领域全面拥抱合作,力争一同抢占全球“磁计算”的战略高地。
综合来看,从器件、设备、制造到系统应用,国内产业链的前期布局已具备支撑本土MRAM技术产业化与生态发展的基础。尤其是寒序科技的差异化定位,进一步填补了国内MRAM从存储到计算的关键空白,为后续诞生更多行业厂商提供了土壤和必然性。
· 生态共建:国产MRAM的“磁计算”革命
根据市场研究机构Precedence Research数据显示,2024年全球MRAM市场规模估计为42.2亿美元,预计从2025年的57.6亿美元增长到2034年的约847.7亿美元,复合年增长率高达34.99%。
根据市场研究机构Precedence Research数据显示,2024年全球MRAM市场规模估计为42.2亿美元,预计从2025年的57.6亿美元增长到2034年的约847.7亿美元,复合年增长率高达34.99%。
虽然前景广阔,但MRAM的大规模爆发和商业化落地仍需产业合力,需要产业链上下游凝聚共识,共同构建生态。结合国际经验和国内产业的发展现状来看,更深度的产业合作与资源倾斜或许是推动MRAM技术发展的有力举措。
例如,国家有关部门可以给予MRAM技术更多重视,加大资金与政策支持,积极推动MRAM这一有希望在带宽领域实现“变道超车”的关键技术。
同时,借鉴台积电、三星、GlobalFoundries等头部厂商对MRAM的关注与投入力度,国内代工厂或许也应加强对MRAM的工艺研发与资源投入,积极与国内厂商共同开展技术研发与工艺优化,争取尽早打通“设计-制造-封测”的本土化链路,形成协同创新的合力,降低MRAM芯片的流片成本与量产门槛。
还有一点不可忽视。英伟达收购 Groq核心技术,计划在Feynman架构中整合LPU单元的案例,充分证明了“通用算力+专用引擎”的协同优势和行业趋势。
这一案例极具启示价值。笔者认为,在未来提升AI推理效率的行业共识下,国内AI芯片厂商应抓住这一变革机遇,加强与在新型介质与架构上具备底层创新能力的团队的合作力度,打造兼具通用算力与专用推理性能的新技术路径,快速补强技术短板,构建差异化竞争力。
产业界正释放清晰信号:以MRAM为代表的新型存储,已成为后摩尔时代的核心焦点。地缘政治的战略诉求、国际大厂的技术押注、国内产业链的长期积淀,再加上寒序科技的差异化突破,多重力量共振之下,MRAM正逐渐迈入产业化的“黄金时代”,有望成为中国AI芯片产业实现换道超车的关键抓手。
五年后,谁将主导下一代推理芯片?
当摩尔线程、沐曦、天数、壁仞等国产AI芯片公司接连叩响资本市场的大门,一个时代的答卷已然清晰。它们的密集上市,标志着中国在基于传统GPU架构的算力竞赛中,完成了从无到有的突围,进入了国产替代的收获期。
如果说上一代AI芯片的竞争是“算力竞赛”,那么下一代的分水岭将是“谁能率先跨过带宽墙”。
在这个关键转折点上,两条路径清晰呈现:一条是Groq选择的极致SRAM片上集成路径,用极高成本将带宽推向极限,并因此获得了行业霸主英伟达以数百亿美元估值的战略整合;另一条,则是以MRAM为代表的新型存储介质路线,为突破带宽瓶颈提供了一种更具根本性,也更符合长期成本与供应链安全需求的方案。
数年后,当AI推理进入“带宽决胜”的新时代,芯片市场或许不再仅有算力的巨兽,主导市场的佼佼者还将属于那些能够率先在“带宽战争”中沉淀出护城河的先行者。
正如Groq在硅谷用SRAM惊艳了世界,行业演进的逻辑暗示:“中国版Groq”的出现也将不再是悬念。
在这个征程中,中国半导体产业各方也都在积极拥抱AI,拓展产品品类,谋划新的增长曲线。而寒序科技正依托MRAM磁性计算的新范式,给出“中国版”的实现路径——并且,这条路,他们早在多年前,就已开始默默铺设。
责任编辑:Ace
相关文章
-
- 半导体行业观察
-
- 摩尔芯闻