Token为王时代,摩尔线程亮出“云边端”全栈野心

2026-05-22 14:21:26 来源: 互联网
点击


今天在AI圈,很多人每天一睁眼,最关心的就是一件事:“我们今天又烧了多少 Token?”是的,我们正在跨入一个崭新的“词元(Token)时代”。Token正在成为AI时代全新的生产单位,而算力需求,则被 Agentic AI(智能体)成倍地放大。
 
年初开源智能体“龙虾(OpenClaw)”的火爆,几乎把所有从业者、每一家科技大厂,都毫无悬念地裹挟进了这场智能体风暴。
 
正如摩尔线程CEO张建中在5月18日的产品发布会上所言,现在的IoT,已经不是简单的Internet of Things(物联网),而是Intelligence of Things(万物智能)。当原本“不思考”的设备开始具备理解和对话的能力,万物智能的下沉速度超乎想象。但,硬币的另一面是残酷的。狂欢背后,是整个智算产业的“算力重压”。
 
面对这场席卷而来的Token海啸,作为智算基石的国产GPU厂商,究竟该扮演什么角色?
 
或许摩尔线程此次“词元时代,万物智能”的年度产品发布会,能够给全行业提供一个观察切口。随着云端万卡级集群、边缘和终端三驾马车以及具身智能仿真平台的重磅发布,摩尔线程的战略图景已然清晰——以全功能GPU为坚实底座,筑牢“云、边、端”三位一体的闭环,全速合围Token时代。
 
边缘和终端突围:三笔账,看懂摩尔线程的端侧“卡位战”
 
过去两年智算中心的火热让GPU公司普遍“逐云而居”。但在这场发布会上,摩尔线程却把很大篇幅留给了边缘和终端,一口气甩出了三件核心武器:MTT AICUBE、MTT AIBOOK与MTT E300,全面覆盖个人、家庭与行业边缘场景。
 
一家国产GPU公司,为什么要去做终端消费产品?如果站在传统GPU公司视角,这似乎是拉长了战线。但如果放到Token时代来看,摩尔线程在端侧的布局,恰恰是看清了不可逆转的三笔“硬账”:
 
第一笔是经济账:高频Token消耗倒逼算力分层
 
张建中透露,仅当前国内某一个大模型应用的日均Token消耗量就已突破120万亿。随着大模型和Agent的崛起,Token消耗还将呈指数级攀升。如果所有智能体任务都依赖云端,高昂的算力、带宽成本将让大模型公司与用户难以承受。因此,必须将个人助理、照片管理、本地代码等高频、轻量、隐私敏感的任务卸载到本地,实现本地与云端的算力分层。
 
第二笔是“体验账”:物理定律下的延时与隐私红线
 
智能家居的控制、具身机器人的反应,要求的是“毫秒级”的实时响应。如果每一次开灯、每一次避障都要把数据打包上传到千里之外的云端智算中心,等待推理后再返回,高延时将直接摧毁用户体验。更重要的是,家庭的摄像头数据、个人的财务报表、企业的核心代码,这些属于绝对隐私的私有资产。只有端侧设备,才能在物理上构建一道数据不出户的安全防火墙。

第三笔是入口账:从后台AI工厂走向前台智能入口
 
如果AI永远停留在云端API中,GPU公司很容易被锁定在后台算力供应商的位置;但当智能体开始进入个人电脑、家庭中枢、边缘设备和机器人终端,端侧就不再只是硬件形态,而是AI应用的入口、数据的入口,也是用户交互的入口。
 
端侧不是摩尔线程云端战略之外的分支,而是其云端算力、MUSA软件生态和智能体能力向真实场景落地的接口。只有当AI能进入客厅、桌面、工厂、学校、车端和机器人终端,云端万卡集群生产出来的智能,才有可能被持续消费、反馈和再训练。
 
所以,摩尔线程做端侧产品,不是在偏离GPU主航道,而是在争夺Token时代的AI入口权。而且凭借全功能GPU的架构优势,做端侧是“降维打击”,逻辑上完全自洽。
 
支撑这一布局的,是摩尔线程自研SoC“长江”。这颗芯片集成50TOPS异构AI算力,结合MTT AIOS、MUSA软件栈以及“小麦”等智能体,正式驱动起边缘和端侧智能的“三驾马车”:
 
 
AICUBE:重新定义家庭中枢的“小立方”
 
发布会上最吸睛的消费级产品,当属面向家庭场景的消费级产品——MTT AICUBE。这个神似Mac Mini的紧凑小立方体,是摩尔线程打造的“家庭AI中枢”。
 
 
它打破了传统设备的边界,创造性地将“全域智能体 + AI PC + AI NAS”三合一,试图把家庭场景中的三类需求重新打包:算力、数据、交互。
 
作为AICUBE的核心交互入口,数字人“小麦”在本次发布会迎来了脱胎换骨的“Agent化”升级。升级后的“小麦”具备情景感知、长上下文检索和多模态情绪识别能力。它内置了60余项技能,支持超36款APP的跨应用控制,提供智慧化的主动服务,让数字人从被动助理变成“越用越懂你”的有温度的专属智能体。其背后依托三大关键技术支撑:运行于AI原生操作系统MTT AIOS,采用独特的二维拓扑记忆系统,搭载自研Agent开源框架MTClaw。
 
此外,AICUBE的全闪存AI NAS模块为家庭提供了高安全性的本地数据智能管理;同时,它具备完整的桌面AI PC能力,可轻松满足高画质娱乐、在线学习及本地大模型运行需求。
 
家庭AI的关键不是“能不能聊天”,而是能不能围绕家庭数据、家庭设备和家庭任务形成持续服务。照片、视频、文档、家庭成员的日程、智能设备控制,都需要一个既具备本地存储能力,又具备本地推理能力的中枢。AICUBE的价值,正是在于把AI从一个孤立应用变成家庭数字生活的操作入口。该产品将于6月18日在京东摩尔线程旗舰店开启预售。
 
AIBOOK算力本:把智能体带进开发者工作流
 
AIBOOK则面向另一类人群:AI开发者、学习者和智能体应用使用者。
 
MTT AIBOOK搭载基于原生Linux的MTT AIOS,并预装“龙虾”智能体 OpenClaw,AIBOOK具备“工具直达”特性,提供90+工具调用接口,降低开发配置成本;并创新支持原生Linux、虚拟化Windows及容器化Android多系统,同时提供LLM/ASR/TTS/OCR等模型支持的“端侧感知”能力,一台设备即可覆盖用户的全场景使用需求。
 
这不是单纯把一台电脑加上AI功能,而是在重构AI PC的定义。传统PC的核心是操作系统和应用软件,如今,AI PC的核心则可能变成“本地智能体 + 开发环境 + 云端模型协同”。AIBOOK如果能够把智能体调试、模型调用、本地部署和多系统兼容打通,它面向的就不只是消费级笔记本市场,而是开发者工作流本身。
 
MTT E300 AI模组:渗透行业毛细血管
 
除消费级产品外,专为嵌入式边缘场景设计的MTT E300 AI模组同样亮相。该模组支持混合精度计算,可在严苛环境中稳定运行,为工业质检、能源巡检、智慧教室、智能汽车及低空经济等典型场景提供高效、低延迟、强可靠的边缘AI能力。
 
从AICUBE、AIBOOK到E300,摩尔线程在边缘和端侧布局的主线很清楚:让AI既能进入家庭,也能进入个人开发环境,还能进入工业、能源、交通、教育、医疗等边缘场景。这也是它打通“云—边—端”闭环的关键一步——边缘和端侧不是附属品,而是AI落地的最后一公里。
 
具身破壁:全栈具身智能仿真平台,重塑国产GPU竞争维度
 
大模型正在走向物理世界,具身智能(机器人、自动驾驶等)已成为科技巨头的必争之地。然而,传统具身智能研发存在着一个巨大痛点:开发、仿真、训练各环节严重割裂,数据在不同系统间迁移繁琐,Sim2Real(虚拟到现实转换)难度高,硬件试错成本高昂。
 
此外,具身智能与普通大模型最大的不同,在于它不只需要“理解”和“生成”,还要完成感知、决策、动作执行,并与真实环境实时交互。机器人、自动驾驶、智能制造、低空经济等场景,都要求AI不只是会说,而是会动、会判断、会在物理约束下行动。
 
这就使具身智能对GPU提出了不同于大模型训练的新要求。在传统AI竞争中,GPU主要被视为训练和推理芯片。但在具身智能中,GPU还需要承担图形渲染、物理仿真、合成数据生成、强化学习训练等任务。
 
这也正是摩尔线程坚持的“全功能GPU”路线的绝对主场。其全功能GPU基于MUSA架构,可以为具身智能提供“渲染 + 仿真 + AI训推”一体化通用算力底座。
 
在这次发布会上,摩尔线程祭出了杀手锏——发布了首个全栈国产化具身智能仿真平台MT Lambda。
 
 
MT Lambda底层基于全功能GPU与MUSA架构,中间层整合物理、渲染、AI 三大引擎,上层提供MT Lambda-Lab具身策略开发与训练平台,以及MT Lambda-Sim高保真物理仿真与渲染平台。
 
这套平台的价值,在于尝试将原本割裂的环节放进同一个算力和同一个软件栈中处理。其物理引擎包括MuJoCo-Warp-musa、Newton-musa和自研 AlphaCore;渲染引擎包括MT Photon、3DGS 和 MTAGR;AI引擎则包括 Torch-MUSA、VLA、RL、IL等能力。
 
当前,具身智能加速从技术验证迈向工程化与产业化,摩尔线程作为国内极为稀缺的打通“大模型训练—仿真模拟—端侧部署”生态闭环的GPU企业,已经构建起全栈自主、端到端的软硬件技术栈,可以为具身智能提供一站式、安全可靠的国产算力方案。
 
在具身智能领域,摩尔线程依托自研的夸娥智算集群、仿真平台及端侧SoC芯片,已经形成云边端协同的产品与能力布局。同时,摩尔线程积极拓展具身生态“朋友圈”,通过与光轮智能在合成数据等关键领域共筑国产具身智能仿真底座,以及与光线云联合打造RaysTwins具身仿真平台等深度合作,共同推动技术成果加速转化落地。
 
摩尔线程正在把GPU从“训练芯片”扩展为“物理AI基础设施”。这对国产GPU的意义很大。过去谈到国产GPU,老生常谈的话题是替代。能不能替代国外训练卡,能不能适配主流框架,能不能跑通大模型。但具身智能提供了一个新的产业窗口:未来机器人和物理AI需要的不只是训练算力,而是“算、渲、仿”一体化能力。谁能提供更完整的底座,谁就可能在下一代AI应用中获得新的系统级位置。
 
云端筑底:夸娥万卡级集群撑起Token时代的AI工厂
 
端侧与边缘的全面开花,离不开云端母体的澎湃动力。
 
在张建中的表述中,Token时代催生出不同类型的“AI 工厂”:有的工厂生产模型,有的工厂提供推理服务,产出Token;还有一些工厂生产Agent,服务智能体应用。无论是哪一种工厂,背后都离不开高性能人工智能基础设施。
 
这也是夸娥(KUAE)万卡级智算集群的战略位置。
 
大模型训练、推理、AI Coding、AIGC、智能体服务等复杂应用,对底层算力集群的规模、稳定性和工程效率有着近乎苛刻的要求。尤其在Agentic AI快速发展的背景下,Token消耗量正在以难以预测的速度增长。张建中提到,仅某一个应用的日均Token消耗量就已突破120万亿,这背后对应的是极其庞大的推理服务需求。
 
作为旗舰级AI训推一体智算卡,摩尔线程MTT S5000支持FP8到FP64全精度计算,单卡AI稠密算力达1000 TFLOPS,配备80GB显存、1.6TB/s显存带宽及约800GB/s的高速卡间互联带宽。
 
但张建中强调指出,当前大模型竞争已经从单卡性能进入系统工程竞争,万卡级集群的难点不只是把GPU堆起来,还包括高速互联、通信优化、并行训练、故障恢复、资源调度、存储优化和推理服务编排。任何一个环节不稳定,都会放大为训练效率和服务可用性的瓶颈。
 
“软件并不是真正的原因,兼容也不是真正的原因,关键是能不能有一个稳定的集群。”张建中表示。这句话点出了国产GPU进入产业主战场的关键:不只是能不能跑,而是能不能7×24小时稳定、高效、可靠地跑。
 
目前,夸娥万卡级智算集群已交出了亮眼的商业化成绩单:集群浮点运算能力达到10 Exa-Flops。在Dense(稠密)大模型训练中的MFU(模型算力利用率)达60%,在MoE(混合专家)大模型上达40%,训练线性扩展效率高达95%,有效训练时间占比超过90%。2026年第一季度,得益于万卡级集群的规模化落地,摩尔线程单季斩获6.6亿元智算集群大额订单,助力Q1营收达到7.38亿元,同比大增155.35%。
 
在推理端,摩尔线程展现了其深厚的生态底蕴与“发布即适配”(Day-0适配)的响应速度。目前,摩尔线程已全面适配DeepSeek、GLM、MiniMax、Kimi、Qwen等国内头部大模型,以及主流的语音、视觉理解及多模态模型。值得一提的是,摩尔线程在推理框架SGLang主线代码中获得了官方原生支持,并开源了vLLM-MUSA,可原生获得摩尔线程GPU加速能力,大幅提升推理效率。
 
这对AI Coding、AIGC和智能体应用尤为重要。AI Coding和AIGC的共同特点,是高频、实时、交互式生成。它们不仅需要训练算力,更需要推理侧的吞吐、时延、KV Cache管理、批处理调度和低时延服务编排。摩尔线程围绕大型推理系统,在推理解耦、KV Cache管理、批处理调度、低时延服务编排等关键能力方向持续推进。
 
在发布会现场,两组场景展示生动地诠释了“算力即服务”的转化率:
 
Vibe Coding(口语编程):基于GLM模型推理服务,用户完全用口语描述需求,即可由多智能体协同生成专属App,无需手写任何一行代码。
 
AIGC微短剧智能生成:呈现了从剧本策划、角色分镜到视频合成的全链路智能生成工作流。
 
可以看出,摩尔线程的万卡级集群不只是服务于“训练大模型”,也在向“生产智能”的AI工厂演进:训练、推理、智能体、AIGC、AI Coding,都可能成为其算力平台的核心负载。
 
生态搭桥:MUSA决定全功能GPU的真正上限
 
把边缘和端侧产品、具身智能仿真平台以及万卡级集群放在一起看,摩尔线程正在从三个方向补齐AI基础设施拼图:
 
第一,在云端,构建万卡级智算集群。这解决大模型训练、推理和复杂AI应用的规模化算力问题。
 
第二,在边缘和端侧,推出AICUBE、AIBOOK、E300。这解决AI如何进入家庭、个人开发环境和行业终端的问题。
 
第三,在仿真与具身智能层,构建MT Lambda,解决机器人、自动驾驶、物理AI从虚拟训练到现实部署的研发效率问题。
 
云端是AI工厂,边缘和端侧是智能入口,具身智能是物理世界的应用出口。云、边、端宏大叙事的背后,真正让这些硬件产品能够共用同一种语言、实现无缝协同的,是贯穿其全线产品的底层基石——MUSA(摩尔线程统一系统架构)。
 
作为贯穿摩尔线程全功能GPU硬件与全栈软件体系的底层架构,MUSA已全面实现对业界主流CUDA生态的深度兼容。
 
对于开发者而言,“迁移成本”曾是国产GPU无法言说之痛。而全新发布的 MUSA SDK 5.1.0(深度对标CUDA 12.8),则是一次大力出奇迹的“破壁”。从驱动与运行时层新增248个API、使兼容接口数达到761个,到核心数学库的100%对齐;从覆盖55类核心AI算子,到完整支持PyTorch全部3194个算子……MUSA软件栈实现了底层驱动、编译器、算子加速库到训推框架的全链路覆盖。这种极致的兼容性,让国产GPU真正具备了“即插即用、无感迁移”的硬实力。
 
 
此外,摩尔线程的软件生态正在从兼容走向“反客为主”,深度融入全球主流开源核心圈:在推理主流生态中,MUSA不仅正式成为全球主流推理框架vLLM的官方后端,更成功合入SGLang官方主线并获得“原生支持”,这意味着全球开发者无需任何额外配置,就能在主线代码中直接调用摩尔线程GPU的加速红利。
 
在底层编译与热点算子侧,TileLang-MUSA成功合入开源主线,升级支持Triton 3.6最新版本。诸如FlashAttention3等业内顶尖热点算子,在MUSA上的运行效率已达到了近乎极致的95%。
 
从服务前沿大模型持续训练的稳定性,到科学计算领域的顶流软件VASP加速,MUSA都交出了一份无可挑剔的成熟答卷。
 
更具前瞻性的是,摩尔线程正在将AI引入软件生态自身的建设中。
 
张建中在发布会上提出一个有意思的判断:有了Agent,可以让MUSA做得更好;而AI又可以帮助人类创造更多AI。换句话说,Agentic AI不只是摩尔线程产品所服务的对象,也正在成为摩尔线程建设软件生态的工具。
 
依托Automusify智能迁移工具,MUSA实现了对Top 100人工智能与Top 100科学计算加速仓库的自动化迁移。全新升级的MUSACODE AI编程助手,则通过大模型智能体协同,已经开发并交付超过10,000个Kernel算子,并基于TileLang自动调优Group GEMM算子,实现60%的性能提升。
 
过去,软件生态依赖工程师手工迁移、适配和优化;而在Agentic AI时代,智能体本身也可以成为生态建设者,帮助国产GPU更快补齐算子、工具链和开发者体验。
 
借由这具强大的MUSA统一系统架构灵魂,摩尔线程的“云边端”铁三角,才真正拥有了合围Token时代的终极底气。
 
结语
 
回看这场发布会,摩尔线程祭出的不仅是一系列硬核的软硬件产品,而是一套谋划已久的战略闭环:从支撑DeepSeek、Kimi等头部大模型高频吞吐的云端智算,到打破数字与现实壁垒的具身智能仿真,再到下沉至千家万户、开发者桌面和行业毛细血管的边缘和端侧智能,无不在证明摩尔线程全功能GPU路线的远见。
 
这是一场属于中国智算力量的卡位战。在这场重塑未来的Token经济大潮中,手握“云边端”全景蓝图的摩尔线程,不仅抢占了产业的最强风眼,更为中国实体经济与AI的深度融合,筑起了一道自主可控的坚实底座。
责任编辑:SemiInsights

相关文章

半导体行业观察
摩尔芯闻

热门评论