首页 > 半导体 > 正文

Token为王时代，摩尔线程亮出“云边端”全栈野心

2026-05-22 14:21:26 来源: 互联网

点击

今天在AI圈，很多人每天一睁眼，最关心的就是一件事：“我们今天又烧了多少 Token？”是的，我们正在跨入一个崭新的“词元（Token）时代”。Token正在成为AI时代全新的生产单位，而算力需求，则被 Agentic AI（智能体）成倍地放大。

年初开源智能体“龙虾（OpenClaw）”的火爆，几乎把所有从业者、每一家科技大厂，都毫无悬念地裹挟进了这场智能体风暴。

正如摩尔线程CEO张建中在5月18日的产品发布会上所言，现在的IoT，已经不是简单的Internet of Things（物联网），而是Intelligence of Things（万物智能）。当原本“不思考”的设备开始具备理解和对话的能力，万物智能的下沉速度超乎想象。但，硬币的另一面是残酷的。狂欢背后，是整个智算产业的“算力重压”。

面对这场席卷而来的Token海啸，作为智算基石的国产GPU厂商，究竟该扮演什么角色？

或许摩尔线程此次“词元时代，万物智能”的年度产品发布会，能够给全行业提供一个观察切口。随着云端万卡级集群、边缘和终端三驾马车以及具身智能仿真平台的重磅发布，摩尔线程的战略图景已然清晰——以全功能GPU为坚实底座，筑牢“云、边、端”三位一体的闭环，全速合围Token时代。

边缘和终端突围：三笔账，看懂摩尔线程的端侧“卡位战”

过去两年智算中心的火热让GPU公司普遍“逐云而居”。但在这场发布会上，摩尔线程却把很大篇幅留给了边缘和终端，一口气甩出了三件核心武器：MTT AICUBE、MTT AIBOOK与MTT E300，全面覆盖个人、家庭与行业边缘场景。

一家国产GPU公司，为什么要去做终端消费产品？如果站在传统GPU公司视角，这似乎是拉长了战线。但如果放到Token时代来看，摩尔线程在端侧的布局，恰恰是看清了不可逆转的三笔“硬账”：

第一笔是经济账：高频Token消耗倒逼算力分层

张建中透露，仅当前国内某一个大模型应用的日均Token消耗量就已突破120万亿。随着大模型和Agent的崛起，Token消耗还将呈指数级攀升。如果所有智能体任务都依赖云端，高昂的算力、带宽成本将让大模型公司与用户难以承受。因此，必须将个人助理、照片管理、本地代码等高频、轻量、隐私敏感的任务卸载到本地，实现本地与云端的算力分层。

第二笔是“体验账”：物理定律下的延时与隐私红线

智能家居的控制、具身机器人的反应，要求的是“毫秒级”的实时响应。如果每一次开灯、每一次避障都要把数据打包上传到千里之外的云端智算中心，等待推理后再返回，高延时将直接摧毁用户体验。更重要的是，家庭的摄像头数据、个人的财务报表、企业的核心代码，这些属于绝对隐私的私有资产。只有端侧设备，才能在物理上构建一道数据不出户的安全防火墙。

第三笔是入口账：从后台AI工厂走向前台智能入口

如果AI永远停留在云端API中，GPU公司很容易被锁定在后台算力供应商的位置；但当智能体开始进入个人电脑、家庭中枢、边缘设备和机器人终端，端侧就不再只是硬件形态，而是AI应用的入口、数据的入口，也是用户交互的入口。

端侧不是摩尔线程云端战略之外的分支，而是其云端算力、MUSA软件生态和智能体能力向真实场景落地的接口。只有当AI能进入客厅、桌面、工厂、学校、车端和机器人终端，云端万卡集群生产出来的智能，才有可能被持续消费、反馈和再训练。

所以，摩尔线程做端侧产品，不是在偏离GPU主航道，而是在争夺Token时代的AI入口权。而且凭借全功能GPU的架构优势，做端侧是“降维打击”，逻辑上完全自洽。

支撑这一布局的，是摩尔线程自研SoC“长江”。这颗芯片集成50TOPS异构AI算力，结合MTT AIOS、MUSA软件栈以及“小麦”等智能体，正式驱动起边缘和端侧智能的“三驾马车”：

AICUBE：重新定义家庭中枢的“小立方”

发布会上最吸睛的消费级产品，当属面向家庭场景的消费级产品——MTT AICUBE。这个神似Mac Mini的紧凑小立方体，是摩尔线程打造的“家庭AI中枢”。

它打破了传统设备的边界，创造性地将“全域智能体 + AI PC + AI NAS”三合一，试图把家庭场景中的三类需求重新打包：算力、数据、交互。

作为AICUBE的核心交互入口，数字人“小麦”在本次发布会迎来了脱胎换骨的“Agent化”升级。升级后的“小麦”具备情景感知、长上下文检索和多模态情绪识别能力。它内置了60余项技能，支持超36款APP的跨应用控制，提供智慧化的主动服务，让数字人从被动助理变成“越用越懂你”的有温度的专属智能体。其背后依托三大关键技术支撑：运行于AI原生操作系统MTT AIOS，采用独特的二维拓扑记忆系统，搭载自研Agent开源框架MTClaw。

此外，AICUBE的全闪存AI NAS模块为家庭提供了高安全性的本地数据智能管理；同时，它具备完整的桌面AI PC能力，可轻松满足高画质娱乐、在线学习及本地大模型运行需求。

家庭AI的关键不是“能不能聊天”，而是能不能围绕家庭数据、家庭设备和家庭任务形成持续服务。照片、视频、文档、家庭成员的日程、智能设备控制，都需要一个既具备本地存储能力，又具备本地推理能力的中枢。AICUBE的价值，正是在于把AI从一个孤立应用变成家庭数字生活的操作入口。该产品将于6月18日在京东摩尔线程旗舰店开启预售。

AIBOOK算力本：把智能体带进开发者工作流

AIBOOK则面向另一类人群：AI开发者、学习者和智能体应用使用者。

MTT AIBOOK搭载基于原生Linux的MTT AIOS，并预装“龙虾”智能体 OpenClaw，AIBOOK具备“工具直达”特性，提供90+工具调用接口，降低开发配置成本；并创新支持原生Linux、虚拟化Windows及容器化Android多系统，同时提供LLM/ASR/TTS/OCR等模型支持的“端侧感知”能力，一台设备即可覆盖用户的全场景使用需求。

这不是单纯把一台电脑加上AI功能，而是在重构AI PC的定义。传统PC的核心是操作系统和应用软件，如今，AI PC的核心则可能变成“本地智能体 + 开发环境 + 云端模型协同”。AIBOOK如果能够把智能体调试、模型调用、本地部署和多系统兼容打通，它面向的就不只是消费级笔记本市场，而是开发者工作流本身。

MTT E300 AI模组：渗透行业毛细血管

除消费级产品外，专为嵌入式边缘场景设计的MTT E300 AI模组同样亮相。该模组支持混合精度计算，可在严苛环境中稳定运行，为工业质检、能源巡检、智慧教室、智能汽车及低空经济等典型场景提供高效、低延迟、强可靠的边缘AI能力。

从AICUBE、AIBOOK到E300，摩尔线程在边缘和端侧布局的主线很清楚：让AI既能进入家庭，也能进入个人开发环境，还能进入工业、能源、交通、教育、医疗等边缘场景。这也是它打通“云—边—端”闭环的关键一步——边缘和端侧不是附属品，而是AI落地的最后一公里。

具身破壁：全栈具身智能仿真平台，重塑国产GPU竞争维度

大模型正在走向物理世界，具身智能（机器人、自动驾驶等）已成为科技巨头的必争之地。然而，传统具身智能研发存在着一个巨大痛点：开发、仿真、训练各环节严重割裂，数据在不同系统间迁移繁琐，Sim2Real（虚拟到现实转换）难度高，硬件试错成本高昂。

此外，具身智能与普通大模型最大的不同，在于它不只需要“理解”和“生成”，还要完成感知、决策、动作执行，并与真实环境实时交互。机器人、自动驾驶、智能制造、低空经济等场景，都要求AI不只是会说，而是会动、会判断、会在物理约束下行动。

这就使具身智能对GPU提出了不同于大模型训练的新要求。在传统AI竞争中，GPU主要被视为训练和推理芯片。但在具身智能中，GPU还需要承担图形渲染、物理仿真、合成数据生成、强化学习训练等任务。

这也正是摩尔线程坚持的“全功能GPU”路线的绝对主场。其全功能GPU基于MUSA架构，可以为具身智能提供“渲染 + 仿真 + AI训推”一体化通用算力底座。

在这次发布会上，摩尔线程祭出了杀手锏——发布了首个全栈国产化具身智能仿真平台MT Lambda。

MT Lambda底层基于全功能GPU与MUSA架构，中间层整合物理、渲染、AI 三大引擎，上层提供MT Lambda-Lab具身策略开发与训练平台，以及MT Lambda-Sim高保真物理仿真与渲染平台。

这套平台的价值，在于尝试将原本割裂的环节放进同一个算力和同一个软件栈中处理。其物理引擎包括MuJoCo-Warp-musa、Newton-musa和自研 AlphaCore；渲染引擎包括MT Photon、3DGS 和 MTAGR；AI引擎则包括 Torch-MUSA、VLA、RL、IL等能力。

当前，具身智能加速从技术验证迈向工程化与产业化，摩尔线程作为国内极为稀缺的打通“大模型训练—仿真模拟—端侧部署”生态闭环的GPU企业，已经构建起全栈自主、端到端的软硬件技术栈，可以为具身智能提供一站式、安全可靠的国产算力方案。

在具身智能领域，摩尔线程依托自研的夸娥智算集群、仿真平台及端侧SoC芯片，已经形成云边端协同的产品与能力布局。同时，摩尔线程积极拓展具身生态“朋友圈”，通过与光轮智能在合成数据等关键领域共筑国产具身智能仿真底座，以及与光线云联合打造RaysTwins具身仿真平台等深度合作，共同推动技术成果加速转化落地。

摩尔线程正在把GPU从“训练芯片”扩展为“物理AI基础设施”。这对国产GPU的意义很大。过去谈到国产GPU，老生常谈的话题是替代。能不能替代国外训练卡，能不能适配主流框架，能不能跑通大模型。但具身智能提供了一个新的产业窗口：未来机器人和物理AI需要的不只是训练算力，而是“算、渲、仿”一体化能力。谁能提供更完整的底座，谁就可能在下一代AI应用中获得新的系统级位置。

云端筑底：夸娥万卡级集群撑起Token时代的AI工厂

端侧与边缘的全面开花，离不开云端母体的澎湃动力。

在张建中的表述中，Token时代催生出不同类型的“AI 工厂”：有的工厂生产模型，有的工厂提供推理服务，产出Token；还有一些工厂生产Agent，服务智能体应用。无论是哪一种工厂，背后都离不开高性能人工智能基础设施。

这也是夸娥（KUAE）万卡级智算集群的战略位置。

大模型训练、推理、AI Coding、AIGC、智能体服务等复杂应用，对底层算力集群的规模、稳定性和工程效率有着近乎苛刻的要求。尤其在Agentic AI快速发展的背景下，Token消耗量正在以难以预测的速度增长。张建中提到，仅某一个应用的日均Token消耗量就已突破120万亿，这背后对应的是极其庞大的推理服务需求。

作为旗舰级AI训推一体智算卡，摩尔线程MTT S5000支持FP8到FP64全精度计算，单卡AI稠密算力达1000 TFLOPS，配备80GB显存、1.6TB/s显存带宽及约800GB/s的高速卡间互联带宽。

但张建中强调指出，当前大模型竞争已经从单卡性能进入系统工程竞争，万卡级集群的难点不只是把GPU堆起来，还包括高速互联、通信优化、并行训练、故障恢复、资源调度、存储优化和推理服务编排。任何一个环节不稳定，都会放大为训练效率和服务可用性的瓶颈。

“软件并不是真正的原因，兼容也不是真正的原因，关键是能不能有一个稳定的集群。”张建中表示。这句话点出了国产GPU进入产业主战场的关键：不只是能不能跑，而是能不能7×24小时稳定、高效、可靠地跑。

目前，夸娥万卡级智算集群已交出了亮眼的商业化成绩单：集群浮点运算能力达到10 Exa-Flops。在Dense（稠密）大模型训练中的MFU（模型算力利用率）达60%，在MoE（混合专家）大模型上达40%，训练线性扩展效率高达95%，有效训练时间占比超过90%。2026年第一季度，得益于万卡级集群的规模化落地，摩尔线程单季斩获6.6亿元智算集群大额订单，助力Q1营收达到7.38亿元，同比大增155.35%。

在推理端，摩尔线程展现了其深厚的生态底蕴与“发布即适配”（Day-0适配）的响应速度。目前，摩尔线程已全面适配DeepSeek、GLM、MiniMax、Kimi、Qwen等国内头部大模型，以及主流的语音、视觉理解及多模态模型。值得一提的是，摩尔线程在推理框架SGLang主线代码中获得了官方原生支持，并开源了vLLM-MUSA，可原生获得摩尔线程GPU加速能力，大幅提升推理效率。

这对AI Coding、AIGC和智能体应用尤为重要。AI Coding和AIGC的共同特点，是高频、实时、交互式生成。它们不仅需要训练算力，更需要推理侧的吞吐、时延、KV Cache管理、批处理调度和低时延服务编排。摩尔线程围绕大型推理系统，在推理解耦、KV Cache管理、批处理调度、低时延服务编排等关键能力方向持续推进。

在发布会现场，两组场景展示生动地诠释了“算力即服务”的转化率：

Vibe Coding（口语编程）：基于GLM模型推理服务，用户完全用口语描述需求，即可由多智能体协同生成专属App，无需手写任何一行代码。

AIGC微短剧智能生成：呈现了从剧本策划、角色分镜到视频合成的全链路智能生成工作流。

可以看出，摩尔线程的万卡级集群不只是服务于“训练大模型”，也在向“生产智能”的AI工厂演进：训练、推理、智能体、AIGC、AI Coding，都可能成为其算力平台的核心负载。

生态搭桥：MUSA决定全功能GPU的真正上限

把边缘和端侧产品、具身智能仿真平台以及万卡级集群放在一起看，摩尔线程正在从三个方向补齐AI基础设施拼图：

第一，在云端，构建万卡级智算集群。这解决大模型训练、推理和复杂AI应用的规模化算力问题。

第二，在边缘和端侧，推出AICUBE、AIBOOK、E300。这解决AI如何进入家庭、个人开发环境和行业终端的问题。

第三，在仿真与具身智能层，构建MT Lambda，解决机器人、自动驾驶、物理AI从虚拟训练到现实部署的研发效率问题。

云端是AI工厂，边缘和端侧是智能入口，具身智能是物理世界的应用出口。云、边、端宏大叙事的背后，真正让这些硬件产品能够共用同一种语言、实现无缝协同的，是贯穿其全线产品的底层基石——MUSA（摩尔线程统一系统架构）。

作为贯穿摩尔线程全功能GPU硬件与全栈软件体系的底层架构，MUSA已全面实现对业界主流CUDA生态的深度兼容。

对于开发者而言，“迁移成本”曾是国产GPU无法言说之痛。而全新发布的 MUSA SDK 5.1.0（深度对标CUDA 12.8），则是一次大力出奇迹的“破壁”。从驱动与运行时层新增248个API、使兼容接口数达到761个，到核心数学库的100%对齐；从覆盖55类核心AI算子，到完整支持PyTorch全部3194个算子……MUSA软件栈实现了底层驱动、编译器、算子加速库到训推框架的全链路覆盖。这种极致的兼容性，让国产GPU真正具备了“即插即用、无感迁移”的硬实力。

此外，摩尔线程的软件生态正在从兼容走向“反客为主”，深度融入全球主流开源核心圈：在推理主流生态中，MUSA不仅正式成为全球主流推理框架vLLM的官方后端，更成功合入SGLang官方主线并获得“原生支持”，这意味着全球开发者无需任何额外配置，就能在主线代码中直接调用摩尔线程GPU的加速红利。

在底层编译与热点算子侧，TileLang-MUSA成功合入开源主线，升级支持Triton 3.6最新版本。诸如FlashAttention3等业内顶尖热点算子，在MUSA上的运行效率已达到了近乎极致的95%。

从服务前沿大模型持续训练的稳定性，到科学计算领域的顶流软件VASP加速，MUSA都交出了一份无可挑剔的成熟答卷。

更具前瞻性的是，摩尔线程正在将AI引入软件生态自身的建设中。

张建中在发布会上提出一个有意思的判断：有了Agent，可以让MUSA做得更好；而AI又可以帮助人类创造更多AI。换句话说，Agentic AI不只是摩尔线程产品所服务的对象，也正在成为摩尔线程建设软件生态的工具。

依托Automusify智能迁移工具，MUSA实现了对Top 100人工智能与Top 100科学计算加速仓库的自动化迁移。全新升级的MUSACODE AI编程助手，则通过大模型智能体协同，已经开发并交付超过10,000个Kernel算子，并基于TileLang自动调优Group GEMM算子，实现60%的性能提升。

过去，软件生态依赖工程师手工迁移、适配和优化；而在Agentic AI时代，智能体本身也可以成为生态建设者，帮助国产GPU更快补齐算子、工具链和开发者体验。

借由这具强大的MUSA统一系统架构灵魂，摩尔线程的“云边端”铁三角，才真正拥有了合围Token时代的终极底气。

结语

回看这场发布会，摩尔线程祭出的不仅是一系列硬核的软硬件产品，而是一套谋划已久的战略闭环：从支撑DeepSeek、Kimi等头部大模型高频吞吐的云端智算，到打破数字与现实壁垒的具身智能仿真，再到下沉至千家万户、开发者桌面和行业毛细血管的边缘和端侧智能，无不在证明摩尔线程全功能GPU路线的远见。

这是一场属于中国智算力量的卡位战。在这场重塑未来的Token经济大潮中，手握“云边端”全景蓝图的摩尔线程，不仅抢占了产业的最强风眼，更为中国实体经济与AI的深度融合，筑起了一道自主可控的坚实底座。

责任编辑：SemiInsights

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

Token为王时代，摩尔线程亮出“云边端”全栈野心

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

Token为王时代，摩尔线程亮出“云边端”全栈野心

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月