AI下沉，英特尔打出AI工作站CPU+GPU“组合拳”

2026-04-27 11:50:15 来源: 杜芹

点击

“如今，各类智能体应用需求爆发，但云端部署Token消耗成本高昂，本地工作站成为更经济、易用的最优解。”英特尔市场营销集团副总裁、中国区总经理郭威在4月23日的「英特尔新一代AI工作站平台」发布会开场的这句话，几乎点出了当前AI产业最关键的一次转向：从云走向端，从集中走向分布，从调用能力走向拥有能力。

这并不是一次简单的算力迁移，而是一场生产力范式的重构。为此，英特尔重磅推出两位专业级“悍将”：代号Granite Rapids的至强600系列处理器，以及专为AI与专业图形而生的锐炫Pro B70显卡。这套CPU+GPU的“组合拳”，标志着英特尔在补齐 Agentic 与大模型落地基石上，迈出了跨越式的一步。

AI下沉，工作站成为承上启下的核心枢纽

过去几年，大模型的训练和推理几乎完全依附于云端，但随着Agentic AI的兴起，AI不再只是回答问题的工具，而是开始替人做事的执行主体——写代码、跑流程、做决策、调系统——这类高频、长上下文、高并发的任务，使得Token成本迅速累积，也让云端模式的经济性开始受到挑战。

因此，AI开始“下沉”。IDC的数据显示，端侧AI算力增强、多场景适配、端云协同、本地安全强化，正成为AI工作站的四大趋势；更关键的是，2026年中国AI工作站出货量预计同比增长65.2%，并首次占据超过一半市场份额（51.7%）。

针对 AI 落地的多元化路径，英特尔提出了前瞻性的企业 AI 三层部署架构：

l 中央级服务器集群：提供规模化算力的底座。

l 个人级 AI PC：支撑日常轻量化交互。普通AI PC的核心任务仍是办公、学习、娱乐，AI更多是辅助能力。

l 部门级 AI 工作站：作为承上启下的核心枢纽，更像是专用AI生产设备，可能配1张、2张甚至4张卡，用来完成文生图、图生视频、80B大模型、本地RAG或“养龙虾”等定向AI任务，因此对算力、稳定性和可靠性的要求更高。

“高性能工作站正是这类用户的理想平台，让 AI 从概念走向桌面生产力。”郭威强调，工作站不仅是重负载工作流的稳定载体，更是传统业务与 AI 融合的桥梁。

为了实现这一愿景，英特尔赋予了 AI 工作站三大核心能力：

Ø 能守，英特尔 CPU 稳健承载传统负载，稳固传统生产力，同时高效适配智能体应用；

Ø 能攻，工作站开始承担过去属于数据中心的任务——大模型推理、Agent运行、多模态生成等，英特尔GPU来支撑大模型推理；

Ø 能合，通过 CPU 与 GPU 的协同架构，用户无需改变现有工作流程，即可在同一设备上实现专业作业与 AI 赋能的无缝衔接。

至强600系列：算力“破界”，突破内存墙与稳定性的极限

作为本次发布会的重头戏，英特尔中国区技术部总经理高宇详细拆解了至强 600 系列工作站处理器的性能底蕴。这款采用模块化（Chiplet）架构的性能怪兽，最高提供 86 个性能核（P-Core），多线程性能较前代旗舰提升高达 61%，提供了多达 128 条 PCIe 5.0 通道。

在 AI 与高性能计算中，真正的瓶颈往往不在于计算频率，而在于数据的吞吐，即所谓的“内存墙”。至强 600平台中MRDIMM的引入，是这一代平台的重要突破。

高宇解释道：“MRDIMM 通过内置的 data buffer 同时激活两个内存 Rank，把单次传输从 64B 提升到 128B，传输吞吐提高 2 倍，加载延迟降低 40%。”这为大模型推理和大数据分析提供了前所未有的带宽支撑。

如果说MRDIMM解决的是内部带宽，那么CXL解决的就是外部扩展。至强600首次将CXL 2.0引入工作站平台，使得：内存可以通过PCIe扩展、KV Cache可以外部化部署、加速卡访问延迟降低，这在AI推理场景中尤为关键——因为模型本身不一定是瓶颈，真正限制性能的，往往是上下文和缓存。

在专业领域最看重的稳定性上，至强 600 提供了 48 项 RAS 特性，其 ADDDC 功能能纠正双 bit 内存错误，彻底杜绝了普通内存错误导致的蓝屏死机风险。

在会后的采访当中，高宇强调，至强600的定位是既要守住HPC，也要拥抱AI。至强并不是为了AI牺牲传统科学计算，而是从架构上同时考虑了两类负载：HPC侧支持FP64双精度能力，AI侧则通过AMX支持INT8、BF16、FP16矩阵运算，再结合MRDIMM、oneAPI、OpenVINO等工具链，使至强能够同时覆盖科学计算和AI推理场景。

英特尔中国区技术部总经理高宇

算力的跃迁，最终要转化为解决现实问题的能力。英特尔技术专家王巍巍通过一系列真实应用案例，展现了至强600系列算力“破界”后的能力：

l 气象预测：在 WRF 模型中，至强 600 带来的 87% 加速让天气预测能提前 12 分钟。这宝贵的 12 分钟，在自然灾害面前意味着抢救更多生命的机会。

l 新药研发：在 Alphafold 3 算法下，新平台每天可多预测 240 个中等生物分子结构，加速了破译生命本源的进程。

l 影像创作：得益于 AMX 指令集对 FP16 格式的支持，英特尔 OIDN 降噪库的运行速度提升了 5 倍，让艺术家的灵感即刻呈现。

本地AI部署并不只是为了数据安全，也因为云端模型可能存在服务不可用、模型漂移、响应不稳定等问题。英特尔中国区显卡和AI高级产品总监徐金平认可这一点，并表示未来企业会越来越多地选择本地部署，因为这样可以保证服务质量，所以英特尔GPU路线图也会继续朝着更大显存、更高算力演进。

锐炫Pro B70：大显存，正在成为新算力标准

面对 2030 年预计达 2500 亿美元的 AI 推理市场，英特尔推出了锐炫 Pro B70 显卡。作为基于 Xe2 架构的旗舰新品，B70 配置了32GB大显存和600GB/s的带宽，算力对比前代B60提升了86%。

针对当前 Agentic AI 时代对 64k 以上长上下文的诉求，B70的大显存优势显露无遗。它不仅能流畅运行Qwen 3.5-122B等主流大模型，还通过容器化交付全栈软件，实现了“安装即可用”的无缝体验。

锐炫Pro B70介于个人专业AI工作站和企业部门级边缘部署之间。英特尔技术专家王巍巍解释，单张B70适合个人专业用户，而4张B70可形成128GB显存，更适合企业侧100B左右模型的本地推理，因为100B模型权重本身会占掉大量显存，还要为KV Cache留出空间；在这种情况下，4张24GB卡会比较吃力。

此外，B70并非孤军奋战。英特尔构建了从 B50、B60 到 B70 的完整家族布局，涵盖了从单槽位、涡轮散热到 MXM 移动模块的多元形态，全方位覆盖专业 3D 设计、视频编解码及本地 AI 推理场景。

在英特尔眼中，AI工作站真正的挑战，不只是硬件，而是让用户用起来。对于创作者和小团队来说，AI工作站不是买回来就能发挥价值，关键是软件、工具链和部署门槛。王巍巍在采访中指出：“英特尔的责任是让我们使用AI变成就像现在玩手机，或者说每天呼吸一样简单。”高宇也强调，AI本质上是让创作更简单，而不是更复杂，英特尔要做的是让B70和ComfyUI等工具更好结合，让用户安装后“不需要怎么折腾就能把B70所有功能调出来”。

英特尔技术专家王巍巍

本地AI部署并不只是为了数据安全，也因为云端模型可能存在服务不可用、模型漂移、响应不稳定等问题。英特尔中国区显卡和AI高级产品总监徐金平认可这一点，并表示未来企业会越来越多地选择本地部署，因为这样可以保证服务质量，所以英特尔GPU路线图也会继续朝着更大显存、更高算力演进。

英特尔中国区显卡和AI高级产品总监徐金平

在AI训练和推理市场，徐金平对CUDA问题的回答很有价值。他认为，整个生态其实都不希望被一家硬件厂商锁定，因此PyTorch、vLLM、SGLang等框架的兴起，本质上都是为了降低对底层硬件和CUDA的绑定；对于更底层的Kernel编程，英特尔也支持Triton等方式，让开发者可以用同一套语言适配不同GPU。原话可保留：“整个生态都不希望被一家硬件厂商锁定。”

结语

高宇提到，未来工作站不能再是“傻大黑粗”，而要往小体积、低噪音、高算力方向走。他提出了很具体的目标：酷睿+单卡做到8L以内、35dB；酷睿+双卡做到14L以内、40dB以下；4卡做到35L以内。AI工作站正在从机房设备走向办公室设备，从专业硬件走向可日常部署的生产力节点。

依托8家系统厂商与7家主板厂商的开放生态，在 AI 算力从云端普惠至桌面的进程中，英特尔正以强悍的硬核实力与开放的技术理念，为全球的设计师、研究员和开发者搭建起一座通往未来的智能之桥。这不仅是技术的破界，更是生产力形态的重塑。

责任编辑：duqin

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

AI下沉，英特尔打出AI工作站CPU+GPU“组合拳”

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

AI下沉，英特尔打出AI工作站CPU+GPU“组合拳”

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月