AI下沉,英特尔打出AI工作站CPU+GPU“组合拳”

2026-04-27 11:50:15 来源: 杜芹
点击
“如今,各类智能体应用需求爆发,但云端部署Token消耗成本高昂,本地工作站成为更经济、易用的最优解。”英特尔市场营销集团副总裁、中国区总经理郭威在4月23日的「英特尔新一代AI工作站平台」发布会开场的这句话,几乎点出了当前AI产业最关键的一次转向:从云走向端,从集中走向分布,从调用能力走向拥有能力。
 
这并不是一次简单的算力迁移,而是一场生产力范式的重构。为此,英特尔重磅推出两位专业级“悍将”:代号Granite Rapids的至强600系列处理器,以及专为AI与专业图形而生的锐炫Pro B70显卡。这套CPU+GPU的“组合拳”,标志着英特尔在补齐 Agentic 与大模型落地基石上,迈出了跨越式的一步。


 
AI下沉,工作站成为承上启下的核心枢纽
 
过去几年,大模型的训练和推理几乎完全依附于云端,但随着Agentic AI的兴起,AI不再只是回答问题的工具,而是开始替人做事的执行主体——写代码、跑流程、做决策、调系统——这类高频、长上下文、高并发的任务,使得Token成本迅速累积,也让云端模式的经济性开始受到挑战。
 
因此,AI开始“下沉”。IDC的数据显示,端侧AI算力增强、多场景适配、端云协同、本地安全强化,正成为AI工作站的四大趋势;更关键的是,2026年中国AI工作站出货量预计同比增长65.2%,并首次占据超过一半市场份额(51.7%)。
 
针对 AI 落地的多元化路径,英特尔提出了前瞻性的企业 AI 三层部署架构:
 
l 中央级服务器集群:提供规模化算力的底座。
 
l 个人级 AI PC:支撑日常轻量化交互。普通AI PC的核心任务仍是办公、学习、娱乐,AI更多是辅助能力。
 
l 部门级 AI 工作站:作为承上启下的核心枢纽,更像是专用AI生产设备,可能配1张、2张甚至4张卡,用来完成文生图、图生视频、80B大模型、本地RAG或“养龙虾”等定向AI任务,因此对算力、稳定性和可靠性的要求更高。
 
“高性能工作站正是这类用户的理想平台,让 AI 从概念走向桌面生产力。”郭威强调,工作站不仅是重负载工作流的稳定载体,更是传统业务与 AI 融合的桥梁。
 
为了实现这一愿景,英特尔赋予了 AI 工作站三大核心能力:
 
Ø 能守,英特尔 CPU 稳健承载传统负载,稳固传统生产力,同时高效适配智能体应用;
 
Ø 能攻,工作站开始承担过去属于数据中心的任务——大模型推理、Agent运行、多模态生成等,英特尔GPU来支撑大模型推理;
 
Ø 能合,通过 CPU 与 GPU 的协同架构,用户无需改变现有工作流程,即可在同一设备上实现专业作业与 AI 赋能的无缝衔接。
 
至强600系列:算力“破界”,突破内存墙与稳定性的极限
 
作为本次发布会的重头戏,英特尔中国区技术部总经理高宇详细拆解了至强 600 系列工作站处理器的性能底蕴。这款采用模块化(Chiplet)架构的性能怪兽,最高提供 86 个性能核(P-Core),多线程性能较前代旗舰提升高达 61%,提供了多达 128 条 PCIe 5.0 通道。
 
在 AI 与高性能计算中,真正的瓶颈往往不在于计算频率,而在于数据的吞吐,即所谓的“内存墙”。至强 600平台中MRDIMM的引入,是这一代平台的重要突破。
 
高宇解释道:“MRDIMM 通过内置的 data buffer 同时激活两个内存 Rank,把单次传输从 64B 提升到 128B,传输吞吐提高 2 倍,加载延迟降低 40%。”这为大模型推理和大数据分析提供了前所未有的带宽支撑。
 
如果说MRDIMM解决的是内部带宽,那么CXL解决的就是外部扩展。至强600首次将CXL 2.0引入工作站平台,使得:内存可以通过PCIe扩展、KV Cache可以外部化部署、加速卡访问延迟降低,这在AI推理场景中尤为关键——因为模型本身不一定是瓶颈,真正限制性能的,往往是上下文和缓存。
 
在专业领域最看重的稳定性上,至强 600 提供了 48 项 RAS 特性,其 ADDDC 功能能纠正双 bit 内存错误,彻底杜绝了普通内存错误导致的蓝屏死机风险。
 
在会后的采访当中,高宇强调,至强600的定位是既要守住HPC,也要拥抱AI。至强并不是为了AI牺牲传统科学计算,而是从架构上同时考虑了两类负载:HPC侧支持FP64双精度能力,AI侧则通过AMX支持INT8、BF16、FP16矩阵运算,再结合MRDIMM、oneAPI、OpenVINO等工具链,使至强能够同时覆盖科学计算和AI推理场景。

英特尔中国区技术部总经理高宇
 
算力的跃迁,最终要转化为解决现实问题的能力。英特尔技术专家王巍巍通过一系列真实应用案例,展现了至强600系列算力“破界”后的能力:
 
l 气象预测:在 WRF 模型中,至强 600 带来的 87% 加速让天气预测能提前 12 分钟。这宝贵的 12 分钟,在自然灾害面前意味着抢救更多生命的机会。
 
l 新药研发:在 Alphafold 3 算法下,新平台每天可多预测 240 个中等生物分子结构,加速了破译生命本源的进程。
 
l 影像创作:得益于 AMX 指令集对 FP16 格式的支持,英特尔 OIDN 降噪库的运行速度提升了 5 倍,让艺术家的灵感即刻呈现。
 
本地AI部署并不只是为了数据安全,也因为云端模型可能存在服务不可用、模型漂移、响应不稳定等问题。英特尔中国区显卡和AI高级产品总监徐金平认可这一点,并表示未来企业会越来越多地选择本地部署,因为这样可以保证服务质量,所以英特尔GPU路线图也会继续朝着更大显存、更高算力演进。
 
锐炫Pro B70:大显存,正在成为新算力标准
 
面对 2030 年预计达 2500 亿美元的 AI 推理市场,英特尔推出了锐炫 Pro B70 显卡。作为基于 Xe2 架构的旗舰新品,B70 配置了32GB大显存和600GB/s的带宽,算力对比前代B60提升了86%。
 
针对当前 Agentic AI 时代对 64k 以上长上下文的诉求,B70的大显存优势显露无遗。它不仅能流畅运行Qwen 3.5-122B等主流大模型,还通过容器化交付全栈软件,实现了“安装即可用”的无缝体验。
 
锐炫Pro B70介于个人专业AI工作站和企业部门级边缘部署之间。英特尔技术专家王巍巍解释,单张B70适合个人专业用户,而4张B70可形成128GB显存,更适合企业侧100B左右模型的本地推理,因为100B模型权重本身会占掉大量显存,还要为KV Cache留出空间;在这种情况下,4张24GB卡会比较吃力。
 
此外,B70并非孤军奋战。英特尔构建了从 B50、B60 到 B70 的完整家族布局,涵盖了从单槽位、涡轮散热到 MXM 移动模块的多元形态,全方位覆盖专业 3D 设计、视频编解码及本地 AI 推理场景。
 
在英特尔眼中,AI工作站真正的挑战,不只是硬件,而是让用户用起来。对于创作者和小团队来说,AI工作站不是买回来就能发挥价值,关键是软件、工具链和部署门槛。王巍巍在采访中指出:“英特尔的责任是让我们使用AI变成就像现在玩手机,或者说每天呼吸一样简单。”高宇也强调,AI本质上是让创作更简单,而不是更复杂,英特尔要做的是让B70和ComfyUI等工具更好结合,让用户安装后“不需要怎么折腾就能把B70所有功能调出来”。


 英特尔技术专家王巍巍

本地AI部署并不只是为了数据安全,也因为云端模型可能存在服务不可用、模型漂移、响应不稳定等问题。英特尔中国区显卡和AI高级产品总监徐金平认可这一点,并表示未来企业会越来越多地选择本地部署,因为这样可以保证服务质量,所以英特尔GPU路线图也会继续朝着更大显存、更高算力演进。
 
 
英特尔中国区显卡和AI高级产品总监徐金平

在AI训练和推理市场,徐金平对CUDA问题的回答很有价值。他认为,整个生态其实都不希望被一家硬件厂商锁定,因此PyTorch、vLLM、SGLang等框架的兴起,本质上都是为了降低对底层硬件和CUDA的绑定;对于更底层的Kernel编程,英特尔也支持Triton等方式,让开发者可以用同一套语言适配不同GPU。原话可保留:“整个生态都不希望被一家硬件厂商锁定。”
 
结语
 
高宇提到,未来工作站不能再是“傻大黑粗”,而要往小体积、低噪音、高算力方向走。他提出了很具体的目标:酷睿+单卡做到8L以内、35dB;酷睿+双卡做到14L以内、40dB以下;4卡做到35L以内。AI工作站正在从机房设备走向办公室设备,从专业硬件走向可日常部署的生产力节点。
 
依托8家系统厂商与7家主板厂商的开放生态,在 AI 算力从云端普惠至桌面的进程中,英特尔正以强悍的硬核实力与开放的技术理念,为全球的设计师、研究员和开发者搭建起一座通往未来的智能之桥。这不仅是技术的破界,更是生产力形态的重塑。
责任编辑:duqin

相关文章

半导体行业观察
摩尔芯闻

热门评论