从平台到生态：Arm如何在大模型时代“乘风破浪”？

2025-04-30 16:11:03 来源: 杜芹

点击

生成式 AI 正处于指数级发展阶段。以大语言模型（LLM）为核心的 AI 应用正快速渗透金融、制造、医疗、零售、教育等垂直行业，成为推动数字经济的关键引擎。IDC 预测显示，到 2028 年中国大模型市场规模将达 211 亿元人民币，这一趋势已然成为技术创新和产业转型的重要风向标。

大模型的部署正从云端逐步向端侧迁移，推动算力从集中化走向“云-边-端”一体化。这背后既是对低延迟、高隐私、本地处理能力的现实需求，也映射出在高性能、低功耗、成本优化之间的算力平衡挑战。

在这场大模型“全景落地”的竞赛中，Arm正在成为关键的支撑性力量

首先是架构层面的突破：Armv9开启AI时代

作为开启AI时代的标志性架构，Armv9 架构集成了用于加速和保护 LLM 等先进生成式 AI 工作负载的关键特性，包括SME（可伸缩矩阵扩展）和SVE2（可伸缩矢量扩展），从而显著提升了对AI和机器学习工作负载的支持能力。SME通过量化计算大幅降低模型对内存带宽和算力资源的消耗，尤其适用于大模型等计算密集型生成式AI工作负载；而SVE2则强化了图像和多媒体处理能力，在AI视觉处理、视频通话和多模态任务中展现出强大优势。

这些指令集架构 (ISA) 创新为Arm CPU提供了原生 AI 能力，极大提升了大模型部署的本地化性能表现，成为通向“千亿参数，端侧运行”的可能路径。

其次是平台创新：Neoverse 计算平台、终端 CSS、边缘 AI 计算平台构筑“云-端-边”三栖支点

在云端，Arm Neoverse计算平台凭借其卓越的能效比和可扩展性，早已获得众多云服务商和服务器厂商的广泛采用。AWS Graviton4、阿里倚天710 等基于 Neoverse 技术的服务器，正成为大模型推理的高能效计算平台。以 Graviton4 为例，其在 Llama 3 70B 上可实现超越人类阅读速度的每秒 10 tokens 推理效率，在保证低延迟的同时，显著降低 TCO（总拥有成本）。根据 Arm的官方信息，Neoverse 技术的部署如今已达到了新的高度：2025 年出货到头部超大规模云服务提供商的算力中，将有近 50% 是基于 Arm 架构。

在端侧，Arm的终端计算子系统(CSS)集成了基于Armv9.2架构的Cortex-X925 CPU、Immortalis GPU、Mali GPU及CoreLink互联系统IP，以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。作为 AI 体验的计算基础，能在最广泛类别的消费电子设备中，实现性能、效率和可扩展性的跨越式提升。其中，Cortex-X925在AI任务中带来了高达41%的性能提升，可显著提高如 LLM 等设备端生成式 AI 的响应能力。

在边缘计算领域，Arm进一步推出了以全新基于Arm架构的 Cortex-A320 CPU 和 Ethos-U85 AI加速器为核心的边缘AI计算平台，相较上一代提升8倍ML算力，支持超10亿参数模型的运行。不仅性能提升显著，更将Armv9的安全机制引入边缘侧，满足工业控制、智慧安防、车载等场景对数据本地处理和AI推理的高安全要求。

最后是软件栈革新：Arm KleidiAI 是软硬协同的典范。

硬件架构优势若不能被软件充分激活，其性能将大打折扣。Arm于2024年推出的 KleidiAI，正是打通架构与AI框架之间的关键桥梁。

KleidiAI使AI框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能，并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核，KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成，旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能，为生成式 AI 工作负载带来显著的性能提升。此外，KleidiAI 还具备前后兼容性，确保 Arm 在引入更多新技术的同时，持续满足未来市场需求。目前，Kleidi 的支持已经覆盖从基础设施、智能终端到物联网及汽车的全部 Arm 业务领域。

从“用得起”到“用得好”，Arm 助推大模型产业化落地的典型案例

随着大模型的不断升级，其推理效率、部署成本与响应体验成为落地的关键考量。Arm 通过架构优化和软硬协同，已经在云端、端侧和开发生态上交出了一份亮眼的答卷，让“大模型”真正走向“大规模应用”。

在云计算场景中，Arm Neoverse计算平台展现出了非常强劲的推理能力和能效表现：

l AWS Graviton4：在运行 Llama 3 8B 模型时，Graviton4 的提示词编码性能较 Graviton3 提高了 14% 至 26%，词元生成性能提高了 5% 至 50%，可以轻松应对高强度推理任务。

l 阿里云倚天 710：通过对 llama.cpp 中的 int4 和 int8 GEMM 内核进行优化，阿里云倚天 710 在单次操作和批量处理场景下均能保持 100 毫秒以内的延迟目标，实时交互体验变得更加流畅自然。

l FunASR 模型优化：通过充分利用 Armv9 架构中的 SVE2 指令、BF16 数据类型等特性，并引入了动态量化技术，保持精度的前提下，FunASR 在 Arm 计算平台上的计算效率提高了 1.5 倍，充分说明 Arm 架构在语音识别等专业场景中也非常给力。

在端侧，Arm架构的突破更是让大模型真正在端侧设备上跑起来。

在移动设备和终端场景中，Arm 不仅实现了大模型本地运行，而且无需借助加速器也能表现出色。举例来说，通过 Arm CPU 优化内核在 Arm 技术驱动的移动设备上运行新的 Llama 3.2 3B LLM，可让提示词处理速度提高五倍，词元 (token) 生成速度提高三倍，在生成阶段实现每秒 19.92 个词元，响应快、体验顺滑，提升明显；在移动端聊天类应用上使用 Meta 的 Llama 2 7B LLM 时，Llama 2 7B 无需加速器运行，纯靠Arm CPU就能跑得动，而且首次响应时间缩短 50%，生成速度也接近每秒 10 个词元，完全能满足日常对话类应用的需求。

此外，作为专为物联网打造的Armv9边缘 AI 计算平台，Arm Cortex-A320 + Ethos-U85 的计算平台兼顾性能、安全性和灵活性，较去年的基于 Cortex-M85 搭配 Ethos-U85 的计算平台提升了八倍的 ML 计算性能，带来显著的 AI 计算能力突破。

除了硬件层面的实例，Arm 在软件方面也有着诸多应用提升实例。通过和各大企业合作，在实际应用中把模型推理性能再往上推了一大截：

l 通过 Arm 的 KleidiAI 和 MNN 框架的深度集成，淘天通义千问Qwen2-VL-2B-Instruct 模型在移动设备上运行效率大幅提升，响应速度快了57%，让多模态应用变得更轻便；

l Arm与腾讯合作，成功将Arm KleidiAI技术融入腾讯混元自研的 Angel 机器学习框架，使得混元大模型预填充阶段的处理速度提升了100%，解码速度也提升了10%，优化效果非常明显；

l 在基于 Neoverse N2 的阿里巴巴倚天 710 CPU 上运行 FunASR 推理具有性价比优势。得益于 BF16 指令支持，FunASR 的推理效率比同级别的 x86 平台高出了 2.4 倍，整体性价比提升 3.5 倍，部署更划算、能效也更优。

结语

大模型不只是AI的高峰，更是Arm的舞台。在生成式 AI 技术重构全球算力格局的关键节点，Arm 凭借从微架构到生态协同的深厚底蕴，正在将“大模型”变为“大规模商用”的现实。

从数据中心到端侧设备，从大模型到多模态应用，Arm 已经成为构建下一代 AI 计算基础设施的核心平台。凭借架构的灵活性、高性能、高能效以及强大的生态融合能力等优势，Arm正在成为生成式 AI “从云到端”部署最关键的统一算力平台。

当未来的每一台终端都能运行大模型，每一个数据中心都以更低能耗服务AI任务，我们终将发现：Arm，正是这场智能变革最重要的铺路人。

责任编辑：admin

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

从平台到生态：Arm如何在大模型时代“乘风破浪”？

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

从平台到生态：Arm如何在大模型时代“乘风破浪”？

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月