从平台到生态:Arm如何在大模型时代“乘风破浪”?

2025-04-30 16:11:03 来源: 杜芹
生成式 AI 正处于指数级发展阶段。以大语言模型(LLM)为核心的 AI 应用正快速渗透金融、制造、医疗、零售、教育等垂直行业,成为推动数字经济的关键引擎。IDC 预测显示,到 2028 年中国大模型市场规模将达 211 亿元人民币,这一趋势已然成为技术创新和产业转型的重要风向标。
 
大模型的部署正从云端逐步向端侧迁移,推动算力从集中化走向“云-边-端”一体化。这背后既是对低延迟、高隐私、本地处理能力的现实需求,也映射出在高性能、低功耗、成本优化之间的算力平衡挑战。
 
在这场大模型“全景落地”的竞赛中,Arm正在成为关键的支撑性力量
 
首先是架构层面的突破:Armv9开启AI时代
 
作为开启AI时代的标志性架构,Armv9 架构集成了用于加速和保护 LLM 等先进生成式 AI 工作负载的关键特性,包括SME(可伸缩矩阵扩展)和SVE2(可伸缩矢量扩展),从而显著提升了对AI和机器学习工作负载的支持能力。SME通过量化计算大幅降低模型对内存带宽和算力资源的消耗,尤其适用于大模型等计算密集型生成式AI工作负载;而SVE2则强化了图像和多媒体处理能力,在AI视觉处理、视频通话和多模态任务中展现出强大优势。
 
这些指令集架构 (ISA) 创新为Arm CPU提供了原生 AI 能力,极大提升了大模型部署的本地化性能表现,成为通向“千亿参数,端侧运行”的可能路径。
 
其次是平台创新:Neoverse 计算平台、终端 CSS、边缘 AI 计算平台构筑“云-端-边”三栖支点
 
在云端,Arm Neoverse计算平台凭借其卓越的能效比和可扩展性,早已获得众多云服务商和服务器厂商的广泛采用。AWS Graviton4、阿里倚天710 等基于 Neoverse 技术的服务器,正成为大模型推理的高能效计算平台。以 Graviton4 为例,其在 Llama 3 70B 上可实现超越人类阅读速度的每秒 10 tokens 推理效率,在保证低延迟的同时,显著降低 TCO(总拥有成本)。根据 Arm的官方信息,Neoverse 技术的部署如今已达到了新的高度:2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。
 
在端侧,Arm的终端计算子系统(CSS)集成了基于Armv9.2架构的Cortex-X925 CPU、Immortalis GPU、Mali GPU及CoreLink互联系统IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。作为 AI 体验的计算基础,能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。其中,Cortex-X925在AI任务中带来了高达41%的性能提升,可显著提高如 LLM 等设备端生成式 AI 的响应能力。
 
在边缘计算领域,Arm进一步推出了以全新基于Arm架构的 Cortex-A320 CPU 和 Ethos-U85 AI加速器为核心的边缘AI计算平台,相较上一代提升8倍ML算力,支持超10亿参数模型的运行。不仅性能提升显著,更将Armv9的安全机制引入边缘侧,满足工业控制、智慧安防、车载等场景对数据本地处理和AI推理的高安全要求。
 
最后是软件栈革新:Arm KleidiAI 是软硬协同的典范。
 
硬件架构优势若不能被软件充分激活,其性能将大打折扣。Arm于2024年推出的 KleidiAI,正是打通架构与AI框架之间的关键桥梁。
 
KleidiAI使AI框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能,为生成式 AI 工作负载带来显著的性能提升。此外,KleidiAI 还具备前后兼容性,确保 Arm 在引入更多新技术的同时,持续满足未来市场需求。目前,Kleidi 的支持已经覆盖从基础设施、智能终端到物联网及汽车的全部 Arm 业务领域。
 
从“用得起”到“用得好”,Arm 助推大模型产业化落地的典型案例
 
随着大模型的不断升级,其推理效率、部署成本与响应体验成为落地的关键考量。Arm 通过架构优化和软硬协同,已经在云端、端侧和开发生态上交出了一份亮眼的答卷,让“大模型”真正走向“大规模应用”。
 
云计算场景中,Arm Neoverse计算平台展现出了非常强劲的推理能力和能效表现:
 
l AWS Graviton4:在运行 Llama 3 8B 模型时,Graviton4 的提示词编码性能较 Graviton3 提高了 14% 至 26%,词元生成性能提高了 5% 至 50%,可以轻松应对高强度推理任务。
 
l 阿里云倚天 710:通过对 llama.cpp 中的 int4 和 int8 GEMM 内核进行优化,阿里云倚天 710 在单次操作和批量处理场景下均能保持 100 毫秒以内的延迟目标,实时交互体验变得更加流畅自然。
 
l FunASR 模型优化:通过充分利用 Armv9 架构中的 SVE2 指令、BF16 数据类型等特性,并引入了动态量化技术,保持精度的前提下,FunASR 在 Arm 计算平台上的计算效率提高了 1.5 倍,充分说明 Arm 架构在语音识别等专业场景中也非常给力。
 
端侧,Arm架构的突破更是让大模型真正在端侧设备上跑起来。
 
在移动设备和终端场景中,Arm 不仅实现了大模型本地运行,而且无需借助加速器也能表现出色。举例来说,通过 Arm CPU 优化内核在 Arm 技术驱动的移动设备上运行新的 Llama 3.2 3B LLM,可让提示词处理速度提高五倍,词元 (token) 生成速度提高三倍,在生成阶段实现每秒 19.92 个词元,响应快、体验顺滑,提升明显;在移动端聊天类应用上使用 Meta 的 Llama 2 7B LLM 时,Llama 2 7B 无需加速器运行,纯靠Arm CPU就能跑得动,而且首次响应时间缩短 50%,生成速度也接近每秒 10 个词元,完全能满足日常对话类应用的需求。
 
此外,作为专为物联网打造的Armv9边缘 AI 计算平台,Arm Cortex-A320 + Ethos-U85 的计算平台兼顾性能、安全性和灵活性,较去年的基于 Cortex-M85 搭配 Ethos-U85 的计算平台提升了八倍的 ML 计算性能,带来显著的 AI 计算能力突破。
 
除了硬件层面的实例,Arm 在软件方面也有着诸多应用提升实例。通过和各大企业合作,在实际应用中把模型推理性能再往上推了一大截:
 
l 通过 Arm 的 KleidiAI 和 MNN 框架的深度集成,淘天通义千问Qwen2-VL-2B-Instruct 模型在移动设备上运行效率大幅提升,响应速度快了57%,让多模态应用变得更轻便;

l Arm与腾讯合作,成功将Arm KleidiAI技术融入腾讯混元自研的 Angel 机器学习框架,使得混元大模型预填充阶段的处理速度提升了100%,解码速度也提升了10%,优化效果非常明显;

l 在基于 Neoverse N2 的阿里巴巴倚天 710 CPU 上运行 FunASR 推理具有性价比优势。得益于 BF16 指令支持,FunASR 的推理效率比同级别的 x86 平台高出了 2.4 倍,整体性价比提升 3.5 倍,部署更划算、能效也更优。
 
结语
 
大模型不只是AI的高峰,更是Arm的舞台。在生成式 AI 技术重构全球算力格局的关键节点,Arm 凭借从微架构到生态协同的深厚底蕴,正在将“大模型”变为“大规模商用”的现实。
 
从数据中心到端侧设备,从大模型到多模态应用,Arm 已经成为构建下一代 AI 计算基础设施的核心平台。凭借架构的灵活性、高性能、高能效以及强大的生态融合能力等优势,Arm正在成为生成式 AI “从云到端”部署最关键的统一算力平台。
 
当未来的每一台终端都能运行大模型,每一个数据中心都以更低能耗服务AI任务,我们终将发现:Arm,正是这场智能变革最重要的铺路人。
责任编辑:admin

相关文章

半导体行业观察
摩尔芯闻

热门评论