从平台到生态:Arm如何在大模型时代“乘风破浪”?
2025-04-30
16:11:03
来源: 杜芹
点击
生成式 AI 正处于指数级发展阶段。以大语言模型(LLM)为核心的 AI 应用正快速渗透金融、制造、医疗、零售、教育等垂直行业,成为推动数字经济的关键引擎。IDC 预测显示,到 2028 年中国大模型市场规模将达 211 亿元人民币,这一趋势已然成为技术创新和产业转型的重要风向标。
大模型的部署正从云端逐步向端侧迁移,推动算力从集中化走向“云-边-端”一体化。这背后既是对低延迟、高隐私、本地处理能力的现实需求,也映射出在高性能、低功耗、成本优化之间的算力平衡挑战。
在这场大模型“全景落地”的竞赛中,Arm正在成为关键的支撑性力量
首先是架构层面的突破:Armv9开启AI时代
作为开启AI时代的标志性架构,Armv9 架构集成了用于加速和保护 LLM 等先进生成式 AI 工作负载的关键特性,包括SME(可伸缩矩阵扩展)和SVE2(可伸缩矢量扩展),从而显著提升了对AI和机器学习工作负载的支持能力。SME通过量化计算大幅降低模型对内存带宽和算力资源的消耗,尤其适用于大模型等计算密集型生成式AI工作负载;而SVE2则强化了图像和多媒体处理能力,在AI视觉处理、视频通话和多模态任务中展现出强大优势。
这些指令集架构 (ISA) 创新为Arm CPU提供了原生 AI 能力,极大提升了大模型部署的本地化性能表现,成为通向“千亿参数,端侧运行”的可能路径。
其次是平台创新:Neoverse 计算平台、终端 CSS、边缘 AI 计算平台构筑“云-端-边”三栖支点
在云端,Arm Neoverse计算平台凭借其卓越的能效比和可扩展性,早已获得众多云服务商和服务器厂商的广泛采用。AWS Graviton4、阿里倚天710 等基于 Neoverse 技术的服务器,正成为大模型推理的高能效计算平台。以 Graviton4 为例,其在 Llama 3 70B 上可实现超越人类阅读速度的每秒 10 tokens 推理效率,在保证低延迟的同时,显著降低 TCO(总拥有成本)。根据 Arm的官方信息,Neoverse 技术的部署如今已达到了新的高度:2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。
在端侧,Arm的终端计算子系统(CSS)集成了基于Armv9.2架构的Cortex-X925 CPU、Immortalis GPU、Mali GPU及CoreLink互联系统IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。作为 AI 体验的计算基础,能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。其中,Cortex-X925在AI任务中带来了高达41%的性能提升,可显著提高如 LLM 等设备端生成式 AI 的响应能力。
在边缘计算领域,Arm进一步推出了以全新基于Arm架构的 Cortex-A320 CPU 和 Ethos-U85 AI加速器为核心的边缘AI计算平台,相较上一代提升8倍ML算力,支持超10亿参数模型的运行。不仅性能提升显著,更将Armv9的安全机制引入边缘侧,满足工业控制、智慧安防、车载等场景对数据本地处理和AI推理的高安全要求。
最后是软件栈革新:Arm KleidiAI 是软硬协同的典范。
硬件架构优势若不能被软件充分激活,其性能将大打折扣。Arm于2024年推出的 KleidiAI,正是打通架构与AI框架之间的关键桥梁。
KleidiAI使AI框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能,为生成式 AI 工作负载带来显著的性能提升。此外,KleidiAI 还具备前后兼容性,确保 Arm 在引入更多新技术的同时,持续满足未来市场需求。目前,Kleidi 的支持已经覆盖从基础设施、智能终端到物联网及汽车的全部 Arm 业务领域。
从“用得起”到“用得好”,Arm 助推大模型产业化落地的典型案例
随着大模型的不断升级,其推理效率、部署成本与响应体验成为落地的关键考量。Arm 通过架构优化和软硬协同,已经在云端、端侧和开发生态上交出了一份亮眼的答卷,让“大模型”真正走向“大规模应用”。
在云计算场景中,Arm Neoverse计算平台展现出了非常强劲的推理能力和能效表现:
l AWS Graviton4:在运行 Llama 3 8B 模型时,Graviton4 的提示词编码性能较 Graviton3 提高了 14% 至 26%,词元生成性能提高了 5% 至 50%,可以轻松应对高强度推理任务。
l 阿里云倚天 710:通过对 llama.cpp 中的 int4 和 int8 GEMM 内核进行优化,阿里云倚天 710 在单次操作和批量处理场景下均能保持 100 毫秒以内的延迟目标,实时交互体验变得更加流畅自然。
l FunASR 模型优化:通过充分利用 Armv9 架构中的 SVE2 指令、BF16 数据类型等特性,并引入了动态量化技术,保持精度的前提下,FunASR 在 Arm 计算平台上的计算效率提高了 1.5 倍,充分说明 Arm 架构在语音识别等专业场景中也非常给力。
在端侧,Arm架构的突破更是让大模型真正在端侧设备上跑起来。
在移动设备和终端场景中,Arm 不仅实现了大模型本地运行,而且无需借助加速器也能表现出色。举例来说,通过 Arm CPU 优化内核在 Arm 技术驱动的移动设备上运行新的 Llama 3.2 3B LLM,可让提示词处理速度提高五倍,词元 (token) 生成速度提高三倍,在生成阶段实现每秒 19.92 个词元,响应快、体验顺滑,提升明显;在移动端聊天类应用上使用 Meta 的 Llama 2 7B LLM 时,Llama 2 7B 无需加速器运行,纯靠Arm CPU就能跑得动,而且首次响应时间缩短 50%,生成速度也接近每秒 10 个词元,完全能满足日常对话类应用的需求。
此外,作为专为物联网打造的Armv9边缘 AI 计算平台,Arm Cortex-A320 + Ethos-U85 的计算平台兼顾性能、安全性和灵活性,较去年的基于 Cortex-M85 搭配 Ethos-U85 的计算平台提升了八倍的 ML 计算性能,带来显著的 AI 计算能力突破。
除了硬件层面的实例,Arm 在软件方面也有着诸多应用提升实例。通过和各大企业合作,在实际应用中把模型推理性能再往上推了一大截:
l 通过 Arm 的 KleidiAI 和 MNN 框架的深度集成,淘天通义千问Qwen2-VL-2B-Instruct 模型在移动设备上运行效率大幅提升,响应速度快了57%,让多模态应用变得更轻便;
l Arm与腾讯合作,成功将Arm KleidiAI技术融入腾讯混元自研的 Angel 机器学习框架,使得混元大模型预填充阶段的处理速度提升了100%,解码速度也提升了10%,优化效果非常明显;
l 在基于 Neoverse N2 的阿里巴巴倚天 710 CPU 上运行 FunASR 推理具有性价比优势。得益于 BF16 指令支持,FunASR 的推理效率比同级别的 x86 平台高出了 2.4 倍,整体性价比提升 3.5 倍,部署更划算、能效也更优。
结语
大模型不只是AI的高峰,更是Arm的舞台。在生成式 AI 技术重构全球算力格局的关键节点,Arm 凭借从微架构到生态协同的深厚底蕴,正在将“大模型”变为“大规模商用”的现实。
从数据中心到端侧设备,从大模型到多模态应用,Arm 已经成为构建下一代 AI 计算基础设施的核心平台。凭借架构的灵活性、高性能、高能效以及强大的生态融合能力等优势,Arm正在成为生成式 AI “从云到端”部署最关键的统一算力平台。
当未来的每一台终端都能运行大模型,每一个数据中心都以更低能耗服务AI任务,我们终将发现:Arm,正是这场智能变革最重要的铺路人。
大模型的部署正从云端逐步向端侧迁移,推动算力从集中化走向“云-边-端”一体化。这背后既是对低延迟、高隐私、本地处理能力的现实需求,也映射出在高性能、低功耗、成本优化之间的算力平衡挑战。
在这场大模型“全景落地”的竞赛中,Arm正在成为关键的支撑性力量
首先是架构层面的突破:Armv9开启AI时代
作为开启AI时代的标志性架构,Armv9 架构集成了用于加速和保护 LLM 等先进生成式 AI 工作负载的关键特性,包括SME(可伸缩矩阵扩展)和SVE2(可伸缩矢量扩展),从而显著提升了对AI和机器学习工作负载的支持能力。SME通过量化计算大幅降低模型对内存带宽和算力资源的消耗,尤其适用于大模型等计算密集型生成式AI工作负载;而SVE2则强化了图像和多媒体处理能力,在AI视觉处理、视频通话和多模态任务中展现出强大优势。
这些指令集架构 (ISA) 创新为Arm CPU提供了原生 AI 能力,极大提升了大模型部署的本地化性能表现,成为通向“千亿参数,端侧运行”的可能路径。
其次是平台创新:Neoverse 计算平台、终端 CSS、边缘 AI 计算平台构筑“云-端-边”三栖支点
在云端,Arm Neoverse计算平台凭借其卓越的能效比和可扩展性,早已获得众多云服务商和服务器厂商的广泛采用。AWS Graviton4、阿里倚天710 等基于 Neoverse 技术的服务器,正成为大模型推理的高能效计算平台。以 Graviton4 为例,其在 Llama 3 70B 上可实现超越人类阅读速度的每秒 10 tokens 推理效率,在保证低延迟的同时,显著降低 TCO(总拥有成本)。根据 Arm的官方信息,Neoverse 技术的部署如今已达到了新的高度:2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。
在端侧,Arm的终端计算子系统(CSS)集成了基于Armv9.2架构的Cortex-X925 CPU、Immortalis GPU、Mali GPU及CoreLink互联系统IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。作为 AI 体验的计算基础,能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。其中,Cortex-X925在AI任务中带来了高达41%的性能提升,可显著提高如 LLM 等设备端生成式 AI 的响应能力。
在边缘计算领域,Arm进一步推出了以全新基于Arm架构的 Cortex-A320 CPU 和 Ethos-U85 AI加速器为核心的边缘AI计算平台,相较上一代提升8倍ML算力,支持超10亿参数模型的运行。不仅性能提升显著,更将Armv9的安全机制引入边缘侧,满足工业控制、智慧安防、车载等场景对数据本地处理和AI推理的高安全要求。
最后是软件栈革新:Arm KleidiAI 是软硬协同的典范。
硬件架构优势若不能被软件充分激活,其性能将大打折扣。Arm于2024年推出的 KleidiAI,正是打通架构与AI框架之间的关键桥梁。
KleidiAI使AI框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能,为生成式 AI 工作负载带来显著的性能提升。此外,KleidiAI 还具备前后兼容性,确保 Arm 在引入更多新技术的同时,持续满足未来市场需求。目前,Kleidi 的支持已经覆盖从基础设施、智能终端到物联网及汽车的全部 Arm 业务领域。
从“用得起”到“用得好”,Arm 助推大模型产业化落地的典型案例
随着大模型的不断升级,其推理效率、部署成本与响应体验成为落地的关键考量。Arm 通过架构优化和软硬协同,已经在云端、端侧和开发生态上交出了一份亮眼的答卷,让“大模型”真正走向“大规模应用”。
在云计算场景中,Arm Neoverse计算平台展现出了非常强劲的推理能力和能效表现:
l AWS Graviton4:在运行 Llama 3 8B 模型时,Graviton4 的提示词编码性能较 Graviton3 提高了 14% 至 26%,词元生成性能提高了 5% 至 50%,可以轻松应对高强度推理任务。
l 阿里云倚天 710:通过对 llama.cpp 中的 int4 和 int8 GEMM 内核进行优化,阿里云倚天 710 在单次操作和批量处理场景下均能保持 100 毫秒以内的延迟目标,实时交互体验变得更加流畅自然。
l FunASR 模型优化:通过充分利用 Armv9 架构中的 SVE2 指令、BF16 数据类型等特性,并引入了动态量化技术,保持精度的前提下,FunASR 在 Arm 计算平台上的计算效率提高了 1.5 倍,充分说明 Arm 架构在语音识别等专业场景中也非常给力。
在端侧,Arm架构的突破更是让大模型真正在端侧设备上跑起来。
在移动设备和终端场景中,Arm 不仅实现了大模型本地运行,而且无需借助加速器也能表现出色。举例来说,通过 Arm CPU 优化内核在 Arm 技术驱动的移动设备上运行新的 Llama 3.2 3B LLM,可让提示词处理速度提高五倍,词元 (token) 生成速度提高三倍,在生成阶段实现每秒 19.92 个词元,响应快、体验顺滑,提升明显;在移动端聊天类应用上使用 Meta 的 Llama 2 7B LLM 时,Llama 2 7B 无需加速器运行,纯靠Arm CPU就能跑得动,而且首次响应时间缩短 50%,生成速度也接近每秒 10 个词元,完全能满足日常对话类应用的需求。
此外,作为专为物联网打造的Armv9边缘 AI 计算平台,Arm Cortex-A320 + Ethos-U85 的计算平台兼顾性能、安全性和灵活性,较去年的基于 Cortex-M85 搭配 Ethos-U85 的计算平台提升了八倍的 ML 计算性能,带来显著的 AI 计算能力突破。
除了硬件层面的实例,Arm 在软件方面也有着诸多应用提升实例。通过和各大企业合作,在实际应用中把模型推理性能再往上推了一大截:
l 通过 Arm 的 KleidiAI 和 MNN 框架的深度集成,淘天通义千问Qwen2-VL-2B-Instruct 模型在移动设备上运行效率大幅提升,响应速度快了57%,让多模态应用变得更轻便;
l Arm与腾讯合作,成功将Arm KleidiAI技术融入腾讯混元自研的 Angel 机器学习框架,使得混元大模型预填充阶段的处理速度提升了100%,解码速度也提升了10%,优化效果非常明显;
l 在基于 Neoverse N2 的阿里巴巴倚天 710 CPU 上运行 FunASR 推理具有性价比优势。得益于 BF16 指令支持,FunASR 的推理效率比同级别的 x86 平台高出了 2.4 倍,整体性价比提升 3.5 倍,部署更划算、能效也更优。
结语
大模型不只是AI的高峰,更是Arm的舞台。在生成式 AI 技术重构全球算力格局的关键节点,Arm 凭借从微架构到生态协同的深厚底蕴,正在将“大模型”变为“大规模商用”的现实。
从数据中心到端侧设备,从大模型到多模态应用,Arm 已经成为构建下一代 AI 计算基础设施的核心平台。凭借架构的灵活性、高性能、高能效以及强大的生态融合能力等优势,Arm正在成为生成式 AI “从云到端”部署最关键的统一算力平台。
当未来的每一台终端都能运行大模型,每一个数据中心都以更低能耗服务AI任务,我们终将发现:Arm,正是这场智能变革最重要的铺路人。
责任编辑:admin
相关文章
-
- 半导体行业观察
-
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 科技部部长万钢:创新型国家建设成果丰硕
- 2 国产GPU加速布局,摩尔线程实现对DeepSeek的高效部署
- 3 节省千亿5G投入 发改委免收3年电信运营商5G频率费
- 4 英飞凌年度股东大会批准每股派息0.35欧元;监事会成员变动:Ute Wolf与Hermann Eul博士教授当选为监事会成员
- 5 [原创] 安森美的新目标