推理为王:Arm发布Armv9边缘AI计算平台,轻松运行超10亿级参数模型
2025-03-06
16:38:15
来源: 杜芹
点击
如今,AI百模大战正酣,DeepSeek、Grok等大模型竞相涌现。然而,仅仅依赖训练本身并不能创造价值,推理才是释放AI真正潜力的关键。在大模型持续演进的浪潮下,生成式AI向边缘端和终端设备下沉已成为不可阻挡的趋势。
为何边缘AI的发展势在必行? Arm物联网事业部业务拓展副总裁马健在最近的Arm边缘AI新品技术沟通会上指出:“如果我们生活在连接带宽无限大,延时无限低,成本接近零的世界,那么 AI 部署在集中式数据中心是最有效的。但是这个假设并不成立,来自海量传感器、摄像头的视觉、声音等数据都回传到云端是不现实的,尤其是在对延时、隐私以及可靠性有严格要求的场景,边缘AI势在必行。”
在物联网和嵌入式领域,Arm架构已成为不可或缺的基石。过去三十年,Arm合作伙伴基于Arm架构的芯片出货量已超过3,000亿,以2021年的出货量来看,在近300亿颗基于Arm架构的年度芯片出货量中,有2/3(近200亿颗)被部署到了物联网和嵌入式应用中。
面对边缘AI快速发展面临的性能、安全、兼容性等方面的挑战,近日,Arm正式推出全球首个Armv9边缘AI计算平台,以Cortex-A320 CPU与Ethos-U85 NPU为核心,专为物联网应用优化,能够高效运行超10亿参数的端侧AI模型。这一突破性的创新平台,不仅标志着边缘AI迈入新阶段,更将深度推动智能物联网生态的升级演进。
边缘AI时代已来,Arm正在重新定义边缘计算的未来。
CPU与AI加速器深度融合,释放边缘AI潜能
不同于传统的CPU与AI加速器简单叠加,Arm此次推出的边缘AI计算平台实现了CPU与NPU(神经网络处理单元)的深度协作,使二者在算力、内存和任务调度上相互补充,达成高效协同。
具体而言,Cortex-A320可以为Ethos-U85提供更高的内存容量与带宽,让大模型在 Ethos-U85上的执行如虎添翼。任何开发者不希望在Ethos-U85上运行的AI操作,可以回退到Cortex-A320,利用其Neon/SVE2引擎更灵活有效地在CPU上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。
相较去年的基于Cortex-M85搭配Ethos-U85的平台,全新的边缘AI计算平台的ML 计算性能提升了八倍,赋能边缘设备轻松运行超10亿参数的大模型。

Arm的这一突破性边缘AI计算平台已获得亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技、Eurotech等众多业界领先企业的支持,推动智能物联网与边缘AI进入新纪元。
Cortex-A320:强大的边缘AI CPU
作为Arm首款基于Armv9架构的超高能效CPU,Cortex-A320不仅是物联网领域最小型的Armv9 CPU,还专为物联网应用进行了深度优化。
在机器学习(ML)计算性能上,Cortex-A320相较前代Cortex-A35提升了10倍,同时相较Cortex-A520,其能效提升50%,在降低功耗的同时提升了计算性能。此外,其标量计算性能较Cortex-A35提升30%,能够满足更广泛的通用计算需求。Cortex-A320最高支持四核共享集群,可根据不同的应用需求灵活扩展,为物联网设备带来更强的计算能力。
随着AI技术的不断进步,边缘设备逐渐承担起更加复杂和关键的任务,这使得它们对黑客攻击的吸引力日益增强。因此,确保边缘设备的安全性和可靠性成为了大规模部署边缘AI的必要前提。AI模型的持续演进、基于本地数据的重训练以及安全补丁的及时更新,都要求端侧设备能够进行在线软件更新、改进和升级。
Cortex-A320充分利用了Armv9架构在安全性和AI计算上的优势。在安全性方面,通过Secure EL2技术增强了TrustZone隔离性,为软件容器提供更高的安全性。同时,通过引入PACBTI(指针验证/分支目标识别)和MTE(内存标记扩展)特性,有效防止软件漏洞和网络攻击,保障设备免受安全威胁。

在AI计算能力提升方面,Cortex-A320所具备的Neon和可伸缩向量扩展(SVE2)特性提供了更高效的ML计算能力。其还增加了对BFloat16等新数据类型及矩阵乘法指令的支持,前者提高了AI计算的精度和能效,后者优化了AI和ML计算性能,加速神经网络推理和训练任务。这些改进使 Cortex-A320 成为物联网设备的理想 AI 计算平台,能够高效执行复杂的边缘 AI 任务,同时保证系统的安全性、可靠性和数据完整性。
值得一提的是,Cortex-A320为现有物联网领域的Cortex-A产品提供了灵活的升级路径。无论是从Cortex-A35迁移,还是从全球出货量最高的基于Armv8架构的Cortex-A处理器Cortex-A53升级,Cortex-A320都提供了理想的Armv9迁移方案。
软件生态加持,突破边缘AI瓶颈
边缘 AI 普及面临的最主要障碍之一是软件开发和部署的复杂性,这正是Armv9边缘AI计算平台软件生态系统发挥优势的关键所在。
去年,Arm 推出了 Kleidi 软件库,并将其引入了智能手机和服务器市场,它包含优化AI负载在Arm CPU上执行的KleidiAI和加速机器视觉的KleidiCV。现在,Arm也将 Arm Kleidi 扩展到了物联网。KleidiAI是一套专为AI框架开发者设计的计算内核,让开发者可以无缝地在Arm CPU上获取最佳性能,适用于各类设备。KleidiAI已经集成到多个主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通过XNNPACK),它可以加速Meta Llama 3和Phi-3等主流AI大模型,进一步释放AI计算性能。例如,在Llama.cpp上运行微软的Tiny Stories数据集时,KleidiAI为新的Cortex-A320带来了高达70%的性能提升。
随着边缘 AI 负载变得越来越复杂,对更强大、更灵活的操作系统进行系统管理的需求也在增加。Cortex-A320具备支持多种操作系统的能力,无论是如FreeRTOS和Zephyr的实时操作系统(RTOS),还是如Linux和Android的功能丰富的操作系统,都能提供高效支持。与此同时,凭借Arm A处理器架构的优势,Cortex-A320可开箱即用地支持Linux,并且能够轻松移植安卓及其他现有的功能丰富的操作系统。这使其在多个市场领域、应用场景和操作系统之间具备前所未有的灵活性。这种灵活性为Arm的合作伙伴提供了极大的选择空间,让他们在制定产品路线图和规划未来产品时,能够更加从容地适配不同应用场景的需求。
马健指出,软件生态一直是Arm聚焦的重点之一。过去几年中,Arm在物联网标准化方面推出了Arm SystemReady,希望在不同的物联网平台上可以支持各种主流软件和操作系统,确保“开机即用”。Arm SystemReady项目在全球的推广非常成功,目前已经累计颁发了超过了160张认证。在中国市场,去年11月Arm携手中科创达成立了中国大陆首个Arm SystemReady Devicetree合规实验室。该实验室融合了中科创达在操作系统和工程方面全方位的专业能力,以及Arm经过全球验证的SystemReady项目优势,为芯片厂商、OEM/ODM厂商 、系统集成商提供端到端的测试和技术支持服务,为智能设备启动固件的标准化,加速万物智能互联时代的到来。
结语
Arm的全新边缘AI计算平台不仅是一次技术革新,更是对未来智能物联网发展方向的前瞻布局。它通过Cortex-A320与Ethos-U85的深度结合,构建了一个高效、灵活、安全的计算生态,为大模型与生成式AI在物联网领域的落地提供强大支撑。
随着AI能力的不断提升,边缘计算将在智能制造、智慧城市、医疗健康等多个领域发挥更大作用。Arm坚信,AI的未来属于边缘,而边缘AI的未来,将由Arm引领。
责任编辑:admin
相关文章
-
- 半导体行业观察
-
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 安谋科技CEO陈锋出席夏季达沃斯论坛,分享科技突破新洞见
- 2 敢为人先,江北新政对集成电路产业发展的利好
- 3 Altera重返独立FPGA赛道,Agilex 3打响第一枪
- 4 创新加速,英特尔以全矩阵FPGA助产业智能化发展