具身智能,需要怎样的芯片?

2025-04-22 18:51:38 来源: 互联网
在刚过去的周末,北京举行了一场人形机器人马拉松。作为全球首场同类型赛事,北京的这场大赛自宣布以来便吸引了很多人的目光。尤其是在年初机器人大火以来,更让这个大赛关注度倍增。
 
然而,和大家期望相反,本届大赛的“参赛选手”让不少人大跌眼镜,这也让不少人直言对机器人“祛魅”。在笔者看来,除了软件算法以外,“大脑”和“小脑”也是决定机器人表现不好的另一个重要原因。
 
针对这些问题,英特尔在更早之前举办的一场“具身智能解决方案推介会”会上,分享了他们对包括人形机器人在内的具身智能控制的见解。
 
具身智能,想得很美好
 
作为一个近年来屡被提及的词,顾名思义,具身智能(Embodied Artificial Intelligence,简称 EAI)是一种将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。
 
由此可见,我们所说的具身智能,其实和文章开头谈到的人形机器人,并不是一个等同的概念:具身智能当然可以适用于人形机器人,但也适用于传统的工业机器人和AGV/AMR。
 
而且,正如英特尔技术专家所说,具身智能和人形机器人的发展并非如我们想象的那么科幻。这类机器人也很难在短期内实现洗碗、叠衣服、收拾房间、照顾老人等功能,其发展也将具备阶段性——会首先在工业领域落地并经过验证之后,再进一步推向服务业,最终推向生活。
 
在实际应用中,英特尔技术专家进步一步指出,终端用户希望具身智能或人形机器人能帮助解决产线上公认的难题,例如在3C行业测试、平板生产过程中贴膜、撕膜,或者3C组装中异形插件仍然需要手工插入等问题。
 
但实际情况是,因为几方面的原因,导致这并不是一个很容易就能落地的问题:
 
一方面是数据的匮乏。和数字化的AI不一样,如果需要用大模型去训练这种物理操作,不但需要视觉数据,还要收集运动速度、角度等数据。但是,这些数据目前相对匮乏;
 
另一方面是硬件层面的挑战。因为机器人的训练大多在虚拟环境中进行,从训练效果来看也很好。以搬运工作,我们认为机器人大脑可以规划出如何抓取筐子。但是,面对如何抓取非硬质的软物体,以及如何抓取非常脆弱的物体(如贴膜抓屏)需要多大力量等难题,还需要进一步研究。“所以,在硬件设计方面,我们还有很长的路要走,需要真正将AI和硬件很好地结合,才能真正实现具身智能。”英特尔技术专家说。
 
当然,计算方面的问题也是具身智能绕不开的。
 
英特尔技术也专家指出,关于具身智能的计算需求,人形机器人并非全新的应用领域。早在大型语言模型(LLM)出现之前,就已经有厂商在进行相关研发。目前的人形机器人架构也遵循传统的规划思路,算法也以传统方法为主,而这个阶段则被称为工业自动化阶段。
 
具体而言,该阶段的具体做法就是在感知层面,主要依赖传统计算机视觉(CV)、3D点云计算或深度学习网络来获取视觉信息,利用3D-SLAM技术实现定位导航,并通过Moveit等运动轨迹规划库实现双臂控制。全身平衡和步态控制则依赖于WBC(Whole-Body Control)等库。在底层,实时控制和更高频率的电机控制计算仍然是关键。
 
而随着大语言模型的出现,对具身智能的计算需求又进入到大模型阶段。此时,LLM和视觉模型迅速增强了具身智能的泛化能力。当中,大语言模型可以直接和机器人交互,实现任务编排,而视觉大模型则通过视觉泛化能力,提升机器人对环境的理解能力,理解更多信息,并为机器人操作提供关于未知物体的辅助信息。,值得一提的是,这迄今也成为了当前人形机器人的主流架构。
 
从去年下半年到今年,针对人形机器人,学术界和产业界开始对端到端模型投入了大量资源,具身智能的计算需求也进化到了端到端模型阶段。
 
按照英特尔专家所说,这种做法的核心在于之前的泛化主要集中在语言和视觉层面,但要真正实现机器人操作能力的泛化,则需要将动作、操作和运动等维度的数据也纳入训练,从而训练出一个统一的大模型。“端到端模型仍然面临诸多挑战,例如数据匮乏,尚未达到能够完全解决问题的阶段,此外,在速度、精度等方面也存在许多落地难题。”英特尔专家接着说。此外,机器人落地还面临确定性、安全性和成本问题。
 
针对这么多问题,英特尔正在从控制上,为行业提供新的解决方案。
 
单方案,破局之道
 
英特尔技术专家首先重申,工业自动化阶段、大模型阶段、端到端模型阶段三个阶段并不是互相替代的关系,也不是说以后全部都要端到端。因为在不同场景、不同应用需求下,不同架构有更好的优势和性价比,在不同应用中有不同的负载需求。
 
但可以明见的是,具身智能计算负载在过去的发展中历经了从人工设计算法慢慢转向到数据驱动模型的转变,计算也从CPU为主计算发展到CPU、GPU并重,甚至云端辅助。换而言之,进入到具身智能时代,同时需要CPU、GPU、AI算力。
 
英特尔技术专家进一步指出,市面上目前主流计算架构是大小脑融合架构。当中,小脑部分是以x86为主,包括英特尔12、13代酷睿,还有凌动N97、N305,小板子实现功耗和尺寸的优化;而大脑部分主流方案还是以其他厂商的产品为主。两个系统通过网络进行通信,最终实现双系统方案。
 
在英特尔看来,这样的解决方案是无奈之举,也带来很多设计挑战。
 
例如,双系统对于整个计算平台的功耗、尺寸、结构优化是有很大限制,不能像单系统那样进一步做极致优化;双系统还在时间同步、信息交互带宽限制和延迟方面带来影响;另外,双系统还带来了研发、维护、负载分配等难题,同时还会带来研发成本的上升。
 
浙江人形机器人创新中心首席科学家、浙江大学求是特聘教授熊蓉也指出,大小脑从硬件上分开就使得很难去做多传感器的融合。而且,现在的小脑也不纯粹只是一个执行控制,还要能执行像视觉伺服、视力伺服等操作,以对作业对象形成控制。“如果大小脑分开的话,一些传感器放在大脑上,它往下传就会面临信息过大,对带宽会有更高要求,还会带来延迟等挑战。”熊蓉补充说。
 
基于这个思考,英特尔认为,公司推出的酷睿Ultra产品线能够为具身智能带来创新。据介绍,在这颗处理器上,突破性地把CPU、GPU、NPU封装在一个SoC里面,让低功耗的SoC可以提供强劲的CPU算力、AI算力,满足了具身智能在绝大多数场景需求。
 
据介绍,英特尔这次发布的具身智能方案以大小脑融合为亮点,能够使感知、交互、任务规划和运动控制在统一的系统中实现高效整合。而作为其中的算力中枢,英特尔® 酷睿™ Ultra处理器通过CPU 、集成的英特尔锐炫™ GPU 与 NPU 协同运行,以高性能异构算力和高精度实时性能,支持具身智能的多样化负载稳定运行,同时也大幅提升具身智能系统的整体效率和响应能力。
 
其中,通过CPU 可以支持具身智能方案进行复杂的运动控制,集成的英特尔锐炫™ GPU用于具身智能处理环境感知、任务识别、任务规划、大语言模型(LLM)、视觉语言模型(VLM)和端到端模型等复杂任务,NPU 则承载语音识别、实时视觉处理、传感器数据分析等需长时间运行的 AI 任务。
 
英特尔技术专家接着说,因为不同系统之间通过共享内存来通信,这就让无论网络通信还是CPU内存和独显的显存通信都更稳定更快速。
 
来到能效方面,酷睿Ultra也能通过对28W-65W的支持,让开发者可以根据实际需求匹配功率实现更好的功效和续航。此外,单系统配合ODM设计还可以实现更小巧的尺寸、更低的成本以及更灵活的接口。当然,这种设计也能使软件研发、测试、优化与部署的整个开发成本显著降低。
 
正因为看中了英特尔单系统方案的优势,深圳信步科技基于Ultra 200系列处理器打造了HB03。据该公司副总经理叶志辉介绍,这个方案拥有更强大、更紧凑、更可靠和更灵活四个优势,非常适合具身智能行业的设备。
 
据介绍,因为有了96TOPS的本体算力,再加上英特尔显卡的加持,整个HB03能够支持的最大算力可达300TOPS,这让其可以实现大小脑的融合;来到尺寸方面,随着机器人越来越精巧,功能越来越强大,留给控制器的空间也越来越小。有见及此,信步为HB03带来厚度最小为53毫米的设计,使之能适配各种形态的机器人;通过对所有对外接口都采用了加固设计并重新设计,信步增加了其可靠性;至于灵活性,则得益于公司采用模块化设计的理念。
 
在英特尔中国边缘计算事业部行业解决方案高级总监李岩看来,人形机器人在未来会面临如何解决脑、手、脚等不同功能模块协同工作的问题,从多系统到单系统的整合也将是未来人形机器人发展的必然趋势。
 
在这种情况下,英特尔的单芯片方案发挥了重要作用。因为得益于其强大的实力,该芯片的部分核心可以用于运动控制,另一些核心则能用于视觉处理。
责任编辑:Ace

相关文章