光计算芯片,Roadster时刻
2025-04-08
10:10:15
来源: 互联网
点击
2006 年 7 月 19 日,特斯拉在加州首次向大众披露Roadster的原型。
作为一款基于Lotus Elise打造的跑车,Roadster从外形上看极具跑车范。但对这款起售价为98000 美元的车来说,最不值得一提的就是它的外形。虽然并不是第一款电动车,但从某种意义上看,正是从这款汽车开始,我们进入了轰轰烈烈的电动车时代。
现在,芯片行业,也迎来了“Roadster”时刻。
曦智科技创始人兼首席执行官沈亦晨博士在早前的一场发布会中说,在过去40-50年,整个集成电路(或者算力)行业在正式商业化上一直没有离开用电来做计算,也没有任何脱离电的计算类产品能在商业上实现应用。
“伴随着‘天枢’的发布,我们认为光计算行业进入Roadster时代。”沈亦晨博士说。
传统芯片,力不从心
摩尔定律失效,这已经是一个老生常谈的话题了。从某种程度上说,这可能是一个既定事实了,虽然英特尔一直在为其辩解。也有不少厂商在为其续命找到了各种各样的办法。但可以肯定的是,我们最早些年所遵循的摩尔定律,已经不复存在了。
尤其是在过去两三年里,人工智能发展带来模型急剧变大,随之带来对于算力需求的提升——每4-6个月会翻一倍。这就让在过去几十年一直充当算力的电芯片捉襟见肘。
沈亦晨博士也表示,摩尔定律的延续超过了60年,过去每18到24个月算力就可以翻一倍,或者晶体管密度可以翻一倍。但从7纳米往后,虽然制程仍然在不断变小,但是单位面积实质算力提升速度是在慢慢减缓,每一代制程所要提升花的时间也在增加。
基于现状,沈亦晨博士做出两个判断:一方面,未来十年人工智能是最重要的一件事情,其对于算力需求在加速增长;另一方面,算力提供越来越捉襟见肘,算力从底层就开始碰到限制。
“这就会造成一个结果——人工智能发展被算力所限制住。”沈亦晨博士强调。他进一步指出,面对这个局面,会有两条不同的创新路线:
第一条是存算一体的创新路线;
据介绍,这条路线可划分为近存计算和存内计算两类。具体做法就是通过把存储单元放在计算逻辑芯片上方或者与计算逻辑芯片放在同一颗芯片,以减少存储和计算之间的数据搬运所要消耗的成本。这一类创新本质上解决的是存储和计算之间带宽和数据搬运的问题。
第二条路线是通过非GPU的架构来解决算力碰到的问题;
这条路线的方式是通过把芯片上的晶体管进行重新排列,让AI产品重新定制计算核的形式,以此提高晶体管在计算时的利用率。如美国Sambanova公司的流式计算架构和谷歌TPU专用的ASIC架构就是其中的典型代表。
目前,这两种创新路线协助了非常多的企业和公司去应对摩尔定律的限制。
“但从本质上看,这种方式解决的是存储带宽问题和晶体管使用率问题,并不解决数字芯片最根本的晶体管数量问题,或者绝对算力的问题。换而言之,晶体管密度最终还是会碰到一样的问题。”沈亦晨博士强调。
于是,沈亦晨博士创立并担任CEO的曦智科技提出了“光电混合算力”新范式,希望能以此解决晶体管或者代替晶体管解决单位面积的绝对算力问题。
“其实近存计算架构或者流式架构同样可以在光电混合计算芯片上,选择近存计算路线或者光电混合路线,光电混合也可以做近存计算或AI流式计算,所以它是更底层的技术突破。”沈亦晨博士表示。在他看来,之所以光电混合计算能从基本层面突破晶体管的限制,主要是由以下本质原因决定的。
“晶体管之所以不能进一步提高单位面积的绝对计算密度,主要原因在于登纳德缩放比例失效。也就是说,把晶体管做小,就会碰到量子极限的隧穿效应,导致芯片碰上难以克服的过热问题。但光无论以什么主频运行,都不会产生热量。”沈亦晨博士说。
天枢问世,开启新时代
如文章开头所说,沈亦晨博士认为,随着公司新一代的“光电混合算力”方案“曦智天枢”的问世,光芯片正式进入新时代。
“我们的光子计算技术主要用于解决现在一部分矩阵计算,或者低精度矩阵计算,目前还没有解决用光来做高速读取存储功能。在我们计算架构里面,光芯片和电芯片也是以一种完全原创的新架构实现——3D堆叠在一起用来做紧密的配合。”沈亦晨博士强调。
据曦智科技联合创始人、首席技术官孟怀宇博士介绍,公司推出的光电混合计算卡产品——“曦智天枢”是一个标准全高全长的PCle计算卡,其核心就是公司自研的光芯片以及电芯片等组件。值得一提的是,这个计算卡是光计算领域全球首次实现真正商用复杂AI算法的支持,特别是ResNet50。
在问到为什么可以做到这一点时,孟怀宇博士表示,这主要是因为曦智科技在这个产品上集成了公司很多的物理层创新和软件创新,让支持复杂的算法成为可能。具体而言,则可以从其光芯片和电芯片分别讨论。
首先看光芯片方面,据介绍,曦智天枢系统里面的光芯片主要由oMAC(Optical Multiply Accumulate)光子矩阵计算组成,主要处理的是整数运算任务。作为一种用光子替代传统电子进行数据处理的模拟计算,oMAC可显著提升单节点内算力。光子矩阵计算通过光的强度或相位模拟数字信号,在光信号通过光学矩阵的同时完成计算,不消耗额外的能量。oMAC 执行的线性运算亦可理解为矩阵-矩阵或矩阵-向量之间的乘法。
至于电芯片,则是公司自定义的一颗ASIC,主要处理的是浮点运算任务。
孟怀宇博士透露,通过先进的封装方法,曦智科技在“曦智天枢”的光芯片上集成了超过4万个光子器件,其矩阵尺寸达到128×128,光计算面积600平方毫米,这接近于整个光照最大面积800平方毫米的状态。
“因为面积够大,先进封装光子器件数量多,所以做光电融合时,这两个芯片带宽可以做到非常大。因为它是3D堆叠的,所以延迟特别低,使得其在某些算法上的处理速度较之GPU电芯片有几十倍的提升,从而可以支持一个复杂的商用算法。”孟怀宇博士告诉半导体行业观察。“这应该是全球首次在600平方毫米这么大面积上实现3D堆叠,并且成功跑起来的案例。”孟怀宇博士强调。
在具体实践中,据孟怀宇博士介绍,在把电芯片和光芯片3D堆叠以后,曦智科技还在光芯片里面打了很多孔,使得可以从基板通过硅通孔给上面的点芯片垂直供电,同时控制上面电芯片。通过这样的方式,就可以使得有数万个器件同时控制。
“我们团队认为,这种光的计算方式,在目前来说是最接近至少可以部分代替电来做计算的技术。而且,我们的芯片也达到可以量产的状态,‘曦智天枢’也可以直接插到现有服务器里面。我们目标是让光计算尽快能够商业化,在商业场景里用起来。”沈亦晨博士补充说。
总而言之,得益于其本身的特性,这个光芯片拥有很强的光计算并行能力,在能效方面则媲美甚至更优于电计算,延迟也抄底。又因为这是一个硅光工艺制造的芯片,这让其在工艺制程和成本方面,较之传统硅芯片更低。
生态共赢,光电共进
为了更好地将这个“光电混合算力”解决方案应用起来,除了在底层硬件上创新以外,曦智科技在该方案的软件层面上也做了很多工作。
以ResNet50的实现为例,孟怀宇博士说,你不可能将其手动编程到“曦智天枢”系统里去,我们必然要把它接入商用编程框架,让上层可以支持pytorch等流行编程语言。有见及此,曦智科技在这个方案的上层提供了编译器,并做了各种编译工作。至于底层与硬件直接相关的(像驱动部件和模拟器)部分,也是公司软硬件团队一起开发的,因为只有这样做,才有可能在硬件能上面部署一个比较复杂的算力。
“尤其值得一提的是我们这个模拟器,在我们看来,这对于自身研发和应用开展非常有价值。”孟怀宇博士告诉半导体行业观察。他表示,因为“光电混合算力”解决方案是一个模拟的器件,其具体性能、功能和精度很难被一两个简单数字所描述,实测出来的单个器件性能、系统性能实际值的模拟可能也是不完美的。而我们把不完美的部分放到模拟器中,然后再模拟器上开发算法,这样你能看到真正的精度。
“例如以ResNet50做人脸识别,我们有很多量化的工作需要做。但你怎么知道量化得好不好?这时候就可以使用我们的模拟器来告诉你这样做量化以后精度是否足够好。”孟怀宇博士说。
其实对于光计算芯片来说,不止上述问题,例如关于算力如何定义,就会引致不同路线的不同说法。针对这个问题,曦智科技提出了一个概念,把算力和一些认为重要的参数融合在一起变成性能指数。最终得出以下公式:
等效光算力(EOPP) = 峰值算力(TOPs) x 2输出精度 x 权重刷新(GHz)。
孟怀宇博士介绍说,因为光计算本质上是个模拟计算,其输出精度会带来巨大的代价,但也会带来巨大的好处。因此,如果算力输出只有一个bit,那么算法就非常受限。但是如果输出Bit数多,算法就会有很大的优势(备注:曦智科技的方案是8 个bit)。
还有一个重要参数是模型刷新的权重,这也对算法开发有重要影响。以摄像机镜头类比,它不能编程,相当于是固定的权重概念。它的算力也可以很高,但没用,因为你因为无法对它进行编程,所以不能在一个摄像机镜头上跑ResNet50。
基于这点思考,曦智科技想把这个权重刷新频率也作为一个参数放进这个公式里,并全部相乘,以得出一个对光计算落地更有参考价值的数字,而不是单独看峰值算力。根据这个公式,曦智科技在新一代的产品上得出了84的数值,这较之上一代产品有4倍的提升。
在这些软硬件的支持下,曦智科技的天枢已经获得了三个案例实践,包括像EDA系统中的优化、量化交易和银行安全中的识别工作。现在也已经有客户能够开始使用这个产品。展望未来,曦智科技也将探索在其他更多场景下基于这个系统开发应用,把它用得更广。
在谈到未来发展时,沈亦晨博士说,公司会持续推动把光芯片做大,公司同时也在探索将光源集成到整个系统方案中。但在这个过程中,还有很多问题亟待解决。与此同时,曦智科技还在加紧在节点内和跨节点的光互连方法,以增大光芯片的能力,为芯片应用在更多市场提供可能。
据了解,曦智科技的单节点内的互连技术叫做oNOC (Optical Network on Chip),是一种通过用光波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC)内不同单元间的高速数据传输,及同一封装内部多个电芯片 (EIC) 之间的高速数据通信。这种技术的优势是:1)高带宽、低能耗、低延迟、距离不敏感;2)通用性强,可实现不同类型的电子芯片间高速、低能耗的互连,从而有效扩大芯片面积,提升单节点性能;3)适用于任何有高带宽需求的应用场景,使计算架构设计更灵活,实现更复杂的拓扑结构,优化提升系统利用率。
oNET(Optical inter-chip Networking)则是一种片间光网络技术,以实现多节点间的光互连技术,使光芯片起到类似 optical BUS 的作用,将同一单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。具备高带宽,低延迟,高能效比,有效提升数据中心内不同计算硬件的工作负载效率以及对传输距离不敏感,赋能可重构解耦架构数据中心的资源池化和横向扩展等优势。
“光计算是一条非常激动人心的赛道,我们希望可以把大家聚拢到正确的方向一起努力,把光计算用起来。这是曦智科技的初心。”沈亦晨博士总结说。
在笔者看来,这也是光芯片从业者的共同目标。
作为一款基于Lotus Elise打造的跑车,Roadster从外形上看极具跑车范。但对这款起售价为98000 美元的车来说,最不值得一提的就是它的外形。虽然并不是第一款电动车,但从某种意义上看,正是从这款汽车开始,我们进入了轰轰烈烈的电动车时代。
现在,芯片行业,也迎来了“Roadster”时刻。
曦智科技创始人兼首席执行官沈亦晨博士在早前的一场发布会中说,在过去40-50年,整个集成电路(或者算力)行业在正式商业化上一直没有离开用电来做计算,也没有任何脱离电的计算类产品能在商业上实现应用。
“伴随着‘天枢’的发布,我们认为光计算行业进入Roadster时代。”沈亦晨博士说。
传统芯片,力不从心
摩尔定律失效,这已经是一个老生常谈的话题了。从某种程度上说,这可能是一个既定事实了,虽然英特尔一直在为其辩解。也有不少厂商在为其续命找到了各种各样的办法。但可以肯定的是,我们最早些年所遵循的摩尔定律,已经不复存在了。
尤其是在过去两三年里,人工智能发展带来模型急剧变大,随之带来对于算力需求的提升——每4-6个月会翻一倍。这就让在过去几十年一直充当算力的电芯片捉襟见肘。
沈亦晨博士也表示,摩尔定律的延续超过了60年,过去每18到24个月算力就可以翻一倍,或者晶体管密度可以翻一倍。但从7纳米往后,虽然制程仍然在不断变小,但是单位面积实质算力提升速度是在慢慢减缓,每一代制程所要提升花的时间也在增加。
基于现状,沈亦晨博士做出两个判断:一方面,未来十年人工智能是最重要的一件事情,其对于算力需求在加速增长;另一方面,算力提供越来越捉襟见肘,算力从底层就开始碰到限制。
“这就会造成一个结果——人工智能发展被算力所限制住。”沈亦晨博士强调。他进一步指出,面对这个局面,会有两条不同的创新路线:
第一条是存算一体的创新路线;
据介绍,这条路线可划分为近存计算和存内计算两类。具体做法就是通过把存储单元放在计算逻辑芯片上方或者与计算逻辑芯片放在同一颗芯片,以减少存储和计算之间的数据搬运所要消耗的成本。这一类创新本质上解决的是存储和计算之间带宽和数据搬运的问题。
第二条路线是通过非GPU的架构来解决算力碰到的问题;
这条路线的方式是通过把芯片上的晶体管进行重新排列,让AI产品重新定制计算核的形式,以此提高晶体管在计算时的利用率。如美国Sambanova公司的流式计算架构和谷歌TPU专用的ASIC架构就是其中的典型代表。
目前,这两种创新路线协助了非常多的企业和公司去应对摩尔定律的限制。
“但从本质上看,这种方式解决的是存储带宽问题和晶体管使用率问题,并不解决数字芯片最根本的晶体管数量问题,或者绝对算力的问题。换而言之,晶体管密度最终还是会碰到一样的问题。”沈亦晨博士强调。
于是,沈亦晨博士创立并担任CEO的曦智科技提出了“光电混合算力”新范式,希望能以此解决晶体管或者代替晶体管解决单位面积的绝对算力问题。
“其实近存计算架构或者流式架构同样可以在光电混合计算芯片上,选择近存计算路线或者光电混合路线,光电混合也可以做近存计算或AI流式计算,所以它是更底层的技术突破。”沈亦晨博士表示。在他看来,之所以光电混合计算能从基本层面突破晶体管的限制,主要是由以下本质原因决定的。
“晶体管之所以不能进一步提高单位面积的绝对计算密度,主要原因在于登纳德缩放比例失效。也就是说,把晶体管做小,就会碰到量子极限的隧穿效应,导致芯片碰上难以克服的过热问题。但光无论以什么主频运行,都不会产生热量。”沈亦晨博士说。
天枢问世,开启新时代
如文章开头所说,沈亦晨博士认为,随着公司新一代的“光电混合算力”方案“曦智天枢”的问世,光芯片正式进入新时代。
“我们的光子计算技术主要用于解决现在一部分矩阵计算,或者低精度矩阵计算,目前还没有解决用光来做高速读取存储功能。在我们计算架构里面,光芯片和电芯片也是以一种完全原创的新架构实现——3D堆叠在一起用来做紧密的配合。”沈亦晨博士强调。
据曦智科技联合创始人、首席技术官孟怀宇博士介绍,公司推出的光电混合计算卡产品——“曦智天枢”是一个标准全高全长的PCle计算卡,其核心就是公司自研的光芯片以及电芯片等组件。值得一提的是,这个计算卡是光计算领域全球首次实现真正商用复杂AI算法的支持,特别是ResNet50。
在问到为什么可以做到这一点时,孟怀宇博士表示,这主要是因为曦智科技在这个产品上集成了公司很多的物理层创新和软件创新,让支持复杂的算法成为可能。具体而言,则可以从其光芯片和电芯片分别讨论。
首先看光芯片方面,据介绍,曦智天枢系统里面的光芯片主要由oMAC(Optical Multiply Accumulate)光子矩阵计算组成,主要处理的是整数运算任务。作为一种用光子替代传统电子进行数据处理的模拟计算,oMAC可显著提升单节点内算力。光子矩阵计算通过光的强度或相位模拟数字信号,在光信号通过光学矩阵的同时完成计算,不消耗额外的能量。oMAC 执行的线性运算亦可理解为矩阵-矩阵或矩阵-向量之间的乘法。
至于电芯片,则是公司自定义的一颗ASIC,主要处理的是浮点运算任务。
孟怀宇博士透露,通过先进的封装方法,曦智科技在“曦智天枢”的光芯片上集成了超过4万个光子器件,其矩阵尺寸达到128×128,光计算面积600平方毫米,这接近于整个光照最大面积800平方毫米的状态。
“因为面积够大,先进封装光子器件数量多,所以做光电融合时,这两个芯片带宽可以做到非常大。因为它是3D堆叠的,所以延迟特别低,使得其在某些算法上的处理速度较之GPU电芯片有几十倍的提升,从而可以支持一个复杂的商用算法。”孟怀宇博士告诉半导体行业观察。“这应该是全球首次在600平方毫米这么大面积上实现3D堆叠,并且成功跑起来的案例。”孟怀宇博士强调。
在具体实践中,据孟怀宇博士介绍,在把电芯片和光芯片3D堆叠以后,曦智科技还在光芯片里面打了很多孔,使得可以从基板通过硅通孔给上面的点芯片垂直供电,同时控制上面电芯片。通过这样的方式,就可以使得有数万个器件同时控制。
“我们团队认为,这种光的计算方式,在目前来说是最接近至少可以部分代替电来做计算的技术。而且,我们的芯片也达到可以量产的状态,‘曦智天枢’也可以直接插到现有服务器里面。我们目标是让光计算尽快能够商业化,在商业场景里用起来。”沈亦晨博士补充说。
总而言之,得益于其本身的特性,这个光芯片拥有很强的光计算并行能力,在能效方面则媲美甚至更优于电计算,延迟也抄底。又因为这是一个硅光工艺制造的芯片,这让其在工艺制程和成本方面,较之传统硅芯片更低。
生态共赢,光电共进
为了更好地将这个“光电混合算力”解决方案应用起来,除了在底层硬件上创新以外,曦智科技在该方案的软件层面上也做了很多工作。
以ResNet50的实现为例,孟怀宇博士说,你不可能将其手动编程到“曦智天枢”系统里去,我们必然要把它接入商用编程框架,让上层可以支持pytorch等流行编程语言。有见及此,曦智科技在这个方案的上层提供了编译器,并做了各种编译工作。至于底层与硬件直接相关的(像驱动部件和模拟器)部分,也是公司软硬件团队一起开发的,因为只有这样做,才有可能在硬件能上面部署一个比较复杂的算力。
“尤其值得一提的是我们这个模拟器,在我们看来,这对于自身研发和应用开展非常有价值。”孟怀宇博士告诉半导体行业观察。他表示,因为“光电混合算力”解决方案是一个模拟的器件,其具体性能、功能和精度很难被一两个简单数字所描述,实测出来的单个器件性能、系统性能实际值的模拟可能也是不完美的。而我们把不完美的部分放到模拟器中,然后再模拟器上开发算法,这样你能看到真正的精度。
“例如以ResNet50做人脸识别,我们有很多量化的工作需要做。但你怎么知道量化得好不好?这时候就可以使用我们的模拟器来告诉你这样做量化以后精度是否足够好。”孟怀宇博士说。
其实对于光计算芯片来说,不止上述问题,例如关于算力如何定义,就会引致不同路线的不同说法。针对这个问题,曦智科技提出了一个概念,把算力和一些认为重要的参数融合在一起变成性能指数。最终得出以下公式:
等效光算力(EOPP) = 峰值算力(TOPs) x 2输出精度 x 权重刷新(GHz)。
孟怀宇博士介绍说,因为光计算本质上是个模拟计算,其输出精度会带来巨大的代价,但也会带来巨大的好处。因此,如果算力输出只有一个bit,那么算法就非常受限。但是如果输出Bit数多,算法就会有很大的优势(备注:曦智科技的方案是8 个bit)。
还有一个重要参数是模型刷新的权重,这也对算法开发有重要影响。以摄像机镜头类比,它不能编程,相当于是固定的权重概念。它的算力也可以很高,但没用,因为你因为无法对它进行编程,所以不能在一个摄像机镜头上跑ResNet50。
基于这点思考,曦智科技想把这个权重刷新频率也作为一个参数放进这个公式里,并全部相乘,以得出一个对光计算落地更有参考价值的数字,而不是单独看峰值算力。根据这个公式,曦智科技在新一代的产品上得出了84的数值,这较之上一代产品有4倍的提升。
在这些软硬件的支持下,曦智科技的天枢已经获得了三个案例实践,包括像EDA系统中的优化、量化交易和银行安全中的识别工作。现在也已经有客户能够开始使用这个产品。展望未来,曦智科技也将探索在其他更多场景下基于这个系统开发应用,把它用得更广。
在谈到未来发展时,沈亦晨博士说,公司会持续推动把光芯片做大,公司同时也在探索将光源集成到整个系统方案中。但在这个过程中,还有很多问题亟待解决。与此同时,曦智科技还在加紧在节点内和跨节点的光互连方法,以增大光芯片的能力,为芯片应用在更多市场提供可能。
据了解,曦智科技的单节点内的互连技术叫做oNOC (Optical Network on Chip),是一种通过用光波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC)内不同单元间的高速数据传输,及同一封装内部多个电芯片 (EIC) 之间的高速数据通信。这种技术的优势是:1)高带宽、低能耗、低延迟、距离不敏感;2)通用性强,可实现不同类型的电子芯片间高速、低能耗的互连,从而有效扩大芯片面积,提升单节点性能;3)适用于任何有高带宽需求的应用场景,使计算架构设计更灵活,实现更复杂的拓扑结构,优化提升系统利用率。
oNET(Optical inter-chip Networking)则是一种片间光网络技术,以实现多节点间的光互连技术,使光芯片起到类似 optical BUS 的作用,将同一单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。具备高带宽,低延迟,高能效比,有效提升数据中心内不同计算硬件的工作负载效率以及对传输距离不敏感,赋能可重构解耦架构数据中心的资源池化和横向扩展等优势。
“光计算是一条非常激动人心的赛道,我们希望可以把大家聚拢到正确的方向一起努力,把光计算用起来。这是曦智科技的初心。”沈亦晨博士总结说。
在笔者看来,这也是光芯片从业者的共同目标。
责任编辑:Ace