算力要强、成本要降,英特尔和阿里云给出AI时代的答案
2025-09-30
15:20:21
来源: 杜芹
点击
在AI大模型的快速发展下,数据正以前所未有的速度汹涌而来。到2029年,全球数据中心的数据量将达到惊人的228.9ZB——相当于每一秒产生的数据量,等于20年前一整年的总和。这场真正意义上的“数据洪流”,正把算力、存力与网力推向极限。
问题是,如何在保障性能的同时,兼顾安全、效率与成本?这不仅是整个产业的共同命题,也是AI能否大规模落地的关键。
在9月25日的云栖大会英特尔专场上,英特尔中国区总经理郭威点明了现实压力与机会并存的行业图景:“模型不会‘停’,应用不会‘慢’,但成本必须‘降’。怎么用可负担得起的成本支持好AI,是整个行业必须直面的课题。”那么,在现实压力与机遇并存的背景下,英特尔和阿里云会给出怎样的答案?他们又将如何把前沿技术真正变成可负担、可规模化的AI生产力?

AI机头CPU:GPU的最佳搭档
在AI舞台上,CPU的最佳角色到底是什么?英特尔给出的答案是——主控(Host)。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立指出,市场和模型需求在快速演进,有的走向超大模型,有的更偏向小模型。CPU的通用性和弹性,使其始终是云计算的核心底座。
在大规模AI系统中,CPU是GPU集群的“机头”。英特尔数据中心及人工智能集团首席软件工程师谢义指出,至强6处理器凭借192条PCIe 5.0通道、最高8800MT/s内存性能,以及智能频率调度(PTC),成为业内顶级的AI Host。他强调:“英伟达的MGX、HGX都适配了至强6,不管是4卡、8卡还是16卡,都能找到对应机型。”
英特尔数据中心及人工智能集团首席工程师龚海峰强调,数据中心的六大关键诉求:AI性能、吞吐量与时延、安全与可靠、能效与TCO、可持续发展以及软件兼容性。
“很难通过一个单一产品满足所有需求,所以我们选择差异化的双核策略。”龚海峰解释。
全新的至强6处理器,形成了能效核与性能核的双核架构:能效核,为高密度横向扩展业务设计,提供领先的每瓦性能;性能核,面向计算密集型和AI类业务,提供业界领先的单核性能。
那么至强6为何能够担任“主控”如此重任呢?谢义的演讲中对此作出了解释。
数据预处理往往被忽视,却是AI系统的“隐形大头”。“有合作伙伴告诉我们,推理token花费每天只有10块,但数据预处理的成本高达几百元。”他解释,数据清洗、量化、语音转写等工作计算模式各异,GPU难以匹配,而至强6凭借可扩展性与AMX加速能力,能够在离线批量处理中展现巨大优势。在视频前处理场景中,英特尔与阿里提出“人脸区域重点增强”的方案,通过小模型检测人脸并用AMX超分处理,实现性能提升68倍;在自动驾驶测试中,至强6则凭借强缓存与主频优势,支撑极端场景生成。
谢义指出:“向量数据库是AI时代的基础设施,它让传统知识转化为AI可识别的数据。”至强6在FAISS、HNSW等典型向量搜索库上凭借AMX加速展现出显著提升,为RAG与Agent场景提供了底层支撑。
谢义强调到,至强6不是替代,而是“GPU的好帮手、好管家”。通过HeteroFlow方案,CPU与GPU可以高效协同,解决MoE专家模型对显存占用过大的问题:
l 在低配一体机中,单CPU+单GPU即可运行FP8满血推理;
l 在8卡系统中,CPU可接管部分“冷专家”,为GPU释放更多显存用于长上下文存储;
l 在万卡级集群中,CPU通过AMX分担部分计算,缓解瓶颈。
此外,英特尔还通过CacheClip + QAT技术,实现KV Cache的高效压缩与解压,加速大模型长上下文推理,减少首token延迟。
谢义总结道:“至强6不会取代其他组件,而是以AI Host CPU的角色,承担数据预处理、优化存储、驱动向量数据库,并协同GPU构建下一代AI基础设施。”
龚海峰还提前透露了即将发布的下一代能效核处理器Clearwater Forest。该产品基于Intel 18A工艺,支持DDR5-8000,相比上一代在单核性能与能效上都有显著提升,并可直接兼容至强6平台主板,进一步降低客户的部署成本。
阿里云把“工程细节”变成商品能力
所有这些“底座能力”,最终还是要回到“能不能快速变成商品、让更多客户用得起”。
在这方面,阿里云第九代ECS实例产品家族已经作出了表率。阿里云弹性计算产品负责人、存储产品负责人陈起鲲在会后的采访中表示,阿里云第九代ECS实例已于年初商用仅用100 天就破1万客户、150天破2万,目前接近3万。得益于英特尔生态的平滑迁移与我们产品优化,新代实例性能提升的同时价格更低。
同时,u2i实例也已正式商用,相较u1,性能最高提升40%,尽管目标价上调 5%,但性价比显著提升。对Tier-2 /后台业务等通用企业负载,u / u2i是更优选择。
阿里云智能集团弹性计算高级产品专家武双涛也表示:“阿里云九代实例是商业化速度最快的一代产品。”
阿里云第九代实例采用至强6性能核处理器,单颗CPU高达120核,支持DDR5与MRDIMM,内存带宽比上一代最高提升2.3倍;L3缓存达到504MB,比上一代提升50%,极大缓解缓存争抢。至强6内置的AMX、QAT等加速器,以及TDX安全特性,均已在实例产品中应用落地。“RST关核”特性成为云厂商最看重的创新之一。武双涛介绍:“120核处理器可根据需求灵活关核至96核或72核,既能提升主频性能,又能丰富产品组合。一颗CPU就能衍生出多款实例,统一资源池,增强客户的弹性选择能力。”
武双涛分享了几个典型案例,展示九代实例的产业价值:
小鹏汽车:利用AMX与FP16加速,PB级数据预处理成本大幅下降,模型迭代更快;
微帧科技:视频处理效率提升35%,AV1推理耗时减少50%,结合弹性策略整体成本下降60%;
海尔三翼鸟:5000万设备接入,平台性能提升40%,成本下降;
PolarDB数据库:AI推理直接内置数据库,DNN性能提升30%,Transformer性能提升50%;
莉莉丝远光84游戏:面对大规模实时对战需求,基于至强6的九代实例在算力与低延迟上提供强力支撑。
至强6赋能高可靠、高稳定存储
“算力是引擎,网络是血管,而存储则是数据的承载核心。”英特尔数据中心及人工智能集团资深存储架构师曹刚指出,在AI大潮下,存储面临四大核心挑战:容量、性能、可靠性与稳定性。如今单盘容量已从早期的1TB跃升至7.68TB甚至15.36TB,而随机I/O处理能力也从50万次提升到350万次,数据洪流正在全面考验存储基础设施的极限。
容量与性能之外,更重要的是高可靠与高稳定。曹刚强调,存储的本质是数据的安全与可用,而这离不开硬件、架构与软件的协同创新。
l 高可用互联:基于双路/双控架构,英特尔通过NTB硬件实现节点间快速复制,结合PCIe 5.0带来的32GB/s带宽,显著提升故障恢复与业务连续性。
l QAT加速压缩:至强6单颗CPU可配置最多4个QAT硬件模块,在压缩过程中不仅提升效率、节省CPU资源,还能实时校验数据,保障可靠性。
l CXL 2.0分层存储:借助持久化内存与内存池能力,数据可以根据冷热分布合理放置,形成“内存—CXL—存储”三层架构,兼顾性能与成本。
l DSA加速校验:单个DSA可实现每秒60GB的校验处理,将数据完整性任务从CPU剥离,提升整体存储性能与安全性。
l VMD智能管理:支持大规模多盘环境下的热插拔、故障隔离与LED管理,让单台服务器在配置8–24盘、容量达120TB的情况下仍能保持稳定运行。
至强6为磐久存储服务器提供了QAT与DSA两大核心能力:QAT在压缩、解压缩和加解密上实现性能功耗比的跃升,让网络与存储写放大问题得以缓解,同时节省CPU核心资源;DSA则通过内存拷贝与CRC校验的卸载,大幅减少CPU等待与算力损耗,提升存储的稳定性和利用率。借助这些特性,磐久AI高性能存储服务器在400Gb带宽下,能够支撑AI训练与推理的极致需求,同时兼容多类存储介质(SCM、TLC SSD、QLC SSD、HDD),实现灵活分层,提升热数据缓存效率。
更具前瞻意义的是CXL带来的内存新范式。传统“把内存焊在机器上”的方式,在长上下文、多轮对话、Coder与RAG愈发常态化后,越来越像一场“配额与碎片”的拉锯战。英特尔与阿里云在CXL持久化内存和CXL 2.0内存池方面已经实现了业界首个产品化落地。龚海峰介绍:“在至强6处理器上,我们和阿里使能了自研的AliSCM持久化内存,这一方案已经应用于高性能存储和数据库业务。”与此同时,基于阿里自研CXL交换机的内存池系统也已进入大规模部署阶段,标志着CXL技术从探索走向成熟应用。
机密计算:让数据“可用不可见”
“在使用模型服务的过程中,需要敏感数据在处理和访问过程中不发生外泄,这已经成为今天大模型服务和大模型应用进程中的一个关键挑战。”英特尔数据中心及人工智能集团首席工程师宋川指出。他提出的核心目标,是实现“数据的可用而不可见”。
英特尔在机密计算领域布局已久:包括在第三代至强中引入了SGX技术,为应用构建隔离的可用不可见环境;在第四、第五代至强中推出了TDX(可信域技术),支持完整虚拟化实例的机密执行,用户无需修改应用即可迁移到机密计算环境;在第六代至强中,进一步推出TDX Connect,使数据在CPU与异构加速器间能够安全高效协同,为AI大规模计算带来新的安全支撑。
宋川形象地解释道:“TDX技术既复杂又不复杂。复杂在于微架构层面做了大量改进;不复杂在于交付——用户几乎0代码修改就能将现有业务升级为机密计算。”
在技术特性上,TDX具备四大亮点:1)硬件级别的机密性保护:内存控制器集成加解密引擎,实现多租户环境下的数据隔离;2)虚拟机级别的可信执行环境:现有应用零修改即可运行在机密虚拟化实例中;3)异构协同:支持传统I/O加速器,并通过TDX Connect实现TEE I/O下的安全互通;4)最小化可信计算基(TCB):将TCB范围限定在处理器内核,减少对系统软件的依赖,降低安全构建成本,同时核心固件模块代码已开放,便于审计。
此次英特尔和阿里云双方发布的实例实现了一机八卡的DeepSeek满血部署,为AI推理和训练提供强有力的安全保障。英特尔与阿里在机密计算领域合作已久,从第四、第五代的通用计算实例,到第六代的异构机密计算实例,双方不断推动技术落地。
总结
阿里云资深架构师刘礼寅总结了与英特尔多年来的合作经验:“英特尔是一个非常有创新基因的公司。”他强调了四个方面:技术创新、产品稳定性、本地工程能力,以及体系化软硬件协同。正是这些基因,让双方能够在云实例、存储和CPU优化等多个领域快速推出落地成果。
站在AI浪潮之巅,英特尔与阿里云的合作证明,AI基础设施不再是单纯“堆料”,而是一门精打细算的系统工程。CPU回到机头位置,接住I/O、预处理与安全;CXL重塑内存范式,为长上下文与以存代算提供抓手;机密计算升级,成为云上AI的默认安全层;云厂商商品化能力,让性能、成本与可用性转化为客户可感知的价值。这套组合拳让“AI算力可负担”真正落地,并推动企业级AI加速走向普及。
问题是,如何在保障性能的同时,兼顾安全、效率与成本?这不仅是整个产业的共同命题,也是AI能否大规模落地的关键。
在9月25日的云栖大会英特尔专场上,英特尔中国区总经理郭威点明了现实压力与机会并存的行业图景:“模型不会‘停’,应用不会‘慢’,但成本必须‘降’。怎么用可负担得起的成本支持好AI,是整个行业必须直面的课题。”那么,在现实压力与机遇并存的背景下,英特尔和阿里云会给出怎样的答案?他们又将如何把前沿技术真正变成可负担、可规模化的AI生产力?

AI机头CPU:GPU的最佳搭档
在AI舞台上,CPU的最佳角色到底是什么?英特尔给出的答案是——主控(Host)。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立指出,市场和模型需求在快速演进,有的走向超大模型,有的更偏向小模型。CPU的通用性和弹性,使其始终是云计算的核心底座。
在大规模AI系统中,CPU是GPU集群的“机头”。英特尔数据中心及人工智能集团首席软件工程师谢义指出,至强6处理器凭借192条PCIe 5.0通道、最高8800MT/s内存性能,以及智能频率调度(PTC),成为业内顶级的AI Host。他强调:“英伟达的MGX、HGX都适配了至强6,不管是4卡、8卡还是16卡,都能找到对应机型。”
英特尔数据中心及人工智能集团首席工程师龚海峰强调,数据中心的六大关键诉求:AI性能、吞吐量与时延、安全与可靠、能效与TCO、可持续发展以及软件兼容性。
“很难通过一个单一产品满足所有需求,所以我们选择差异化的双核策略。”龚海峰解释。
全新的至强6处理器,形成了能效核与性能核的双核架构:能效核,为高密度横向扩展业务设计,提供领先的每瓦性能;性能核,面向计算密集型和AI类业务,提供业界领先的单核性能。
那么至强6为何能够担任“主控”如此重任呢?谢义的演讲中对此作出了解释。
数据预处理往往被忽视,却是AI系统的“隐形大头”。“有合作伙伴告诉我们,推理token花费每天只有10块,但数据预处理的成本高达几百元。”他解释,数据清洗、量化、语音转写等工作计算模式各异,GPU难以匹配,而至强6凭借可扩展性与AMX加速能力,能够在离线批量处理中展现巨大优势。在视频前处理场景中,英特尔与阿里提出“人脸区域重点增强”的方案,通过小模型检测人脸并用AMX超分处理,实现性能提升68倍;在自动驾驶测试中,至强6则凭借强缓存与主频优势,支撑极端场景生成。
谢义指出:“向量数据库是AI时代的基础设施,它让传统知识转化为AI可识别的数据。”至强6在FAISS、HNSW等典型向量搜索库上凭借AMX加速展现出显著提升,为RAG与Agent场景提供了底层支撑。
谢义强调到,至强6不是替代,而是“GPU的好帮手、好管家”。通过HeteroFlow方案,CPU与GPU可以高效协同,解决MoE专家模型对显存占用过大的问题:
l 在低配一体机中,单CPU+单GPU即可运行FP8满血推理;
l 在8卡系统中,CPU可接管部分“冷专家”,为GPU释放更多显存用于长上下文存储;
l 在万卡级集群中,CPU通过AMX分担部分计算,缓解瓶颈。
此外,英特尔还通过CacheClip + QAT技术,实现KV Cache的高效压缩与解压,加速大模型长上下文推理,减少首token延迟。
谢义总结道:“至强6不会取代其他组件,而是以AI Host CPU的角色,承担数据预处理、优化存储、驱动向量数据库,并协同GPU构建下一代AI基础设施。”
龚海峰还提前透露了即将发布的下一代能效核处理器Clearwater Forest。该产品基于Intel 18A工艺,支持DDR5-8000,相比上一代在单核性能与能效上都有显著提升,并可直接兼容至强6平台主板,进一步降低客户的部署成本。
阿里云把“工程细节”变成商品能力
所有这些“底座能力”,最终还是要回到“能不能快速变成商品、让更多客户用得起”。
在这方面,阿里云第九代ECS实例产品家族已经作出了表率。阿里云弹性计算产品负责人、存储产品负责人陈起鲲在会后的采访中表示,阿里云第九代ECS实例已于年初商用仅用100 天就破1万客户、150天破2万,目前接近3万。得益于英特尔生态的平滑迁移与我们产品优化,新代实例性能提升的同时价格更低。
同时,u2i实例也已正式商用,相较u1,性能最高提升40%,尽管目标价上调 5%,但性价比显著提升。对Tier-2 /后台业务等通用企业负载,u / u2i是更优选择。
阿里云智能集团弹性计算高级产品专家武双涛也表示:“阿里云九代实例是商业化速度最快的一代产品。”
阿里云第九代实例采用至强6性能核处理器,单颗CPU高达120核,支持DDR5与MRDIMM,内存带宽比上一代最高提升2.3倍;L3缓存达到504MB,比上一代提升50%,极大缓解缓存争抢。至强6内置的AMX、QAT等加速器,以及TDX安全特性,均已在实例产品中应用落地。“RST关核”特性成为云厂商最看重的创新之一。武双涛介绍:“120核处理器可根据需求灵活关核至96核或72核,既能提升主频性能,又能丰富产品组合。一颗CPU就能衍生出多款实例,统一资源池,增强客户的弹性选择能力。”
武双涛分享了几个典型案例,展示九代实例的产业价值:
小鹏汽车:利用AMX与FP16加速,PB级数据预处理成本大幅下降,模型迭代更快;
微帧科技:视频处理效率提升35%,AV1推理耗时减少50%,结合弹性策略整体成本下降60%;
海尔三翼鸟:5000万设备接入,平台性能提升40%,成本下降;
PolarDB数据库:AI推理直接内置数据库,DNN性能提升30%,Transformer性能提升50%;
莉莉丝远光84游戏:面对大规模实时对战需求,基于至强6的九代实例在算力与低延迟上提供强力支撑。
至强6赋能高可靠、高稳定存储
“算力是引擎,网络是血管,而存储则是数据的承载核心。”英特尔数据中心及人工智能集团资深存储架构师曹刚指出,在AI大潮下,存储面临四大核心挑战:容量、性能、可靠性与稳定性。如今单盘容量已从早期的1TB跃升至7.68TB甚至15.36TB,而随机I/O处理能力也从50万次提升到350万次,数据洪流正在全面考验存储基础设施的极限。
容量与性能之外,更重要的是高可靠与高稳定。曹刚强调,存储的本质是数据的安全与可用,而这离不开硬件、架构与软件的协同创新。
l 高可用互联:基于双路/双控架构,英特尔通过NTB硬件实现节点间快速复制,结合PCIe 5.0带来的32GB/s带宽,显著提升故障恢复与业务连续性。
l QAT加速压缩:至强6单颗CPU可配置最多4个QAT硬件模块,在压缩过程中不仅提升效率、节省CPU资源,还能实时校验数据,保障可靠性。
l CXL 2.0分层存储:借助持久化内存与内存池能力,数据可以根据冷热分布合理放置,形成“内存—CXL—存储”三层架构,兼顾性能与成本。
l DSA加速校验:单个DSA可实现每秒60GB的校验处理,将数据完整性任务从CPU剥离,提升整体存储性能与安全性。
l VMD智能管理:支持大规模多盘环境下的热插拔、故障隔离与LED管理,让单台服务器在配置8–24盘、容量达120TB的情况下仍能保持稳定运行。
至强6为磐久存储服务器提供了QAT与DSA两大核心能力:QAT在压缩、解压缩和加解密上实现性能功耗比的跃升,让网络与存储写放大问题得以缓解,同时节省CPU核心资源;DSA则通过内存拷贝与CRC校验的卸载,大幅减少CPU等待与算力损耗,提升存储的稳定性和利用率。借助这些特性,磐久AI高性能存储服务器在400Gb带宽下,能够支撑AI训练与推理的极致需求,同时兼容多类存储介质(SCM、TLC SSD、QLC SSD、HDD),实现灵活分层,提升热数据缓存效率。
更具前瞻意义的是CXL带来的内存新范式。传统“把内存焊在机器上”的方式,在长上下文、多轮对话、Coder与RAG愈发常态化后,越来越像一场“配额与碎片”的拉锯战。英特尔与阿里云在CXL持久化内存和CXL 2.0内存池方面已经实现了业界首个产品化落地。龚海峰介绍:“在至强6处理器上,我们和阿里使能了自研的AliSCM持久化内存,这一方案已经应用于高性能存储和数据库业务。”与此同时,基于阿里自研CXL交换机的内存池系统也已进入大规模部署阶段,标志着CXL技术从探索走向成熟应用。
机密计算:让数据“可用不可见”
“在使用模型服务的过程中,需要敏感数据在处理和访问过程中不发生外泄,这已经成为今天大模型服务和大模型应用进程中的一个关键挑战。”英特尔数据中心及人工智能集团首席工程师宋川指出。他提出的核心目标,是实现“数据的可用而不可见”。
英特尔在机密计算领域布局已久:包括在第三代至强中引入了SGX技术,为应用构建隔离的可用不可见环境;在第四、第五代至强中推出了TDX(可信域技术),支持完整虚拟化实例的机密执行,用户无需修改应用即可迁移到机密计算环境;在第六代至强中,进一步推出TDX Connect,使数据在CPU与异构加速器间能够安全高效协同,为AI大规模计算带来新的安全支撑。
宋川形象地解释道:“TDX技术既复杂又不复杂。复杂在于微架构层面做了大量改进;不复杂在于交付——用户几乎0代码修改就能将现有业务升级为机密计算。”
在技术特性上,TDX具备四大亮点:1)硬件级别的机密性保护:内存控制器集成加解密引擎,实现多租户环境下的数据隔离;2)虚拟机级别的可信执行环境:现有应用零修改即可运行在机密虚拟化实例中;3)异构协同:支持传统I/O加速器,并通过TDX Connect实现TEE I/O下的安全互通;4)最小化可信计算基(TCB):将TCB范围限定在处理器内核,减少对系统软件的依赖,降低安全构建成本,同时核心固件模块代码已开放,便于审计。
此次英特尔和阿里云双方发布的实例实现了一机八卡的DeepSeek满血部署,为AI推理和训练提供强有力的安全保障。英特尔与阿里在机密计算领域合作已久,从第四、第五代的通用计算实例,到第六代的异构机密计算实例,双方不断推动技术落地。
总结
阿里云资深架构师刘礼寅总结了与英特尔多年来的合作经验:“英特尔是一个非常有创新基因的公司。”他强调了四个方面:技术创新、产品稳定性、本地工程能力,以及体系化软硬件协同。正是这些基因,让双方能够在云实例、存储和CPU优化等多个领域快速推出落地成果。
站在AI浪潮之巅,英特尔与阿里云的合作证明,AI基础设施不再是单纯“堆料”,而是一门精打细算的系统工程。CPU回到机头位置,接住I/O、预处理与安全;CXL重塑内存范式,为长上下文与以存代算提供抓手;机密计算升级,成为云上AI的默认安全层;云厂商商品化能力,让性能、成本与可用性转化为客户可感知的价值。这套组合拳让“AI算力可负担”真正落地,并推动企业级AI加速走向普及。
责任编辑:duqin
相关文章
-
- 半导体行业观察
-
- 摩尔芯闻