英特尔:如何在大规模制造中扩展 AI?

2026-04-10 11:15:38 来源: EEtimes
点击
人工智能长期以来一直植根于半导体制造中,悄然支持着检测工具、统计过程控制和良率分析。正在发生变化的不仅仅是人工智能的存在,而是其运行角色。随着器件架构变得更加复杂且工艺窗口不断收窄,人工智能正日益成为维持先进晶圆厂运行的核心基础设施的一部分。
 
在英特尔代工(Intel Foundry),这种转变在内部被描述为从孤立的分析转向公司所称的“大规模应用智能”。其重点不在于实验模型,而是在于贯穿整个制造流程持续运行的生产系统。
 
“我们在各处都使用人工智能,”英特尔代工数据分析与人工智能高级总监 Rao Desineni 表示。“无论是缺陷检测、调度与派遣、利用数据寻找良率问题的根本原因,还是异常检测,人工智能都应用在其中的每一个步骤。”


 
端到端的可视化驱动部署
 
英特尔的方法在一定程度上受其作为整合元件制造商(IDM)悠久历史的影响。与视野可能较为碎片化的纯代工厂不同,英特尔的人工智能组织横跨整个生产链,从早期技术开发到大批量制造、先进封装以及最终测试。
 
Desineni 领导着一个约 300 人的组织,由数据科学家、软件工程师和数据工程师组成,负责托管半导体制造数据,并在整个工厂网络中构建人工智能驱动的解决方案。该数据环境的规模扩张迅速。“它已经增长到我们存储的数拍字节(PB)级数据,”他说道。
 
英特尔代工的 Rao Desineni。
 
这种广度使得英特尔能够将机器学习应用于晶圆厂内的多个切入点。自动缺陷分类、预测性良率分析、异常检测和调度优化都是活跃领域。但该公司最成熟且在经济上最具影响力的部署,往往集中在工艺流程的早期阶段预测故障。
 
英特尔最成熟的人工智能应用之一是预测性芯片筛选,内部将其描述为“N−1/N+1”理念。这个想法简单但强大:在昂贵的封装步骤发生之前,利用上游信号预测下游故障。
 
在现代制造中,一片晶圆可能通过了电性测试,但仍包含边缘化的芯片,这些芯片随后会在压力下失效。Desineni 将这些称为“行走伤员”部件。随着先进的多芯片封装出现,风险进一步升高,在多芯片封装中,单个失效的芯片可能导致整个封装报废。
 
“当封装中(假设有)10 个芯片里的一个失效时,剩下的 9 个也会被扔掉,”他说。“那是附带损失。”
 
英特尔的模型分析上游工艺数据、晶圆分选结果和历史行为,在疑似芯片进入昂贵的封装流程之前将其标记出来。挑战不仅在于预测的准确性,还在于经济优化。这个问题变成了 Desineni 所描述的“一个非常美妙的约束优化”,即在质量提升与不必要的报废之间取得平衡。
 
这项技术本身并不新鲜,但随着数据量的增长和器件架构的日益复杂,其规模和集成度已有所扩展。如果说预测性芯片筛选展示了回报,那么底层的数据环境则解释了为什么在晶圆厂部署人工智能仍然异常困难。
 
一片英特尔酷睿 Ultra 第 3 代处理器晶圆(来源:英特尔公司)
 
据 Desineni 称,半导体制造产生的数据集极度不平衡。一颗现代芯片可能包含数十亿个晶体管,然而只有极小比例的失效决定了良率。“可能只有不到 0.1% 的数据是坏的;其余所有都是好的,”他说道,并指出了可用于训练的失效样本非常稀缺。
 
这种偏斜为那些假设训练数据较为平衡的标准机器学习流程带来了挑战。稀疏采样进一步加剧了这一问题。由于测量步骤会消耗宝贵的周期时间,晶圆厂通常只检测每批次中的一部分晶圆。“我们可能在 25 片晶圆中只测量 1 片,或者 2 片、3 片,”Desineni 说。“同样,这里存在大量的缺失数据。”
 
由此产生的数据图景具有高度的异质性,结合了图像、时间序列信号、空间晶圆图和设备遥测数据。针对消费或金融应用开发的现成人工智能工具并不总能完美迁移。
 
为了解决新工艺节点的冷启动问题,英特尔还利用条件生成对抗网络(cGAN)等技术采用合成数据生成。这些方法允许工程师在拥有大规模标记数据集之前就开始训练模型,然后随着实际生产数据的积累对模型进行优化。
 
位于亚利桑那州钱德勒市英特尔 Fab 52 的制造工作站,首批采用 Intel 18A 工艺的产品将经过这里。(来源:英特尔公司)
 
从概念验证到生产基础设施
对 Desineni 而言,现代晶圆厂人工智能的关键区别不在于模型的复杂程度,而在于运行的成熟度。他在实验性项目与他所认为的真正大规模部署之间划清了界限:“对我来说,‘大规模’意味着它超越了概念验证。”
 
从实际层面来看,英特尔的大规模人工智能必须满足几个标准。模型必须在捕捉了极端情况(corner cases)的大型数据集上进行训练,集成到工厂自动化系统中,并能够对实时生产数据进行实时推理。同样重要的是,成功的技术必须能在运行相同技术节点的多个晶圆厂之间复制。
 
这一要求引入了生命周期管理方面的挑战,这些挑战在企业软件领域很常见,但在制造领域的人工智能中仍在不断演进。随着工艺配方的改变、新缺陷模式的出现或工具行为的漂移,模型可能会发生衰减。
 
在所使用的各种人工智能形式中,计算机视觉持续提供着一些最高的影响力。自动缺陷分类已在英特尔投入生产近二十年,但模型和方法在不断更新。每周,公司会自动分类检测工具捕获的数百万张缺陷图像。Desineni 将这一数据流描述为制造洞察力最丰富的来源之一。
 
“我们过去称之为图像分析;现在,它被称为人工智能,”他说道。
 
尽管模型架构有所进步,成功仍很大程度上取决于领域专业知识和数据准备。更好的成像、改进的标签标注以及与工程工作流更紧密的集成都有助于性能提升。Desineni 强调,即使是最先进的模型,如果设计中没有植入深厚的工艺知识,也会失败。
 
英特尔数据中心事业部执行副总裁兼总经理 Kevork Kechichian 在 9 月份的“2025 英特尔技术巡展”舞台上展示一片 Intel Xeon 6+ 晶圆(代号 Clearwater Forest)。Clearwater Forest 是英特尔下一代 E 核处理器,基于 Intel 18A 构建,是该公司有史以来打造的能效最高的服务器处理器。(来源:英特尔公司)
 
尽管机器学习的复杂程度日益增加,半导体制造业依然保持着深度的风险规避属性。人工智能系统通常被部署为决策支持工具,而非完全自主的控制器。“当我找到一个答案时,我并不会去自动执行这项建议,”Desineni 说道。“我始终会将‘人’置于决策环路中。”
 
这种混合模式既反映了技术现实,也体现了组织对信任的要求。概率性的人工智能系统,即使是准确率极高的系统,也必须与要求近乎零缺陷容忍度的工艺流程共存。
 
投资回报率通过多种方式衡量,包括减少人工工作量、更快的根本原因发现、良率提升以及加速技术学习。但可用性往往被证明与原始模型性能一样重要。“大多数用户并不关心 AI 模型;他们关心的是可用性,”Desineni 说道。
 
随着晶圆厂推进到日益复杂的工艺节点和先进封装方案,这种务实的思维模式可能会持续下去。人工智能或许正在半导体制造领域迅速扩张,但就目前而言,其角色依然明确:增强工程师的能力、减少噪音,并帮助工厂比以往任何时候都更早地发现问题。
责任编辑:duqin

相关文章

半导体行业观察
摩尔芯闻

热门评论