是德科技发力AI,直击GPU之痛

2025-05-16 15:37:56 来源: 互联网
前言:“如今,AI训练集群已经不是千卡、万卡,而是十万卡。一个投资200亿的数据中心集群,GPU如果有一半时间在等数据,这不仅仅是算力的问题,这是资产浪费、运营灾难。”是德科技高速数字市场部经理李坚指出。在AI算力革命的表面繁荣下,隐藏着连接、运维、稳定性的隐秘挑战。AI基础设施背后还有很多需要提升的空间,而这些提升空间,就藏在今天尚不健全的测试、验证、优化环节里。
 
十年跃迁,是德科技站上AI风口
 
从2014年脱胎于安捷伦,成为专注电子测试的独立公司,到如今跃迁为一家以软件为核心、横跨通信、半导体、汽车电子、AI等多个领域的测试测量公司。2025年,是德科技走过了独立运营的第十个年头。一个十年的周期,对一家以工程师思维著称的电子测试巨头而言,或许不算长,却足以让它完成一次从“硬件图腾”到“软件中枢”的自我重塑。是德科技大中华区市场总经理郑纪峰先生回顾了是德科技的“十年独立进化史”。
 
 
是德科技过去十年的精彩时刻(图源:是德科技,下同)
 
这十年,是德科技完成了20余宗并购,从物理层一路打到应用层。从并购Ixia进军网络协议测试,到Scienlab扩展至新能源汽车电池系统,再到Cliosoft加持EDA软件生态。每一笔收购背后,映射的正是是德科技在产业裂变中的主动跃迁。
 
而今,在AI技术飞速演进的浪潮中,是德科技再一次站到了产业关键拐点。穿越算法热潮,直击算力基础设施的隐秘痛点,是德科技发布KAI(Keysight AI)新方案。过去十年里,是德科技向以软件为中心的测试解决方案转变。转型路上,是德科技选择了“硬件+软件+方案”的三位一体策略,而这,也成为今天Keysight AI解决方案诞生的根基。
 
 
是德科技大中华区市场总经理郑纪峰
 
AI风口背后,是一个“带病运行”的数据中心
 
尽管AI如今风头正劲,但其基本理论早在六七十年前就已提出。进入2010年代,AI伴随算力、数据的跃升走向新的阶段,图像识别等应用逐步落地。但直到OpenAI推出ChatGPT,AI才真正走向大众视野。李坚分享道,ChatGPT早期“幻觉”强烈,可靠性不足,但自4.0版本后,实用性已大幅提升。同时,国内AI产业也经历了“百模大战”,DeepSeek等工具推动AI逐步渗透到法院、政务等具体应用场景,成为高效的文书与决策工具。AI,正在从实验室走向每个人的工作与生活。
 
 
是德科技高速数字市场部经理李坚
 
根据调研机构预测,到2030年AI市场规模将达1.3万亿美元。李坚指出,虽然当下市场主要投资仍集中在算力基础设施,但未来AI的商业价值将更多体现在应用与服务层面。而这也意味着,AI产业在快速增长的同时,必须面对其基础设施的短板。
 
在李坚看来,AI的“大算力、大模型、大数据”需求,正在倒逼底层网络带宽、存储、互连等技术加速迭代。以太网、PCIe、存储等标准正以前所未有的速度跃升,如以太网将迈向1.6T/3.2T,PCIe接口也将进入7代128 GT/s时代,但由此带来的稳定性、能耗、互连干扰等问题也随之爆发。尤其在超大集群环境下,传统的PCB板已无法支撑高速信号传输,算力中心不得不采用铜缆、光缆替代,整个产业链面临重构。
 
 
AI技术转折点:带宽激增下的效率挑战
 
他强调,当前的AI数据中心远未达到理想状态,很多设备在物理极限下运行,故障频发,“带病上岗”成为常态。如何让AI算力中心既强大又稳定,成为整个产业必须直面的挑战。
 
他用极具冲击力的数据撕开了AI算力的华丽面纱:一个十万卡级的GPU集群,投入可高达数百亿元人民币,但GPU的真实算力利用率只有不到40%。剩下的时间,昂贵的GPU们正集体处于“等数据”的空闲状态。
 
 
AI集群中的网络与组件瓶颈
 
这是AI数据中心“带病运转”的残酷现实。每一根光缆、每一块交换板、每一个网络参数配置,甚至每一个微小的硬件失稳,都会引发雪崩般的算力闲置。训练周期以月计,任何网络故障都可能让两三个月的计算付诸东流。在万卡、十万卡级的大模型训练场景下,每提升1%的GPU利用率,可能意味着上亿的成本节约。因此,AI算力中心的稳定性,正成为企业、研究机构面临的头号挑战。
 
“网络越大,越脆弱。”李坚直白地指出,传统的数据中心主要是南北向通信,即客户端与服务器之间的请求与响应。而AI大模型需要的是高强度、全节点之间的“全网络”通信,既包含南北向通信,也包含服务器与服务器之间的东西向通信,这种复杂网络环境下,任何一个节点故障都会放大成系统性的效率低下。
 
 
AI集群网络的脆弱性与复杂性
 
而更隐晦的挑战还在于,硬件在接近物理极限下运行,网络冗余设计不足,设备寿命压缩,容错机制难以跟上训练速度。这些,都是目前行业普遍低估的问题。
 
KAI方案:直击AI算力基础设施的隐形裂痕
 
算力中心正带病上岗,而是德科技要做那位看见隐疾、直面黑洞的“体检师”。带着这些洞察,是德科技推出了KAI(Keysight AI)解决方案。这个方案不只是一个测试工具,更像是一个面向AI基础设施生命周期的“健康诊断平台”。
 
 
是德科技KAI(Keysight AI)系列解决方案
 
它可以从数据中心底层硬件、网络架构、带宽需求、信号完整性、热稳定性等维度,帮助用户识别隐藏的性能瓶颈、预测潜在故障、优化网络拓扑、提升GPU利用率。李坚甚至形象地将KAI比喻成“给AI数据中心做CT的机器”,它旨在让客户看见那些埋在数十万卡背后,不被算法可视化的成本黑洞。
 
围绕AI算力中心的复杂生态,是德科技构建了KAI的四大产品矩阵:
 
计算:专注于GPU板卡内部的通信、存储连接、设计仿真,确保GPU、DDR、HBM等组件在极限状态下的稳定性。
 
互连:针对板卡间、节点间的高速通信,从物理层转向铜缆、光缆的测试验证,支撑400G、800G乃至1.6T速率的可靠运行。
 
网络:通过业界领先的Ixia产品线,从层1到层7,打通网络通信链路测试,覆盖硬件、传输、协议、应用层,识别隐藏故障。
 
能效:推出功率测试、能效优化、转换效率提升工具,帮助数据中心向绿色迈进。
 
这四大领域背后,是德科技想要解决的是算力中心那座“隐形的黑洞”:带宽瓶颈、能耗溢出、网络阻塞、GPU利用率低下——这些问题正让昂贵的AI硬件投资,变成了低效、易错、易崩溃的“高风险资产”。
 
KAI矩阵中的三款新品,分别对应了AI数据中心当前的三大“急性病”:
 
 
KAI矩阵中的三款新品
 
DCA-M采样示波器 N1093A/B:面向光芯片、光模块厂商,具备224G/通道带宽、超低噪声与抖动、全集成时钟恢复。应对1.6T、3.2T高速通信下信号劣化、误码率飙升的物理极限。
 
互连与网络性能测试仪:少有的1.6T层1-3综合测试仪,支持光电模块、网卡、交换机全链路评估,让硬件厂商从研发到生产具备“故障前识别”能力。
 
KAI数据中心构建器:主要基于AresONE平台,通过仿真真实AI网络的集合通讯、突发流量,帮助运营商、云厂商在部署前找出网络“堵点”,避免真实网络崩溃带来的成本黑洞。
 
然而需要阐明的一点是:是德科技进入这个领域,并不是一个“跨界”故事。正如李坚所说,公司与产业的渊源,可追溯到1939年——那时,惠普在车库里制造出了电子测试设备,而是德科技正是这一血脉的传承者。只不过,80年后,这家老牌企业正在用更系统化、更场景化的方式重塑与客户的关系。
 
“我们和NVIDIA、Cisco、Arista等展开了诸多合作。如今,这些客户的需求变了,是德科技也必须变。”李坚坦言。这些变化促使是德科技从传统的射频、微波、数字类产品,进化为今天以KAI为核心的AI数据中心综合解决方案提供者。
 
这场转型的逻辑非常清晰——客户过去在板卡设计、网络链路、信号测试环节自发使用是德科技的产品,而在AI数据中心场景中,这些需求需要整合成一套系统性的方案:涵盖计算、互连、网络、能效管理,直至全生命周期的测试与运维。
 
 
是德科技贯穿数据中心物理层和协议层的全栈测试方案
 
写在最后
 
过去,AI产业的目光聚焦算法、应用和场景;而今天,竞争的高地正在下沉到基础设施的可靠性、稳定性与运维能力。李坚直言:“AI网络的竞争,拼的不仅是算法,还有底层的韧性。”是德科技正试图把过去电信领域的稳定性设计方法,带入AI算力中心——这个过去被视为“硬核黑盒”的世界。
 
是德科技的转型,是产业链上游企业主动跃迁价值链中游的典型案例。从传统测试设备供应商,到成为AI基础设施背后的系统级方案提供者,这种转型并非停留在产品形态的变化。今天,是德科技正悄然从工具供应商进化为行业标准的推动者。公司积极参与AI-RAN联盟、以太网联盟、PCI-SIG等多个产业组织。
 
在这场转型中,是德科技也保持清醒。AI产业远未成熟,标准不一、故障频发、运维困难仍是常态。KAI方案的推出,正是是德科技在与客户共创、快速迭代中,对这些痛点做出的响应。当全行业都在奔向更大模型、更强算力、更酷炫应用时,只有那些把底层网络、互连、能效做到极致的企业,才能真正穿越AI产业的长期周期。
责任编辑:admin

相关文章

半导体行业观察
摩尔芯闻

热门评论