直指GPU利用率痛点,是德科技发布KAI解决方案

直指GPU利用率痛点,是德科技发布KAI解决方案

供稿 / 2025-07-17 14:353172

近日,NVIDIA将向中国市场销售H20芯片的新闻引发关注。在AI时代,GPU等算力核心器件无疑是企业创新发展的命脉所在,如果说模型是AI的大脑,那么数据中心就如同心脏一般输送着算力血液。但数据中心耗费不菲,其高效可持续发展议题吸引人们关注。6月26日,在是德科技Keysight World Tech Day 2025上,是德科技揭晓了算力中心面临的瓶颈,以及其用于大规模AI数据中心的系列解决方案。

AI大模型时代,算力中心面临挑战

是德科技大中华区高速数字市场部经理李坚介绍,早期人工智能的应用基本呈现单向性,主要聚焦于识别功能,基于的算力、参数和数据规模相对较小。如今,人工智能不仅限于简单的识别,其模式基于大模型,参数规模上升至万亿量级,算力集群也从千卡集群向万卡、十万卡集群演进。大模型需要大算力、大数据和大带宽支持,算力中心规模庞大,建设投入高达数百亿元人民币。

在这些投入中,GPU的成本无疑占据很大比重。然而,数据显示,GPU并非时刻都在“工作”,在进行模型训练时,GPU的等待时间超过了50%,真正处于工作状态的时间大概只有38%。投入几百亿元建设的数据中心,核心部件GPU利用率却不高,投资回报率显得很低。这背后的原因是网络在进行数据交换时遇到阻碍,数据没有及时给到GPU。就像早上上班路上堵车,上班就会迟到,自然也就没办法按时开始工作。

【热点科技】直指GPU利用率痛点,是德科技发布KAI解决方案607.png

另一个值得关注的状况是数据中心中故障频发。大模型训练一次就能顺利完成任务的概率大概只有57%。这是因为在训练过程中,会出现各种各样的硬件或软件故障,尤其是硬件故障。如今速率提升得非常快,很多器件已经接近其物理极限,在高温、高速且24小时不间断的工作环境下,很多器件不堪重负甚至崩溃。网络可靠性问题频发,只要其中任何一个器件出现故障,整个系统可能都无法正常运行。

当下算力中心建设正如火如荼地推进,然而不少算力中心其实是“带病上线”,存在诸多问题。投入了巨额资金,但这些资金的投资回报率能否达到期望,还有没有优化的空间?李坚的回答是“有很多空间”。

是德科技深耕测试测量领域八十余载,一直密切关注产业发展,希望与产业界携手合作,共同提升数据中心基层硬件和软件的指标,及时察觉网络中可能潜藏的各种问题,疏通网络流量,让网络运行更加有效。

Keysight AI解决方案,助力数据中心优化

基于对算力中心挑战的认知,是德科技与众多AI产业客户开展了大量工作,逐步梳理了产品线,针对人工智能市场重新定义了产品矩阵,推出用于大规模AI数据中心的系列解决方案,统一命名为“Keysight AI”,简称“KAI”。产品矩阵分四大板块:

【热点科技】直指GPU利用率痛点,是德科技发布KAI解决方案1121.png

· KAI高速计算:涵盖算力板卡相关的所有测试手段,助力打造更稳定可靠的算力。主要包括电子设计自动化套件、误码仪、示波器和任意波形发生器。

· KAI互连:验证光学和电气通道,面向连接板块的电缆、光模块、光连接等。这些在高速率下工作的器件数量众多,必须保证质量。该板块主要包括采样示波器、光子功率计和网络测试仪。

· KAI网络:对AI网络性能进行基准测试,检测瓶颈,优化AI工作负载分配。主要包括AI工作负载仿真器、分布式网络流量生成器和网络流量仿真器。

· KAI能效:“数据中心的尽头是电站。”一个十万板卡的算力中心,其耗电量堪比甚至超过一座百万人口城市的耗电量。KAI能效解决方案助力优化数据中心组件的电源效率和能源管理。主要包括示波器、电源轨探头和电子设计自动化套件。

人工智能引发广泛关注,源于其背后的巨大机会。是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan强调,AI已从概念走向现实,大量投资涌入该领域。是德科技展现出前瞻性的战略眼光与强大的技术实力,为人工智能提供全栈、全生命周期的解决方案,为人工智能产业的蓬勃发展注入强劲动力。


发表评论注册|