GPU新品出现散热问题、大客户订单受影响,这些天的英伟达,能够并不好过。想要保住“算力霸主”的宝座,这家巨头亟需一剂良药。
日前有音问称,英伟达将在本年3月的GTC大会上推出CPO交换机,若试产告成,则有望8月量产,届时CPO交换机可已毕115.2T的信号传输。
媒体征引供应链臆想称,“针对(CPO交换机)产能,英伟达相等躁急。”
固然黄仁勋对外声称供货一切告成,但刻下GB200系列出货确切逼迫乐不雅。GB200 NVL72机柜想象复杂,高性能策动带来了高功耗及高散热需求。零部件厂商暗示,单机柜问题仍是“苟简惩办”,但多机柜流畅问题“巨大”——机柜流畅需要高达8万根铜线,散热、信号干涉等问题接续浮现。
这不是骇东谈主闻见的空有虚名——散热和流畅的巨大问题,仍是影响到了英伟达那些顶级大客户的订单。
本周有另一报谈指出,微软、亚马逊、谷歌和Meta等公司仍是罗致推迟Blackwell订单、或径直“弃B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每个机柜功耗高达120-132千瓦,径直将传统冷却系统推向极限。另一方面,Blackwell机柜还出现流畅故障,妨碍了热量分派,又进一步加重了热不断问题。
散热互连问题紧追不舍,英伟达拿什么惩办?芯片级优化,更先进的冷却有策划,照旧透顶校正机柜?
这一次,光通讯能够成为现阶段的最好技巧解药,英伟达将眼神投向了CPO。
7年千倍成漫空间与172%CAGR
为什么是CPO?
CPO全称为Co-Packaged Optics,中语译为光电共封装,是一种新式光电子集成技巧。通过进一步裁汰光信号输入和运算单元之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同期,已毕了更低功耗,已成为惩办异日数据运算处理中海量数据高速传输问题的进攻技巧阶梯。
在2023年2月发表的一篇接头论文中,英伟达接头东谈主员曾直言,“当今,跟着CPO面世,咱们正处于新一场要紧变革的角落。在CPO架构中,光学器件将和ASIC封装在沿途,以降呆板耗、已毕更高带宽。固然十年前CPO就已开启系统部署,但最近的一系列接头演示以及有关居品讲明皆标明,异日几年,CPO将得到市集广大采用。”
摩根士丹利在最新发布的AI供应链产业论述中指出,CPO具备AI数据中心的传输后劲,预估2023年至2030年期间,其市集范围将从800万好意思元激增至93亿好意思元——7年千倍的成漫空间,年复合成长率高达172%。
此前有音问称,英伟达策动从2025年下半年推出的GB300芯片运行采用CPO,Rubin平台(Blackwell下一代平台)也将采用该技巧,旨在打破刻下NVLink 72互连(最多可流畅72个GB200芯片)的限度,擢升通讯质地。
大摩的论述则指出,英伟达的Rubin平台偏捏NVL奇迹器机柜系统,在导入CPO的能见度更高,且每系统中的内含价值更高,预估2027年占大家CPO需求的75%。
与巨头同业
无论如何,CPO这条路,英伟达也许是选对了,从AMD、念念科、IBM到英特尔,皆是同业者。
举例1月6日,好意思国芯片大厂Marvell(扫数电子)晓示,公司在定制AI加快器架构上得到打破,整合了CPO技巧,大幅擢升奇迹器性能。这种新架构能让AI奇迹器能力已毕拓展,从刻下使用铜互连的单个机架内的数十个XPU,拓展到横跨多个机架的数百个XPU。通过这一架构,超大云奇迹商将能斥地定制XPU,已毕更高的带宽密度,并在单个AI奇迹器内提供更长距离的XPU到XPU流畅,同期具有最好延迟和功率遵守。
2024年末IBM晓示已毕一项要紧CPO技巧打破,不错以“光速”考验AI模子,同期省俭多数动力。字据IBM论断,这项CPO技巧不错将圭臬大模子的考验时辰从3个月裁汰至3周;况且,与中端电气流畅比较,能耗责难了5倍多,数据中心互连电缆的长度不错从1米蔓延至数百米,大幅责难拓展生成式AI的资本。
除此除外,英特尔、AMD、念念科等均有在连年OFC展上推出CPO原型机。
还有多远?
站在当下节点,CPO这根“稻草”能救得了英伟达吗?
能够还需要恭候。
在1月16日的投资者会议上,当作英伟达CPO协作伙伴台积电的董事长,魏哲家暗示,固然CPO仍是有初步效果(Good Result),但想要达到量产阶段仍需要1年甚而1年半以上时辰。
另有媒体征引分析师表述称,CPO程度将影响英伟达Rubin系列的量产过程。供应链透露,刻下“量产照实有难度,尤其是在诞生部分仍特殊吃紧,另外良率也有待擢升”。
值得一提的是,1月16日,针对GB200奇迹器散热问题,黄仁勋暗示,Blackwell平台散热技巧相对复杂九游会欧洲杯,不外Blackwell系统已运行全面量产,初期面临的挑战对比系统的复杂度,是很正常的,Blackwell系统已运行销售给大家客户。