OFC 2025:AI高速互连技术报告(Nvidia)
(该报告是今年OFC上OIF光互连论坛的开场报告,其实也没有太多新的信息,偏科普性质,简单收集一下)
一、引言 在人工智能(AI)技术蓬勃发展的当下,计算能力的提升对数据传输和连接技术提出了极高要求。高速、高效、低功耗的互连与连接技术成为支撑AI计算集群运行的关键。 二、GPU互连网络架构与技术选择
从GPU角度看,构建互连和架构涉及三个主要网络:HBM本地内存网络、NVLink Scale up网络以及以太网InfinibandScale out网络。各网络的带宽分配数据明确,这影响着技术选择。 在技术选择方面,Scale up网络目前还会维持铜缆互连的方式,将光学技术用于此场景成本过高。相比之下,将资金投入内存更具性价比,因为从PCIe NIC到以太网Infiniband侧的带宽相对较低。
构建和优化AI工作负载于机器之上,关键在于平衡计算核心、与本地内存的高吞吐量连接、内存容量以及向上扩展能力。通过NVLink域内的缓存一致性,Scale up架构可使同一缓存域内的多个GPU能共享内存,实现协同工作。正因如此,目前采用铜作为互连材料,因其兼具成本效益和功率效益。而光学互连存在测试、可靠性、光纤及激光连接等成本驱动因素,在成本降低至与铜相当前,难以广泛应用于Scale up,毕竟光子生成所需的III - V材料成本高于普通硅材料 。 随着技术演进,计算能力、HBM内存、HBM内存带宽、网络带宽和架构带宽等各方面需协同增长。企业与软件社区客户紧密合作,依据推理、测试时间扩展等最新工作负载需求,确定各要素的最佳比例,以满足AI计算的性能要求。 三、200G及相关技术发展现状
即将推出的200G产品家族涵盖GPU和交换机,Infiniband版本称为XDR,均采用200G SerDes技术。以OSFP 1.6T模块(8×200G)为例,存在带或不带DSP等多种版本,且具备不同的重定时能力。全部重定时(DSP/FRO)可提供最可靠连接,半重定时(LRO/TRO)在节能与连接稳定性间取得平衡,非重定时(LPO)也是一种选择。行业有望广泛采用LRO方案,因其在节能和交换机链路闭合方面更具灵活性。
LPO(线性可插拔光学)在NIC端的短通道(8 - 9 dB)表现良好,但在交换机端面临更多挑战。
对于LPO的长通道问题,上个月提出的共封装CPO技术成为解决方案之一。共封装通过缩短组件间距离、减少损耗和增强集成度,优化端到端通道,在构建大规模GPU集群时,可实现节能、减少停机时间并加快系统启动速度。不过,共封装存在多种实现方式,每种方式在成本、功耗、散热管理和密度方面存在差异,增加了技术实施的复杂性。
四、400G及未来技术挑战与探索
面向未来,400G技术的研发迫在眉睫,但面临诸多挑战。如何在不降低200G可插拔解决方案功率效率的前提下,通过连接器、走线、bump将电信号传输至OSFP是一大难题。在调制器技术方面,正在探索TFLN、BTO聚合物和III - V器件等不同类型,它们各有优劣,需综合考虑封装位置、散热、机械可靠性和光纤连接等因素做出选择。
CPO实施位置、调制器类型和组件封装方式等都有不同的选项,这些选择直接影响测试性和可靠性。在研究Interposer光学2.5D封装时,模具成型和光纤连接等问题带来挑战,尽管缩短电气通道可优化性能,但不一定降低光学器件功耗。
在多波长DWDM技术应用中,封装和梳状激光源方面存在困难,制造具有多波长(8、16 - 200)和100 GHz通道间隔的经济高效激光源并非易事。
VCSEL CPO技术有望重新受到关注,但这个方案的也存在问题。尽管其在成本可扩展性方面有优势,但将其集成到封装上会带来新的机械和热管理挑战,特别是在光纤连接环节。