聚焦

人工智能掀起光连接需求新浪潮

2023-08-08 10:15:55 人民邮电报

(资料图片仅供参考)

人工智能的竞赛已经开始，担心落后于人的“恐惧”正引发大量人工智能投资。市场研究机构LightCounting在其最新报告中表示，Meta在财报电话会议上的表态印证了上述趋势——不知道人工智能驱动的应用会以多快的速度发展，希望有足够的能力来应对这种快速扩展。

产业对人工智能基础设施的投入金额尚未可知，但英伟达在2023年4月的财报电话会议上给出了一些暗示。英伟达2023年第二季度收入预计环比增长50％，主要得益于AI集群GPU和基于GPU系统的销售。之后，分析师将GPU的销售与光模块的销售预期联系起来，得出了非常高的数字。一些报告预计，未来5年，仅用于人工智能类应用的光模块收入为100亿美元或更多。

该机构预测，未来5年，用于人工智能集群应用的光模块的总销售额将达到6亿美元。对比同一时期以太网光模块其他应用加起来将产生的5亿美元，这确实是一个很大的数字。事实上，这一结论并不意外。谷歌的一份报告称，在2019年—2020年，其在人工智能集群中部署的光器件比在其他数据中心基础设施部署的总和还要多。该机构表示，2022年在AI集群中部署的光模块已占整个市场的25％，这还不包括有源光缆（AOC），而有源光缆是英伟达系统中光连接的主要解决方案。

此外，人工智能市场份额的提升还源于企业对计算集群和支撑其光器件投资的减少。2022年底，ChatGPT成为热点是一个重要时机。对于即将到来的经济衰退的担忧、收入增长放缓的迹象迫使所有领先的云公司削减支出，包括对数据中心的投资和购买光模块的支出。

Meta将2023年部署200G FR4光模块的预算削减了50％以上。在其最新的财务报告中，该公司宣布今年的资本支出再减少10％，计划增加在AI集群和支撑其400G FR4光模块方面的支出。

英伟达人工智能系统的新设计需要更多光器件。该公司在一年多前推出了NVLink机箱交换机，该交换机的设计考虑了800G光纤连接。LightCounting表示，与InfiniBand网络相比，NVLink支持的从GPU到GPU连接需要更多的带宽。目前的估计表明，其带宽增加了6倍。

英伟达系统的先前设计都使用InfiniBand网络进行光纤连接，连接主要通过有源光缆。该机构估计，去年部署的HDR（200G）InfiniBand系统需要超过50万条200G AOC。这些系统的销量将在2023年增加，可能需要多达100万条200G AOC和类似数量的200G铜缆。

基于NDR（400G）InfiniBand的最新系统的销售现在才刚刚开始增长。这些系统将主要使用可插拔的400G SR4以太网光模块，而不是用于InfiniBand连接的AOC以及用于NVLink网络的800G SR8光模块。一旦新系统的部署与当前基于HDR的系统数量相当，他们将需要200万个400G SR4光模块（每个AOC相当于两个光模块）和600万个800G SR8光模块。这种情况即使不会在今年发生，也可能会在2024年或2025年发生。当然，并非所有系统都将使用InfiniBand和NVLink连接，这对于非常大的GPU阵列最有利。许多装置的尺寸比较适中，主要依靠铜缆布线。

谷歌正在使用TPU而不是GPU，但是，这家公司也在使用直接光连接来构建大规模阵列，TPU数量达到数万个，这也是为什么谷歌在2019年至2020年间在人工智能集群中部署了如此多光器件的原因。此外，谷歌最近还增加了部署800G FR8光模块的计划。　

为你推荐