AI时代网络创新:从通信介质到数据中心集群的全方位升级

robot
摘要生成中

AI时代网络的重要性与创新方向

大模型时代的到来使网络成为AI领域的关键一环。随着模型规模和单卡算力上限差距拉大,多服务器集群成为解决模型训练的主要方式,这也是网络在AI时代地位提升的基础。相比过去主要用于传输数据,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出了更高要求。

网络需求主要源于三个方面:

  1. 日益庞大的模型体积导致训练耗时增加,需要通过提升计算效率来缩短时间。而单设备算力提升有限,只能通过扩大设备数量和并行效率来提高整体算力。

  2. 多卡同步的复杂沟通。大模型训练中,每次计算后单卡间需要进行对齐,对网络传输和交换提出更高要求。

  3. 故障成本昂贵。大模型训练持续数月,中断会造成巨大损失。网络中任一环节故障都可能导致中断,因此对网络稳定性要求极高。

面对这些需求,网络创新主要集中在以下方向:

  1. 通信介质更迭。光、铜与硅三大介质各有优势,正在不同场景下竞争。光模块在追求高速率同时,也通过LPO、硅光等方式降低成本。铜缆在机柜内连接中凭借性价比优势占据主导地位。Chiplet、Wafer-scaling等新技术正在探索硅基互联的上限。

  2. 网络协议竞争。节点内通信协议与GPU强绑定,如NVLINK、Infinity Fabric等。节点间则主要是IB与以太网的竞争。

  3. 网络架构变化。当前主流的叶脊架构在超大集群下显示出局限性,Dragonfly、Rail-only等新架构有望成为下一代超大集群的演进方向。

  4. 交换机创新。光交换机凭借低延迟、低功耗等优势逐渐受到关注。电交换机则在芯片层面持续创新。

  5. 数据中心集群创新。随着单个数据中心容量接近上限,如何实现数据中心间的高效互联成为新的研究方向。

总的来说,AI时代网络创新正朝着降本、开放和规模化三个方向不断演进。通信系统作为一项复杂的系统工程,需要在不同环节持续创新。投资者可关注核心器件供应商,同时也要跟踪新技术带来的产业机会。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 分享
评论
0/400
Meme币操盘手vip
· 07-08 04:56
网络基础设施中的唱多信号... 是时候大量购买 $DATA 代币了 fr fr
查看原文回复0
GateUser-cff9c776vip
· 07-07 05:19
优化到底,亏损到位,难道这就是数字时代的降本增效?
回复0
DAO Therapyvip
· 07-07 05:18
新时代卷到网速了
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)