AI時代網路創新:從通信介質到數據中心集羣的全方位升級

robot
摘要生成中

AI時代網路的重要性與創新方向

大模型時代的到來使網路成爲AI領域的關鍵一環。隨着模型規模和單卡算力上限差距拉大,多服務器集羣成爲解決模型訓練的主要方式,這也是網路在AI時代地位提升的基礎。相比過去主要用於傳輸數據,如今網路更多用於同步顯卡間的模型參數,對網路密度和容量提出了更高要求。

網路需求主要源於三個方面:

  1. 日益龐大的模型體積導致訓練耗時增加,需要通過提升計算效率來縮短時間。而單設備算力提升有限,只能通過擴大設備數量和並行效率來提高整體算力。

  2. 多卡同步的復雜溝通。大模型訓練中,每次計算後單卡間需要進行對齊,對網路傳輸和交換提出更高要求。

  3. 故障成本昂貴。大模型訓練持續數月,中斷會造成巨大損失。網路中任一環節故障都可能導致中斷,因此對網路穩定性要求極高。

面對這些需求,網路創新主要集中在以下方向:

  1. 通信介質更迭。光、銅與硅三大介質各有優勢,正在不同場景下競爭。光模塊在追求高速率同時,也通過LPO、硅光等方式降低成本。銅纜在機櫃內連接中憑藉性價比優勢佔據主導地位。Chiplet、Wafer-scaling等新技術正在探索硅基互聯的上限。

  2. 網路協議競爭。節點內通信協議與GPU強綁定,如NVLINK、Infinity Fabric等。節點間則主要是IB與以太網的競爭。

  3. 網路架構變化。當前主流的葉脊架構在超大集羣下顯示出局限性,Dragonfly、Rail-only等新架構有望成爲下一代超大集羣的演進方向。

  4. 交換機創新。光交換機憑藉低延遲、低功耗等優勢逐漸受到關注。電交換機則在芯片層面持續創新。

  5. 數據中心集羣創新。隨着單個數據中心容量接近上限,如何實現數據中心間的高效互聯成爲新的研究方向。

總的來說,AI時代網路創新正朝着降本、開放和規模化三個方向不斷演進。通信系統作爲一項復雜的系統工程,需要在不同環節持續創新。投資者可關注核心器件供應商,同時也要跟蹤新技術帶來的產業機會。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 3
  • 分享
留言
0/400
Meme币操盘手vip
· 07-08 04:56
网络基础设施中的唱多信号... 是时候大量购买 $DATA 代币了 fr fr
查看原文回復0
GateUser-cff9c776vip
· 07-07 05:19
优化到底,亏损到位,难道这就是数字时代的降本增效?
回復0
DAO Therapyvip
· 07-07 05:18
新时代卷到网速了
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)