This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI時代のネットワーク革新:通信媒体からデータセンタークラスターへの全面的なアップグレード
AI時代におけるネットワークの重要性と革新の方向性
大規模モデルの時代の到来は、ネットワークをAI分野の重要な要素にしました。モデルの規模と単一カードの計算能力の上限の差が拡大するにつれて、複数のサーバークラスターがモデルのトレーニングを解決する主要な方法となり、これはAI時代におけるネットワークの地位向上の基盤でもあります。過去には主にデータの転送に使用されていたネットワークですが、現在では主にGPU間のモデルパラメーターの同期に使用されており、ネットワークの密度と容量に対してより高い要求がされています。
ネットワークの需要は主に3つの側面から生じています:
日増しに巨大化するモデルサイズは、トレーニングにかかる時間を増加させ、計算効率を向上させることで時間を短縮する必要があります。しかし、単一のデバイスの計算能力の向上には限界があり、全体的な計算能力を向上させるためには、デバイスの数を増やし、並列効率を高める必要があります。
マルチカード同期の複雑なコミュニケーション。大規模モデルのトレーニングでは、各計算後に単一カード間での整合性が必要であり、ネットワークの伝送と交換に対してより高い要求を提示します。
障害コストは高額です。大規模モデルのトレーニングは数ヶ月続き、中断は巨大な損失を引き起こす可能性があります。ネットワークの任意の部分の障害が中断を引き起こす可能性があるため、ネットワークの安定性に対する要求は非常に高いです。
これらの要求に直面して、ネットワークの革新は主に以下の方向に集中しています:
通信媒体の変遷。光、銅、シリコンの3つのメディアはそれぞれの利点を持ち、異なるシーンで競争しています。光モジュールは高速率を追求する一方で、LPOやシリコン光などの方法でコストを削減しています。銅ケーブルは、ラック内接続においてコストパフォーマンスの優位性により主導的地位を占めています。ChipletやWafer-scalingなどの新技術は、シリコンベースの相互接続の限界を探求しています。
ネットワークプロトコルの競争。ノード内の通信プロトコルはGPUと強く結びついており、NVLINKやInfinity Fabricなどが含まれます。ノード間では主にIBとイーサネットの競争があります。
ネットワークアーキテクチャの変化。現在の主流である葉脊アーキテクチャは超大規模クラスターにおいて限界を示しており、DragonflyやRail-onlyなどの新しいアーキテクチャが次世代の超大規模クラスターの進化の方向性となることが期待されている。
スイッチの革新。光スイッチは低遅延、低消費電力などの利点から徐々に注目を集めている。一方、電スイッチはチップレベルでの継続的な革新を行っている。
データセンタークラスターの革新。単一のデータセンターの容量が上限に近づくにつれて、データセンター間の効率的な相互接続を実現する方法が新しい研究の方向性となっています。
全体的に見ると、AI時代のネットワーク革新はコスト削減、オープン化、スケール化の三つの方向に向かって進化し続けています。通信システムは複雑なシステムエンジニアリングであり、さまざまな段階で持続的な革新が必要です。投資家はコアデバイス供給業者に注目し、新技術がもたらす産業機会にも注意を払うべきです。