Meta、MIT、その他が光 AI インフラストラクチャでロボット アームをテスト

ブログ

ホームページホームページ / ブログ / Meta、MIT、その他が光 AI インフラストラクチャでロボット アームをテスト

Jul 14, 2023

Meta、MIT、その他が光 AI インフラストラクチャでロボット アームをテスト

By Agam Shah 2023 年 4 月 19 日 Meta、MIT、その他の機関の研究者は、光スイッチとロボット アームを備えた 12 台の Nvidia GPU とサーバーを接続し、次のような新しい相互接続を考案しました。

アガム・シャー著

2023 年 4 月 19 日

Meta、MIT、その他の機関の研究者は、光学スイッチとロボット アームを備えた 12 個の Nvidia GPU を備えたサーバーを接続し、機械学習に使用できる新しい相互接続を考案しました。 「TopoOpt」と呼ばれるこのファブリックは、コンピューティングのニーズに応じてネットワーク トポロジをその場で作成できます。 このテクノロジーは、Microsoft の AI スーパーコンピューティングの限界を試している ChatGPT などの AI テクノロジーの導入拡大によって高性能コンピューターに負担がかかる中で登場しました。

このテクノロジーに関する論文は、今週開催されているネットワーク化システムの設計と実装に関する USENIX シンポジウムで発表されました。

TopoOpt は、処理要件、利用可能なコンピューティング リソース、データ ルーティング技術、ネットワーク トポロジなどの情報に基づいて、アルゴリズムを使用して最速の並列コンピューティング技術を見つけます。 研究者らは、GPU と他のコンポーネント間の通信時間を最小限に抑える Nvidia の AllReduce 機能も改良しました。

「TopoOptは、再構成可能な光スイッチとパッチパネルを使用してトレーニングジョブごとに専用のパーティションを作成し、各パーティション内のトポロジーと並列化戦略を共同で最適化します」と研究者らは書いている。

研究者らは、それぞれ 1 つの A100 GPU、HPE NIC、および 100 Gbps Mellanox ConnectX5 NIC を備えた 12 台の Asus ESC4000A-E10 サーバーを使用して、メタ インフラストラクチャ内で TopoOpt をテストしました。 NIC にはブレークアウト ファイバーを備えた光トランシーバーが搭載されていました。

「TopoOpt は、ML ワークロードのトポロジと並列化戦略を共同最適化する最初のシステムであり、現在、Meta での展開について評価中です」と研究者らは述べています。

同紙によると、このセットアップでは、「送信側のファイバーを掴んで受信側のファイバーに接続するロボットアーム」を使用してネットワークを再構成するTelescent社のパッチパネルも使用されているという。 ソフトウェア制御されるロボット アームは上下に動き、システム内の任意の場所で送信ファイバーと受信ファイバーをリンクします。 これにより、ネットワークを迅速に再構成するために必要な柔軟性と弾力性が得られます。 パッチ パネルはすでに商用アプリケーションで広く使用されていますが、現在はデータセンターでの使用が提案されています。

Googleは最近、光回路スイッチを備えたAIスーパーコンピューターを使用して、消費電力を抑えながらTPU v4チップでのトレーニング速度を向上させる方法について詳しく説明した論文を発表した。 Google のセットアップにおける光回線スイッチング (OCS) はロボット アームほど可動性はありませんが、ミラーを使用して入力ファイバーと出力ファイバーを切り替えます。 Google のセットアップは、4,096 個の TPU にわたる大規模なデプロイメントを備えた、より大規模なテストベッドでもありました。

研究者らは、Google スタイルの光スイッチは「5 倍高価」であり、サポートするポートも少ないことがわかったため、パッチ パネルを選択しました。 同時に、研究者らは、OCSテクノロジーは、Googleで使用されているものと同様、大規模な導入を目的としていると述べた。 「OCS の主な利点は、再構成の遅延がパッチ パネルよりも 4 桁速いことです」と研究者らは書いています。

TopoOpt はコンピューティング要件とネットワーク要件を事前にプロビジョニングしており、サーバーの準備が整い、タスクを展開する準備が整うと、すぐに使用できるようになります。 「ジョブの到着順序と各ジョブに必要なサーバーの数はすでにわかっています」と研究者らは書いており、「この設計により、各サーバーが 2 つの独立したトポロジーに参加できるようになります」と付け加えています。

研究者らは、TopoOpt は「ファット ツリー」と呼ばれる別の手法よりも 3.4 倍速いトレーニング反復時間を実現したと結論付けました。この手法では、ネットワーキング バックボーンがインフラストラクチャの中心であり、コア ネットワーキング バックエンドをリンクする複数の静的スイッチ層にデータが処理されます。ハードウェアからフロントエンドサーバーまで。 その技術は今日広く使用されています。

データセンターでの光ネットワーキングの使用は新しい概念であり、研究者らは AI ネットワーキング インフラストラクチャを構築するための安価な方法としてロボット アームと新しい通信プロトコルを導入しています。 この技術の実現可能性はメタによってテストされています。