インテル デモ 8

ブログ

ホームページホームページ / ブログ / インテル デモ 8

Jun 14, 2023

インテル デモ 8

7nm チップはコアあたり 66 スレッドを持ち、1 TB/秒の光 I/O を押し出します。 インテルは、Hot Chips 2023 チップカンファレンスで初のダイレクトメッシュツーメッシュフォトニックファブリックを発表し、

7nm チップはコアあたり 66 スレッドを持ち、1 TB/秒の光 I/O を押し出します。

Intelは、Hot Chips 2023チップカンファレンスで初のダイレクトメッシュツーメッシュフォトニックファブリックを発表し、NvidiaやAyar Labsなども支持する光チップ間相互接続の将来に向けた同社の進歩を強調した。 しかし、Intel がデモンストレーションに使用した 8 コア 528 スレッド チップは、コアあたり 66 スレッドを搭載し、最大 1TB/s のデータ スループットを可能にする独自のアーキテクチャにより注目を集めました。 驚くべきことに、このチップの消費電力はわずか 75 W で、電力の約 60% が光インターコネクトによって使用されますが、この設計により、最終的には 200 万コアのシステムを 400 ns 未満の遅延で直接接続できるようになる可能性があります。

Intel の PUMA (Programmable Unified Memory Architecture) チップは、ペタバイト規模のグラフ分析作業のパフォーマンス向上に焦点を当てた DARPA HIVE プログラムの一部であり、超低密度ワークロードにおけるワットあたりのパフォーマンスの 1000 倍の向上を実現します。

Intel のような x86 中心の企業としては驚くべきことに、このテスト チップはグラフ分析ワークロードのパフォーマンスを合理化するためにカスタム RISC アーキテクチャを利用しており、シングルスレッド パフォーマンスで 8 倍の向上を実現しています。 このチップは、Intel 独自の内部ノードではなく、TSMC の 7nm プロセスを使用して作成されています。

インテルは、ターゲットのワークロードの特性を評価した後、メモリー・サブシステム、深いパイプライン、分岐予測子、ワークロードによって生成される順序外れのロジックに対する極度のストレスに関連する課題を解決するアーキテクチャーを作成する必要があると結論付けました。

Intel のカスタム コアは、8 つのコアごとに 66 のハードウェア スレッド、大規模な L1 命令およびデータ キャッシュ、およびコアあたり 4MB のスクラッチパッド SRAM を調整するための極端な並列処理を採用しています。 8 コア チップは、それぞれ 32 GB/秒/ディレクトリで動作する 32 個の光 I/O ポートを備えており、合計 1 TB/秒の総帯域幅になります。 このチップは 8 ソケットの OCP サーバー スレッドに組み込まれ、システムに最大 16 TB/秒の合計光スループットを提供し、各チップには 32 GB のカスタム DDR5-4000 DRAM が供給されます。

Intelは、316mm^2のダイにまたがる276億個のトランジスタを備えたTSMCの7nmプロセスでチップを製造した。 12 億個のトランジスタを消費する 8 つのコアがダイの中央に配置され、その両側に 8 バイトのアクセス粒度を持つ 8 つのカスタム メモリ コントローラーが配置されています。 通信ルータは、チップの「空の」中央に配置されます。また、チップには、ダイの上部と底部にそれぞれ 2 つずつ、計 4 つの高速 8 チャネル光 I/O チップレットが搭載されており、内部の電気信号を外部の光相互接続にブリッジします。 。 これらのユニットはインテルの EMIB パッケージ経由で接続され、AIB プロトコルを使用します。 このチップには、ホスト システムと通信するための PCIe 4.0 x8 接続もあります。

528 スレッドによって生成された信じられないほどの量のデータをダイ上で移動するには、最適化された相互接続が必要です。そこでインテルは、コア、メモリ コントローラー、シリコン フォトニクス インターコネクト間でデータをシャッフルする 16 個のルーターを備えた 2D オンダイ メッシュを設計しました (8 個のルーターは、 CPU コア、6 つのルーターは完全にデータ移動専用です)。

上のアルバムでわかるように、フォトニクス コネクタはチップ パッケージに統合されており、他のチップに外部リンクするためにチップの側面からぶら下がっています。 このチップは、個々の処理コアに全対全接続を提供する外部の「HyperX」光ネットワークに接続されています。 この驚異的なネットワークにより、最大 200 万コアを 400 ナノ秒未満の遅延で全対全に直接接続できます。

最終結果は印象的です。チップの消費電力はわずか 75 W で、その予算の 59% がシリコン フォトニクスに割り当てられ、21% がコアに割り当てられます。 Intel は、光ネットワークのパフォーマンスが強化されたことで、1 コアから 1000 コアまでほぼ完璧な線形パフォーマンスのスケーリングが可能になったと主張しています。

光インターコネクトの有望性により、業界は従来のチップ間通信技術と比較して優れた帯域幅、遅延、消費電力特性を提供する将来のデータ転送方法に注目しており、研究量が激化しています。 光チップ相互接続の主流の導入はまだ目前にありますが、Intel、Nvidia、Ayar Labs が推進するような特殊な実装は、近い将来の大規模導入に向けた準備が整いつつあります。