LHS 費用モデル

要約

このページでは、レイテンシ隠蔽スケジューラで使用される費用モデルの内部構造について説明します。モデルのチューニングに関心がある場合は、チューニングセクションに直接進んでください。

レイテンシ隠蔽スケジューラ（LHS）は、経過時間を最小限に抑えるように HLO DAG をスケジュールするコンパイラパスです。

この決定は、パフォーマンステーブルと分析モデルを組み合わせた統合費用モデルに基づいて行われます。特に、XLA は GEMM と高速インターコネクトコレクティブのパフォーマンステーブルを埋め込み、他のケースでは分析ネットワーキングと融合コストモデルを使用します。このドキュメントの残りの部分では、これらの内部動作の概要について説明します。

パフォーマンステーブル - ICI コレクティブ

パフォーマンステーブルは、コレクタとインターポレータの 2 つの主要コンポーネントで構成されています。

コレクタ

コレクタは、集団オペレーションのパフォーマンステーブルを生成する C++ ツールです。個々の HLO オペレーション（all-gather、all-reduce）を静的に定義されたパラメータ空間で実行します。

仕組み

このツールは、特定のクラスタのさまざまな集団演算、転送サイズ、転送スキームをスイープします。既存のマルチホスト HLO ランナーインフラストラクチャと ExecutionProfile データを使用して、生成された HLO を実行し、パフォーマンス指標を収集します。

データ収集パラメータ

レイテンシテーブルは、次のパラメータのクロス積に対して収集されます。

Collective Type:
- all-reduce
- all-gather
- reduce-scatter
転送サイズ:
- 1,024 バイトから 2 GiB までの対数スケール（例: 1024B、2048B、4096B など）
転送スキーム:
- rail-aligned
- non-rail-aligned

このスイープは、2、4、8 台のデバイスを備えたノード内クラスタに対して実行されます。

出力

収集の実行結果は、.pbtxt 形式のレイテンシテーブルです（プラットフォームごとに約 116 KB）。

Interpolator

インターポレータは、生成されたパフォーマンステーブルを使用してコンパイル中にランタイムの見積もりを提供するコンパイラコンポーネントです。

内部データ構造

初期化時に、Interpolator はパフォーマンステーブルをマップに変換します。このマップは、キーとして (collective_type, transfer_scheme) のタプルを使用します。

各キーに関連付けられた値は 2 次元ユークリッド平面です。このプレーンは、次の 2 つの軸に基づいて、ネットワークスループット（コレクタによって測定）をインデックスに登録します。

転送サイズ。
対象デバイスの数。

ルックアップと補間

コンパイラが集団オペレーションを検出すると、インターポレータは次の手順を実行します。

オペレーションの (collective_type, transfer_scheme) をマップキーとして使用して、正しい 2D スループットプレーンを識別します。
次に、その 2D 平面内で、オペレーションの (transfer_size, num_devices) をクエリポイントとして使用して、加重平均検索（ユークリッド距離に基づく）を使用します。
このルックアップの結果は、一意の 1 つのネットワークスループット値です。

理由: スループットと推定

このシステムは、レイテンシの生データではなく、ネットワークスループットを保存するように設計されています。この設計により、テーブルに明示的に示されていない転送サイズのパフォーマンスを外挿する作業が大幅に簡素化されます。

レイテンシテーブルが集合サイズ S でネットワーク帯域幅の飽和をキャプチャした場合、その時点のスループット T が最大と見なされます。サイズ S' > S の新しいコレクティブの場合、ランタイムは次のように推定できます。

\[\text{EstimatedTime}(S') = \frac{S'}{T_{\text{saturated} } }\]

これにより、コレクタで測定された最大値の 2 GiB を超える場合でも、任意のサイズのコレクティブのパフォーマンスをモデルで推定できます。

最大スループットを過小評価します。
そのため、大規模な転送の実行時間を過大に見積もることになります。

通常、XLA:GPU チームがパフォーマンステーブルを維持しますが、ユーザーが独自のテーブルを提供する場合、テーブルを生成するユーザーは、テーブルが代表的であり、ターゲットハードウェアの帯域幅飽和領域の測定値が含まれていることを確認する必要があります。

パフォーマンステーブル - GEMM

コレクティブのシステムと同様に、GEMM レイテンシテーブルは、コレクタとインターポレータの 2 つのコンポーネントでサポートされています。

コレクタ

コレクタは、一般行列乗算（GEMM）のパフォーマンステーブルを計算する C++ ツールです。HLO dot オペレーションレベルで行列乗算のパフォーマンスを測定します。

仕組み

このツールは、GEMM ディメンション（バッチ、2 つの非収縮ディメンション、1 つの収縮ディメンション）とデータ型の静的空間をスイープします。

デフォルトのデータ型: LHS = bf16,f32、RHS = bf16,f32、OUT = bf16,f32。
インフラストラクチャ: HLO op プロファイラを再利用します。

コレクションパラメータ

レイテンシテーブルは、次のディメンションのクロスプロダクトについて収集されます。

batch: {1, 2, 4}
m（契約なし）: {256, 512, ..., 4096}
n（契約なし）: {256, 512, ..., 4096}
k（収縮）: {256, 512, ..., 4096}

出力とストレージ

フルスイープでは、インターポレータで使用できる .pbtxt レイテンシテーブルが生成されます。

Interpolator

インターポレータは、生成されたテーブルを使用して GEMM パフォーマンスを推定するコンパイラコンポーネントです。

理由: FLOPS の飽和

収集されたレイテンシテーブルにより、補間器は各エントリの FLOPS を再構築できます。

\[\text{FLOPS} = \frac{2 \times b \times m \times n \times k}{\text{runtime} }\]

重要なのは、FLOPS がある時点で飽和することです。つまり、ハードウェアは特定の行列の形状を超えるとピーク FLOPS に達します。この飽和により、集合体で使用されるのと同じ外挿法を使用できます。

ルックアップと補間

補間器は、テーブルデータから 4D ユークリッド空間を構築します。パフォーマンスの見積もりを提供するために、この 4 次元空間内で加重平均補間を行います。特定のデータ型のテーブルがない場合、各ディメンションはヒューリスティックとしてバイト数に正規化されます。

分析費用モデル - DCN

S カーブの集合費用モデル

S 字曲線モデルは、完全に分析的なネットワーキングのルーフラインモデルです。

概要

このモデルは、一連の固定ネットワークプロパティに基づいて、集団オペレーションのパフォーマンスを推定するように設計されています。

モデル入力

このモデルには、次の 2 つのカテゴリの入力が必要です。

固定ネットワークプロパティ（ユーザー定義）:
- 一括起動のオーバーヘッド
- NIC の速度
- RTT（ラウンドトリップ時間）
デフォルトでは、XLA はプラットフォームを自動検出し、最も一般的なアーキテクチャの値を使用します。これらのプロパティはユーザーが構成できます。詳細については、チューニングのセクションをご覧ください。
Per-Collective Inputs:
- 集合型（例: AllGather、ReduceScatter）
- 転送サイズ
- 通信に関与するノードの数

統合

S カーブモデルは XLA:GPU に統合され、Hopper と Blackwell で使用されています。

分析費用モデル - フュージョン

他のカーネルについては、GPU パフォーマンス費用モデルを使用して適切なランタイムを推定します。詳しくは、お支払い基準額をご参照ください。

チューニング

S 字曲線モデルは、適切な XLA フラグを発行することで調整できます。ほとんどの場合、デフォルトの構成で十分ですが、他のケースではモデル制御が公開されます。

export NIC_SPEED_GBPS=... # NIC speed per GPU in Gigabytes
export GPUS_PER_NODE=... # Num of GPUs per cluster interconnected with fast network (e.g. NVLINK)
export XLA_FLAGS=--xla_gpu_analytical_latency_estimator_options="nic_speed_gbps=$NIC_SPEED_GBPS,gpus_per_node=$GPUS_PER_NODE"

LHS 費用モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

要約

パフォーマンス テーブル - ICI コレクティブ

コレクタ

仕組み

データ収集パラメータ

出力

Interpolator

内部データ構造

ルックアップと補間

理由: スループットと推定

パフォーマンス テーブル - GEMM

コレクタ

仕組み

コレクション パラメータ

出力とストレージ

Interpolator

理由: FLOPS の飽和

ルックアップと補間

分析費用モデル - DCN

S カーブの集合費用モデル

概要

モデル入力

統合

分析費用モデル - フュージョン

チューニング

LHS 費用モデル

パフォーマンステーブル - ICI コレクティブ

パフォーマンステーブル - GEMM

コレクションパラメータ