HLO 演算プロファイル ツール

HLO Op Profile ツールを使用すると、プロファイリング期間中に実行されたさまざまなカテゴリの高レベル演算(HLO)演算のハードウェア パフォーマンスを把握できます。

サポートされているプラットフォーム

TPU: サポート対象

GPU: サポート対象

HLO 演算プロファイル ツールを使用する

HLO Op プロファイルには次のコンポーネントがあります。

  1. ページ上部の概要には、プロファイリング期間中のアクセラレータ コンピューティング FLOP と HBM 帯域幅の全体的な使用率の概要が表示されます。
  2. 次の表に、使用率の詳細を示します。プロファイリング期間中に各モジュールによって実行された HLO オペレーションが分類されます。階層を走査して、モジュールごと、モジュール内のカテゴリごと、カテゴリ内のオペレーションごとに使用率を表示できます。fusion 演算をさらに展開すると、fusion 以外の要素ごとの演算が表示されます。
    • 分類は主に XLA コンパイラによって定義されます。XProf は、特定のシナリオで追加のヒューリスティクスを使用します(例: HLO グラフを解析して「畳み込みの融合」を特定します)。
    • デフォルトでは、モジュール、カテゴリ、オペレーションのリストは、モジュール、カテゴリ、オペレーションの実行に費やされた合計時間の割合で並べ替えられます。代わりに、ハードウェアの使用率が最も低いオペレーション(オペレーションの実行時間、つまり「無駄な時間」で重み付けされた使用率)で並べ替えることもできます。FLOPS 使用率が低く、時間消費量が多いオペレーションを特定することで、それらをターゲットにして最適化できます。
  3. テーブル内の演算にカーソルを合わせると、左側にカードが表示され、演算または演算カテゴリの詳細が表示されます。表のエントリをクリックすると、オペレーションの詳細カードが固定されます。通常、これらのカードには、必要に応じて次の情報が表示されます。
    • Graph Viewer ツールの op へのリンク。
    • 平均実行時間。
    • コンピューティング(TFLOP/秒)、HBM 帯域幅(GB/秒)、オンチップの読み取りと書き込みの帯域幅(GB/秒)の絶対使用率(表に表示される使用率とは対照的)。
    • さまざまなシェイプとレイアウトに関する詳細など、XLA オペレーションの詳細。
    • フレームワーク レベルでの XLA オペレーションの来歴。
    • オペレーションの発生回数と、オペレーションに費やされた合計時間。

なお、元の帯域幅(GB/秒)またはコンピューティング レート(TFLOP/秒)は、オペレーションに必要な FLOP またはバイトに関する静的コンパイラ データ(分子)と、プロファイルのオペレーションあたりの所要時間情報(分母)を組み合わせて計算されます。使用率の数値(%)は、アクセラレータあたりのピーク コンピューティング能力またはピーク帯域幅能力の割合として、絶対的なリソース使用量データを計算することで計算されます。