XProf は、ML のプロファイリングとパフォーマンス分析のツールです。
機能
- ハードウェア イベントとカウンタ、コンパイラ メタデータに基づく高品質のプロファイル情報。
- 収集オーバーヘッドが低い。通常、プロファイリング期間中に TPU で 1% 未満、GPU で 5% 未満。
- ワークロードを深く理解するための幅広いツールスイート:
- 概要ページ: プロファイル実行中のモデルのパフォーマンスの概要(ハードウェア リソースの利用状況など)を表示します。
- Trace Viewer: 発生したイベントの詳細なタイムラインと、それらのイベントを実行したシステムのどの部分(CPU、TPU、GPU)。
- グラフ ビューア: XLA プログラムのグラフ構造を可視化します。High Level Operations(HLO)グラフが表示されます。
- メモリビューア: プログラムの存続期間全体でのメモリ使用量を可視化し、ピーク時のメモリ使用量におけるメモリの内容の詳細を調べます。
- メモリ プロファイル: プログラムの実行中にアクセラレータの動的メモリ使用量を可視化します。
- HLO Op Profile: プログラムで実行されるさまざまなカテゴリの High Level Operation(HLO)演算のハードウェア パフォーマンスを把握します。
- HLO Op Stats: プログラムによって実行された High Level Optimizer(HLO)オペレーションのパフォーマンス統計情報を確認し、HLO グラフ内で最も時間のかかるオペレーションを特定します。
- フレームワーク オペレーション統計情報: フレームワーク レベルのオペレーション(ホストとアクセラレータで実行される JAX、TensorFlow、PyTorch/XLA)。
- ルーフライン分析: プログラムのパフォーマンスに影響する固有のハードウェア制限を示す直感的なパフォーマンス モデルを確認し、メモリ依存型か計算依存型かを確認します。
- メガスケール統計情報: データセンター ネットワーク(DCN)を介して通信する複数の TPU スライスにまたがるワークロードのスライス間通信パフォーマンスを分析します。
- GPU カーネル統計情報: プログラム内の GPU アクセラレータ カーネルごとに、パフォーマンス統計情報と元のフレームワーク オペレーションを確認します。
スタートガイド
インストール手順については、XProf クイック スタートをご覧ください。
Google Cloud を使用してワークロードを実行する場合は、xprofiler ツールをおすすめします。XProf を実行する VM を使用して、プロファイルの収集と表示を効率化します。
XProf の機能を簡単に試すには、デモ ノートブックをお試しください。
TensorBoard の統合
従来は、XProf をインストールして使用するには Tensorboard を使用するしかありませんでした。これは TensorBoard プラグイン プロファイルと呼ばれていました。古いドキュメントでは、この用語がまだ使用されている可能性があります。この統合はオプションになりました。Tensorboard は XProf ツールスイートのコンテナと考えることができます。このコンテナは、同じ動作でスタンドアロンでインストールして使用することもできます。