HLO 運算設定檔工具
您可以使用 HLO 運算設定檔工具,瞭解剖析期間執行的不同類別高階運算 (HLO) 運算的硬體效能。
支援平台
TPU:支援
GPU:支援
使用 HLO Op Profile 工具
HLO 作業設定檔包含下列元件:
- 頁面頂端的總覽提供加速器計算 FLOP 和 HBM 頻寬在剖析期間的整體使用率摘要。
- 下表提供更精細的使用率資訊。它會將在剖析期間由各模組執行的 HLO 作業分類,您可以逐一檢視階層,並查看每個模組、模組內的每個類別或類別內的每個作業的使用情形。您可以進一步展開 Fusion 運算,查看其中包含的非 Fusion 元素運算。
- 分類作業主要由 XLA 編譯器定義,XProf 會在特定情況下採用額外的推論法 (例如剖析 HLO 圖表以識別「卷積融合」)。
- 根據預設,模組、類別和運算的清單會依執行模組、類別或運算所花費的總時間比例排序。您可以改為依據造成硬體使用率偏低 (利用率以運算的執行時間或「浪費時間」加權) 的運算進行排序。只要找出 FLOPS 利用率偏低且耗用時間較多的運算,您就可以將這些運算設為目標,進行最佳化。
- 將滑鼠游標懸停在表格中的運算上,左側會顯示資訊卡,提供更多有關運算或運算類別的詳細資料。按一下表格項目即可釘選作業詳細資料資訊卡。這些資訊卡通常會視情況納入下列資訊:
- Graph Viewer 工具中 op 的連結。
- 平均執行時間。
- 運算 (TFLOP/s)、HBM 頻寬 (GB/s) 和晶片上讀取/寫入頻寬 (GB/s) 的使用率 (與表格中報告的使用率不同)。
- 完整的 XLA 運算詳細資料,包括各種形狀和版面配置的詳細資料。
- XLA 運算在架構層級的來源。
- 作業的發生次數,以及作業的總耗用時間。
請注意,原始頻寬 (GB/s) 或運算率 (TFLOP/s) 的計算方式是將 FLOP 或作業所需的位元組 (分母) 的靜態編譯器資料,與設定檔中每個作業的持續時間資訊 (分母) 結合。系統會將每個加速器的尖峰運算或頻寬能力,視為絕對資源耗用量資料的一部分,藉此計算使用率數字 (百分比)。