記憶體設定檔工具

您可以使用記憶體設定檔,以視覺化方式呈現加速器在一段時間內的記憶體用量。

支援平台

TPU:支援

GPU:支援

使用記憶體設定檔工具

記憶體設定檔包含下列元件:

  • 頁面頂端的記憶體 ID 選取器可讓您專注於附加至其中一個不同加速器的高速頻寬記憶體 (HBM),該加速器可能會連線至要分析的主機,甚至在某些情況下連線至主機記憶體。
  • 「記憶體時間軸圖」和「記憶體設定檔摘要」會擷取設定檔期間的記憶體配置、釋放和用量高層資訊,包括堆疊和堆積的細目說明,以及碎片化造成的任何影響。
  • 記憶體細目表會提供架構層級作業的相關資訊,這些作業對記憶體用量影響最大。如果編譯器將這些資訊提供給 XProf,則也會有額外的個別作業詳細資料,例如形狀、資料類型等。表格會顯示剖析視窗中尖峰使用率的詳細資料,以利偵錯記憶體不足 (OOM) 情況。
  • 分配和釋放作業由 XLA 的執行階段配置器管理 (並新增至設定檔),該配置器擁有整個 HBM 記憶體空間。
  • 請注意,記憶體設定檔通常對 GPU 剖析而言比 TPU 工作負載更有價值。TPU 執行模式通常會涉及 XLA 編譯器的大量預先分配,而不是在模型訓練或推論期間。因此,您經常會看到分配圖表看起來像是平行的水平線;分配作業很可能發生在設定檔的開頭 (如果剖析器在執行期間的該點處於啟用狀態),因此很難看見。
  • 記憶體設定檔摘要和記憶體時間軸圖表中的碎片化指標 (以百分比表示),有助於找出記憶體碎片化問題。碎片化值偏高表示雖然總可用記憶體可能足夠,但並非連續,因此大型分配要求可能會失敗。

這項工具與「記憶體檢視器」工具之間的幾項重要差異:

  • 記憶體檢視器是純粹的靜態檢視器,主要著重於程式順序;記憶體設定檔則會在分析期間提供動態檢視畫面。
  • 記憶體檢視器會根據每個 XLA 模組,以視覺化方式呈現記憶體配置;對於包含多個 XLA 模組的工作負載,記憶體設定檔會提供記憶體的全球檢視畫面。