HLO Op-Profil-Tool
Mit dem HLO Op Profile-Tool können Sie die Hardwareleistung für verschiedene Kategorien von High-Level-Operationen (HLO) ermitteln, die während des Profilerstellungszeitraums ausgeführt wurden.
Unterstützte Plattformen
TPU: Unterstützt
GPU: Unterstützt
HLO Op Profile-Tool verwenden
Das HLO-Op-Profil hat die folgenden Komponenten:
- Die Übersicht oben auf der Seite enthält eine Zusammenfassung der Gesamtauslastung der FLOPs der Beschleuniger-Rechenleistung und der HBM-Bandbreite während des Profilingzeitraums.
- In der folgenden Tabelle finden Sie eine detailliertere Übersicht über die Auslastung. Die HLO-Vorgänge, die von den einzelnen Modulen während des Profilingzeitraums ausgeführt wurden, werden hier kategorisiert. Sie können die Hierarchie durchlaufen und die Auslastung pro Modul, pro Kategorie innerhalb eines Moduls oder pro Vorgang innerhalb einer Kategorie aufrufen. Fusionsvorgänge können weiter maximiert werden, um die darin enthaltenen nicht fusionierten, elementweisen Vorgänge anzuzeigen.
- Die Kategorisierung wird hauptsächlich vom XLA-Compiler definiert.XProf verwendet in bestimmten Szenarien zusätzliche Heuristiken. So wird beispielsweise die HLO-Graph zu „Convolution Fusions“ analysiert.
- Standardmäßig wird die Liste der Module, Kategorien und Vorgänge nach dem Anteil der Gesamtzeit sortiert, der für die Ausführung des Moduls, der Kategorie oder des Vorgangs aufgewendet wird. Sie können stattdessen nach Vorgängen sortieren, die die Hardware am stärksten unterfordern (Auslastung gewichtet nach der Laufzeit des Vorgangs oder „verschwendete Zeit“). Wenn Sie Vorgänge mit geringer FLOPS-Auslastung und hohem Zeitaufwand ermitteln, können Sie sie optimieren.
- Wenn Sie den Mauszeiger auf einen Vorgang in der Tabelle bewegen, wird links eine Karte mit weiteren Details zum Vorgang oder zur Vorgangskategorie angezeigt. Wenn Sie auf einen Tabelleneintrag klicken, wird die Karte mit den Details zur Operation angepinnt. Diese Karten enthalten in der Regel Folgendes:
- Ein Link zur Operation im Graph Viewer-Tool.
- Durchschnittliche Ausführungszeit.
- Absolute Nutzungsraten (im Gegensatz zur in der Tabelle angegebenen Auslastung) der Rechenleistung (TFLOP/s), der HBM-Bandbreite (GB/s) und der On-Chip-Lese- und Schreibbandbreite (GB/s).
- Die vollständigen XLA-Betriebsdetails, einschließlich Details zu verschiedenen Formen und Layouts.
- Die Herkunft der XLA-Operation auf Frameworkebene.
- Die Anzahl der Vorkommen der Operation und die Gesamtzeit, die für die Operation aufgewendet wurde.
Die Rohbandbreiten (GB/s) oder Rechenraten (TFLOP/s) werden berechnet, indem statische Compilerdaten zu FLOPs oder Bytes, die für die Operation erforderlich sind (Nenner), mit den Informationen zur Dauer pro Operation aus dem Profil (Zähler) kombiniert werden. Die Auslastungszahlen (Prozentsätze) werden berechnet, indem die absoluten Ressourcenverbrauchsdaten als Bruchteil der maximalen Rechenleistung oder der maximalen Bandbreitenkapazität pro Beschleuniger berechnet werden.