Strumento per i profili delle operazioni HLO

Puoi utilizzare lo strumento Profilo operazioni HLO per comprendere le prestazioni dell'hardware per diverse categorie di operazioni di alto livello (HLO) eseguite durante il periodo di profilatura.

Piattaforme supportate

TPU: supportata

GPU: supportata

Utilizzo dello strumento Profilo operazione HLO

Il profilo dell'operatore HLO è costituito dai seguenti componenti:

  1. La panoramica nella parte superiore della pagina fornisce un riepilogo dell'utilizzo complessivo dei FLOP di calcolo dell'acceleratore e della larghezza di banda HBM durante il periodo di profilatura.
  2. La tabella seguente fornisce una visione più granulare dell'utilizzo. Classifica le operazioni HLO eseguite da ciascun modulo durante il periodo di profilazione e puoi esplorare la gerarchia e visualizzare l'utilizzo per modulo, per categoria all'interno di un modulo o per operazione all'interno di una categoria. Le operazioni di fusione possono essere ulteriormente approfondite per mostrare le operazioni elementari non di fusione che contengono.
    • La categorizzazione è definita principalmente dal compilatore XLA, con XProf che applica euristiche aggiuntive in determinati scenari (ad es. analizza il grafico HLO per identificare le "fusioni di convoluzione").
    • Per impostazione predefinita, l'elenco di moduli, categorie e operazioni è ordinato in base alla frazione del tempo totale impiegato per l'esecuzione del modulo, della categoria o dell'operazione. In alternativa, puoi scegliere di ordinare in base alle operazioni che causano il maggior sottoutilizzo dell'hardware (utilizzo ponderato in base al tempo di esecuzione dell'operazione o "tempo perso"). Identificando le operazioni con un utilizzo ridotto dei FLOPS e un elevato consumo di tempo, puoi sceglierle come target per l'ottimizzazione.
  3. Se passi il mouse sopra un'operazione nella tabella, viene visualizzata una scheda sul lato sinistro con ulteriori dettagli sull'operazione o sulla categoria dell'operazione. Se fai clic su una voce della tabella, la scheda dei dettagli dell'operazione viene bloccata. In genere, queste schede includono quanto segue, a seconda dei casi:
    • Un link all'operazione nello strumento Visualizzatore grafici.
    • Tempo di esecuzione medio.
    • Rate di utilizzo assoluto (a differenza dell'utilizzo riportato nella tabella) dell'elaborazione (TFLOP/s), della larghezza di banda HBM (GB/s) e della larghezza di banda di lettura e scrittura on-chip (GB/s).
    • I dettagli completi dell'operazione XLA, inclusi i dettagli relativi a varie forme e layout.
    • La provenienza dell'operazione XLA a livello di framework.
    • Il numero di occorrenze dell'operazione e il tempo totale impiegato per l'operazione in aggregato.

Tieni presente che le larghezza di banda non elaborate (GB/s) o le frequenze di calcolo (TFLOP/s) vengono calcolate combinando i dati statici del compilatore su FLOP o byte richiesti per l'operazione (il numeratore) con le informazioni sulla durata per operazione del profilo (il denominatore). I valori di utilizzo (percentuali) vengono calcolati calcolando i dati assoluti sul consumo delle risorse come frazione delle capacità di calcolo o larghezza di banda di picco per acceleratore.