Alat Profil Operasi HLO

Anda dapat menggunakan alat Profil Operasi HLO untuk memahami performa hardware untuk berbagai kategori operasi Operasi Tingkat Tinggi (HLO) yang dijalankan selama periode pembuatan profil.

Platform yang Didukung

TPU: Didukung

GPU: Didukung

Menggunakan alat Profil Operasi HLO

Profil Operasi HLO memiliki komponen berikut:

  1. Ringkasan di bagian atas halaman memberikan ringkasan penggunaan keseluruhan FLOP komputasi akselerator dan bandwidth HBM selama periode pembuatan profil.
  2. Tabel di bawah memberikan tampilan penggunaan yang lebih terperinci. Alat ini mengategorikan operasi HLO yang dieksekusi oleh setiap modul selama periode pembuatan profil, dan Anda dapat melintasi hierarki dan melihat penggunaan per modul, per kategori dalam modul, atau per operasi dalam kategori. Operasi penggabungan dapat diperluas lebih lanjut untuk menampilkan operasi non-penggabungan per elemen yang dikandungnya.
    • Kategorisasi sebagian besar ditentukan oleh compiler XLA, dengan XProf menggunakan heuristik tambahan dalam skenario tertentu (misalnya, mengurai grafik HLO untuk mengidentifikasi “fusi konvolusi”).
    • Secara default, daftar modul, kategori, dan operasi diurutkan berdasarkan fraksi total waktu yang dihabiskan untuk menjalankan modul, kategori, atau operasi. Anda dapat memilih untuk mengurutkan berdasarkan operasi yang menyebabkan pemanfaatan hardware yang paling rendah (pemanfaatan yang diberi bobot berdasarkan runtime operasi, atau "waktu yang terbuang"). Dengan mengidentifikasi operasi dengan pemanfaatan FLOPS yang rendah dan konsumsi waktu yang tinggi, Anda dapat menargetkannya untuk pengoptimalan.
  3. Mengarahkan kursor ke operasi dalam tabel akan menampilkan kartu di sisi kiri yang menampilkan detail selengkapnya tentang operasi atau kategori operasi. Mengklik entri tabel akan menyematkan kartu detail operasi. Kartu ini biasanya mencakup hal-hal berikut, sebagaimana mestinya:
    • Link ke operasi di alat Graph Viewer.
    • Waktu eksekusi rata-rata.
    • Rasio penggunaan absolut (berbeda dengan penggunaan yang dilaporkan dalam tabel) komputasi (TFLOP/s), bandwidth HBM (GB/s), dan bandwidth baca dan tulis di chip (GB/s).
    • Detail operasi XLA lengkap termasuk detail terkait berbagai bentuk dan tata letak.
    • Asal operasi XLA di tingkat framework.
    • Jumlah kemunculan operasi, dan total waktu yang dihabiskan untuk operasi secara agregat.

Perhatikan bahwa bandwidth mentah (GB/s) atau kecepatan komputasi (TFLOP/s) dihitung dengan menggabungkan data compiler statis pada FLOP atau byte yang diperlukan untuk operasi (pembilang) dengan informasi durasi per operasi dari profil (penyebut). Jumlah penggunaan (persentase) dihitung dengan menghitung data konsumsi resource absolut sebagai fraksi dari kemampuan komputasi puncak atau bandwidth puncak per akselerator.