Alat Profil Operasi HLO
Anda dapat menggunakan alat Profil Operasi HLO untuk memahami performa hardware untuk berbagai kategori operasi Operasi Tingkat Tinggi (HLO) yang dijalankan selama periode pembuatan profil.
Platform yang Didukung
TPU: Didukung
GPU: Didukung
Menggunakan alat Profil Operasi HLO
Profil Operasi HLO memiliki komponen berikut:
- Ringkasan di bagian atas halaman memberikan ringkasan penggunaan keseluruhan FLOP komputasi akselerator dan bandwidth HBM selama periode pembuatan profil.
- Tabel di bawah memberikan tampilan penggunaan yang lebih terperinci. Alat ini mengategorikan
operasi HLO yang dieksekusi oleh setiap modul selama periode pembuatan profil, dan Anda dapat
melintasi hierarki dan melihat penggunaan per modul, per kategori dalam
modul, atau per operasi dalam kategori. Operasi penggabungan dapat diperluas
lebih lanjut untuk menampilkan operasi non-penggabungan per elemen yang dikandungnya.
- Kategorisasi sebagian besar ditentukan oleh compiler XLA, dengan XProf menggunakan heuristik tambahan dalam skenario tertentu (misalnya, mengurai grafik HLO untuk mengidentifikasi “fusi konvolusi”).
- Secara default, daftar modul, kategori, dan operasi diurutkan berdasarkan fraksi total waktu yang dihabiskan untuk menjalankan modul, kategori, atau operasi. Anda dapat memilih untuk mengurutkan berdasarkan operasi yang menyebabkan pemanfaatan hardware yang paling rendah (pemanfaatan yang diberi bobot berdasarkan runtime operasi, atau "waktu yang terbuang"). Dengan mengidentifikasi operasi dengan pemanfaatan FLOPS yang rendah dan konsumsi waktu yang tinggi, Anda dapat menargetkannya untuk pengoptimalan.
- Mengarahkan kursor ke operasi dalam tabel akan menampilkan kartu di sisi kiri
yang menampilkan detail selengkapnya tentang operasi atau kategori operasi. Mengklik
entri tabel akan menyematkan kartu detail operasi. Kartu ini biasanya mencakup
hal-hal berikut, sebagaimana mestinya:
- Link ke operasi di alat Graph Viewer.
- Waktu eksekusi rata-rata.
- Rasio penggunaan absolut (berbeda dengan penggunaan yang dilaporkan dalam tabel) komputasi (TFLOP/s), bandwidth HBM (GB/s), dan bandwidth baca dan tulis di chip (GB/s).
- Detail operasi XLA lengkap termasuk detail terkait berbagai bentuk dan tata letak.
- Asal operasi XLA di tingkat framework.
- Jumlah kemunculan operasi, dan total waktu yang dihabiskan untuk operasi secara agregat.
Perhatikan bahwa bandwidth mentah (GB/s) atau kecepatan komputasi (TFLOP/s) dihitung dengan menggabungkan data compiler statis pada FLOP atau byte yang diperlukan untuk operasi (pembilang) dengan informasi durasi per operasi dari profil (penyebut). Jumlah penggunaan (persentase) dihitung dengan menghitung data konsumsi resource absolut sebagai fraksi dari kemampuan komputasi puncak atau bandwidth puncak per akselerator.