Ringkasan Error XLA

Error XLA dikategorikan ke dalam berbagai sumber error XLA. Setiap sumber memiliki daftar konteks tambahan selain pesan error, yang akan dilampirkan ke setiap error dalam kategori.

🚧 Perhatikan bahwa upaya standarisasi ini masih dalam proses, sehingga tidak semua pesan error akan memiliki kode error yang terlampir.

Contoh log error mungkin terlihat seperti:

XlaRuntimeError: RESOURCE_EXHAUSTED: XLA:TPU compile permanent error. Ran out of memory in memory space hbm. Used 49.34G of 32.00G hbm. Exceeded hbm capacity by 17.34G. Total hbm usage >= 49.34G: reserved 3.12M program unknown size arguments 49.34G

JaxRuntimeError: RESOURCE_EXHAUSTED: Ran out of memory in memory space vmem while allocating on stack for %ragged_latency_optimized_all_gather_lhs_contracting_gated_matmul_kernel.18 = bf16[2048,4096]{1,0:T(8,128)(2,1)} custom-call(%get-tuple-element.18273, %get-tuple-element.18274, %get-tuple-element.18275, %get-tuple-element.18276, %get-tuple-element.18277, /*index=5*/%bitcast.8695, %get-tuple-element.19201, %get-tuple-element.19202, %get-tuple-element.19203, %get-tuple-element.19204), custom_call_target=""

Status dan kegagalan PEMERIKSAAN

Secara umum, di XLA, kita dapat menandai eksekusi yang rusak dengan dua mekanisme: status dan kegagalan makro CHECK.

Status ditujukan untuk error non-fatal yang dapat dipulihkan. Asumsinya adalah fungsi akan ditampilkan, dan eksekusi berlanjut di jalur tempat pemanggil secara eksplisit memeriksa objek Status yang ditampilkan. Hal ini berguna untuk menangani input pengguna yang tidak valid atau batasan resource yang diharapkan.

Di sisi lain, kegagalan CHECK mencakup error programmer atau pelanggaran invarian yang seharusnya tidak pernah terjadi jika kodenya benar. Jika CHECK diaktifkan, program akan mencatat pesan error dan segera berhenti. Hal ini dapat memastikan konsistensi internal, seperti memeriksa apakah pointer tidak bernilai null sebelum melakukan dereferensi.

Kode error

Berikut adalah daftar indeks dengan semua kode error.