ภาพรวมข้อผิดพลาด XLA

ข้อผิดพลาด XLA จะจัดหมวดหมู่ตามแหล่งที่มาของข้อผิดพลาด XLA ที่แตกต่างกัน แหล่งที่มาแต่ละรายการจะมี รายการบริบทเพิ่มเติมอื่นๆ นอกเหนือจากข้อความแสดงข้อผิดพลาด ซึ่งจะ แนบไปกับข้อผิดพลาดแต่ละรายการภายในหมวดหมู่

🚧 โปรดทราบว่าความพยายามในการกำหนดมาตรฐานนี้อยู่ระหว่างดำเนินการ ดังนั้นข้อความแสดงข้อผิดพลาดบางรายการอาจยังไม่มีรหัสข้อผิดพลาดแนบมา

ตัวอย่างบันทึกข้อผิดพลาดอาจมีลักษณะดังนี้

XlaRuntimeError: RESOURCE_EXHAUSTED: XLA:TPU compile permanent error. Ran out of memory in memory space hbm. Used 49.34G of 32.00G hbm. Exceeded hbm capacity by 17.34G. Total hbm usage >= 49.34G: reserved 3.12M program unknown size arguments 49.34G

JaxRuntimeError: RESOURCE_EXHAUSTED: Ran out of memory in memory space vmem while allocating on stack for %ragged_latency_optimized_all_gather_lhs_contracting_gated_matmul_kernel.18 = bf16[2048,4096]{1,0:T(8,128)(2,1)} custom-call(%get-tuple-element.18273, %get-tuple-element.18274, %get-tuple-element.18275, %get-tuple-element.18276, %get-tuple-element.18277, /*index=5*/%bitcast.8695, %get-tuple-element.19201, %get-tuple-element.19202, %get-tuple-element.19203, %get-tuple-element.19204), custom_call_target=""

สถานะและความล้มเหลวของ CHECK

โดยทั่วไปใน XLA เราจะแจ้งการดำเนินการที่เสียหายได้ด้วยกลไก 2 อย่าง ได้แก่ สถานะ และความล้มเหลวของมาโคร CHECK

สถานะมีไว้สำหรับข้อผิดพลาดที่ไม่ร้ายแรงและกู้คืนได้ สมมติว่า ฟังก์ชันแสดงผล และการดำเนินการจะดำเนินต่อไปตามเส้นทางที่ผู้เรียก ตรวจสอบออบเจ็กต์สถานะที่แสดงผลอย่างชัดเจน ซึ่งมีประโยชน์ในการจัดการอินพุตของผู้ใช้ที่ไม่ถูกต้องหรือข้อจำกัดด้านทรัพยากรที่คาดไว้

ในทางกลับกัน ความล้มเหลวของ CHECK ครอบคลุมข้อผิดพลาดของโปรแกรมเมอร์หรือการละเมิด อินวาริแอนต์ที่ไม่ควรเกิดขึ้นหากโค้ดถูกต้อง ในกรณีที่ เปิดใช้งาน CHECK โปรแกรมจะบันทึกข้อความแสดงข้อผิดพลาดและสิ้นสุดทันที ซึ่งอาจช่วยให้มั่นใจถึงความสอดคล้องภายใน เช่น การตรวจสอบว่าพอยน์เตอร์ ไม่ใช่ค่าว่างก่อนที่จะยกเลิกการอ้างอิง

รหัสข้อผิดพลาด

นี่คือรายการดัชนีที่มีรหัสข้อผิดพลาดทั้งหมด