เครื่องมือโปรไฟล์การดำเนินการ HLO

คุณสามารถใช้เครื่องมือโปรไฟล์การดำเนินการระดับสูง (HLO) เพื่อทำความเข้าใจประสิทธิภาพของฮาร์ดแวร์สำหรับการดำเนินการระดับสูง (HLO) หมวดหมู่ต่างๆ ที่ดำเนินการในช่วงระยะเวลาโปรไฟล์

แพลตฟอร์มที่รองรับ

TPU: รองรับ

GPU: รองรับ

การใช้เครื่องมือโปรไฟล์การดำเนินการ HLO

โปรไฟล์การดำเนินการ HLO ประกอบด้วยองค์ประกอบต่อไปนี้

  1. ภาพรวมที่ด้านบนของหน้าจะแสดงข้อมูลสรุปของการใช้งานโดยรวมของ FLOPs การประมวลผลของ Accelerator และแบนด์วิดท์ HBM ในช่วงระยะเวลาการโปรไฟล์
  2. ตารางด้านล่างแสดงมุมมองการใช้งานที่ละเอียดยิ่งขึ้น โดยจะจัดหมวดหมู่การดำเนินการ HLO ที่แต่ละโมดูลดำเนินการในช่วงระยะเวลาการสร้างโปรไฟล์ และคุณสามารถไปยังส่วนต่างๆ ของลําดับชั้นและดูการใช้งานต่อโมดูล ต่อหมวดหมู่ภายในโมดูล หรือต่อการดำเนินการภายในหมวดหมู่ การดำเนินการแบบฟิวชันจะขยายเพิ่มเติมเพื่อแสดงการดำเนินการแบบไม่ฟิวชันซึ่งดำเนินการกับองค์ประกอบต่างๆ ได้
    • การจัดหมวดหมู่ส่วนใหญ่จะกำหนดโดยคอมไพเลอร์ XLA โดย XProf จะใช้วิธีการหาค่าประมาณเพิ่มเติมในบางสถานการณ์ (เช่น แยกวิเคราะห์กราฟ HLO เพื่อระบุ "การผสานการกรองเชิงซ้อน")
    • โดยค่าเริ่มต้น รายการโมดูล หมวดหมู่ และการดำเนินการจะจัดเรียงตามเศษส่วนของเวลาทั้งหมดที่ใช้ในการดำเนินการโมดูล หมวดหมู่ หรือการดำเนินการนั้นๆ คุณอาจเลือกจัดเรียงตามการดำเนินการที่ทําให้ฮาร์ดแวร์มีการใช้งานน้อยที่สุดแทน (การใช้งานที่ถ่วงน้ำหนักตามรันไทม์ของการดำเนินการ หรือ "เวลาที่สูญเปล่า") โดยการระบุการดำเนินการที่มีการใช้งาน FLOPS ต่ำและใช้เวลาสูง คุณสามารถกําหนดเป้าหมายการดำเนินการดังกล่าวเพื่อเพิ่มประสิทธิภาพได้
  3. การวางเมาส์เหนือการดำเนินการในตารางจะแสดงการ์ดทางด้านซ้ายซึ่งแสดงรายละเอียดเพิ่มเติมเกี่ยวกับการดำเนินการหรือหมวดหมู่การดำเนินการ การคลิกรายการที่แก้ไขได้จะปักหมุดการ์ดรายละเอียดการดำเนินการ โดยปกติแล้วการ์ดเหล่านี้จะมีข้อมูลต่อไปนี้ตามเหมาะสม
    • ลิงก์ไปยังการดำเนินการในเครื่องมือเครื่องมือดูกราฟ
    • เวลาดำเนินการโดยเฉลี่ย
    • อัตราการใช้งานสัมบูรณ์ (ตรงข้ามกับการใช้งานที่รายงานในตาราง) ของการคำนวณ (TFLOP/วินาที), แบนด์วิดท์ HBM (GB/วินาที) และแบนด์วิดท์การอ่านและการเขียนบนชิป (GB/วินาที)
    • รายละเอียดการดำเนินการ XLA แบบเต็ม รวมถึงรายละเอียดเกี่ยวกับรูปร่างและเลย์เอาต์ต่างๆ
    • แหล่งที่มาของการดำเนินการ XLA ที่ระดับเฟรมเวิร์ก
    • จํานวนครั้งที่เกิดการดำเนินการ และเวลาทั้งหมดที่ใช้กับการดำเนินการโดยรวม

โปรดทราบว่าแบนด์วิดท์ดิบ (GB/วินาที) หรืออัตราการประมวลผล (TFLOP/วินาที) จะคํานวณโดยการรวมข้อมูลคอมไพเลอร์แบบคงที่เกี่ยวกับ FLOP หรือไบต์ที่จําเป็นสําหรับการดำเนินการ (ตัวส่วนเพิ่ม) เข้ากับข้อมูลระยะเวลาต่อการดำเนินการจากโปรไฟล์ (ตัวส่วนนํา) ตัวเลขการใช้งาน (เปอร์เซ็นต์) จะคำนวณโดยการคำนวณข้อมูลการใช้ทรัพยากรสัมบูรณ์เป็นเศษส่วนของความสามารถการประมวลผลสูงสุดหรือแบนด์วิดท์สูงสุดต่อ Accelerator