ابزار نمایه HLO Op

می‌توانید از ابزار HLO Op Profile برای درک عملکرد سخت‌افزار برای دسته‌های مختلف عملیات سطح بالا (HLO) که در طول دوره نمایه‌سازی اجرا شده‌اند، استفاده کنید.

پلتفرم های پشتیبانی شده

TPU: پشتیبانی می شود

GPU: پشتیبانی می شود

با استفاده از ابزار HLO Op Profile

HLO Op Profile دارای اجزای زیر است:

  1. نمای کلی بالای صفحه خلاصه ای از استفاده کلی از FLOPهای محاسبه شتاب دهنده و پهنای باند HBM را در طول دوره پروفایل ارائه می دهد.
  2. جدول زیر نمای دقیق تری از استفاده را ارائه می دهد. این عملیات HLO اجرا شده توسط هر ماژول در طول دوره نمایه سازی را دسته بندی می کند، و شما می توانید سلسله مراتب را طی کنید و استفاده را در هر ماژول، هر دسته در یک ماژول، یا هر عملیات در یک دسته مشاهده کنید. عملیات فیوژن را می توان بیشتر گسترش داد تا عملیات غیر همجوشی و بر حسب عنصر را نشان دهد.
    • طبقه‌بندی عمدتاً توسط کامپایلر XLA تعریف می‌شود و XProf از اکتشافات اضافی در سناریوهای خاص استفاده می‌کند (به عنوان مثال، نمودار HLO را برای شناسایی «همجوشی‌های پیچشی» تجزیه می‌کند.
    • به طور پیش‌فرض، فهرست ماژول‌ها، دسته‌ها و عملیات‌ها بر اساس کسری از کل زمان صرف شده برای اجرای ماژول، دسته‌بندی یا عملیات مرتب‌سازی می‌شوند. به جای آن می‌توانید بر اساس عملیاتی که باعث کمترین استفاده از سخت‌افزار می‌شود (استفاده با وزن زمان اجرا یا «زمان تلف‌شده») مرتب‌سازی کنید. با شناسایی عملیات با استفاده کم از FLOPS و مصرف زمان زیاد، می توانید آنها را برای بهینه سازی هدف قرار دهید.
  3. با نگه داشتن ماوس روی یک عملیات در جدول، کارتی در سمت چپ ظاهر می شود که جزئیات بیشتری در مورد عملیات یا دسته عملیات نمایش می دهد. با کلیک کردن روی ورودی جدول، کارت جزئیات عملیات پین می‌شود. این کارت ها معمولاً در صورت لزوم شامل موارد زیر هستند:
    • پیوندی به عملیات در ابزار Graph Viewer.
    • میانگین زمان اجرا
    • نرخ مطلق استفاده (برخلاف میزان استفاده گزارش شده در جدول) محاسبه (TFLOP/s)، پهنای باند HBM (GB/s)، و پهنای باند خواندن و نوشتن روی تراشه (GB/s).
    • جزئیات کامل عملیات XLA از جمله جزئیات مربوط به اشکال و طرح‌بندی‌های مختلف.
    • منشأ عملیات XLA در سطح چارچوب.
    • تعداد وقوع عملیات، و کل زمان صرف شده برای عملیات در مجموع.

توجه داشته باشید که پهنای باند خام (GB/s) یا نرخ محاسباتی (TFLOP/s) با ترکیب داده های کامپایلر ایستا بر روی FLOP یا بایت های مورد نیاز برای عملیات (شماره) با اطلاعات مدت زمان در هر عملیات از نمایه (مخرج) محاسبه می شود. اعداد استفاده (درصد) با محاسبه داده‌های مصرف مطلق منبع به عنوان کسری از حداکثر محاسبه یا حداکثر پهنای باند قابلیت‌های هر شتاب‌دهنده محاسبه می‌شوند.