ابزار پروفایل عملیاتی HLO

شما می‌توانید از ابزار HLO Op Profile برای درک عملکرد سخت‌افزار برای دسته‌های مختلف عملیات سطح بالا (HLO) که در طول دوره پروفایلینگ اجرا می‌شوند، استفاده کنید.

پلتفرم‌های پشتیبانی‌شده

هم TPU و هم GPU پشتیبانی می‌شوند.

استفاده از ابزار HLO Op Profile

HLO Op Profile دارای اجزای زیر است:

  1. نمای کلی در بالای صفحه، خلاصه‌ای از میزان استفاده کلی از فلاپ‌های محاسباتی شتاب‌دهنده و پهنای باند HBM در طول دوره پروفایلینگ را ارائه می‌دهد.

    ابزار پروفایل عملیاتی HLO

  2. جدول زیر نمای جزئی‌تری از میزان مصرف ارائه می‌دهد. این جدول، عملیات HLO اجرا شده توسط هر ماژول را در طول دوره پروفایل‌بندی دسته‌بندی می‌کند و شما می‌توانید سلسله مراتب را طی کرده و میزان مصرف را به ازای هر ماژول، به ازای هر دسته در یک ماژول یا به ازای هر عملیات در یک دسته مشاهده کنید. عملیات ادغام را می‌توان بیشتر گسترش داد تا عملیات غیر ادغامی و مبتنی بر عنصری که در بر دارند را نشان دهد.

    • این دسته‌بندی عمدتاً توسط کامپایلر XLA تعریف می‌شود، و XProf در سناریوهای خاص از روش‌های اکتشافی اضافی استفاده می‌کند (مثلاً نمودار HLO را برای شناسایی «ترکیب‌های کانولوشن» تجزیه می‌کند).
    • به طور پیش‌فرض، لیست ماژول‌ها، دسته‌ها و عملیات‌ها بر اساس کسری از کل زمان صرف شده برای اجرای ماژول، دسته یا عملیات مرتب می‌شود. در عوض، می‌توانید مرتب‌سازی را بر اساس عملیاتی انجام دهید که بیشترین استفاده کم از سخت‌افزار را ایجاد می‌کنند (بهره‌برداری وزن‌دار با زمان اجرای عملیات یا «زمان تلف‌شده»). با شناسایی عملیات‌هایی با استفاده کم از FLOPS و مصرف زمان بالا، می‌توانید آنها را برای بهینه‌سازی هدف قرار دهید.
  3. با نگه داشتن ماوس روی یک عملیات در جدول، کارتی در سمت چپ ظاهر می‌شود که جزئیات بیشتری در مورد عملیات یا دسته عملیات را نشان می‌دهد. کلیک روی ورودی جدول، کارت جزئیات عملیات را پین می‌کند.

    ابزار پروفایل عملیاتی HLO با کارت جزئیات عملیاتی پین‌شده

    این کارت‌ها معمولاً شامل موارد زیر هستند، بسته به مورد:

    • پیوندی به گزینه در ابزار Graph Viewer .
    • میانگین زمان اجرا.
    • نرخ‌های مطلق استفاده (برخلاف استفاده گزارش‌شده در جدول) از توان محاسباتی (ترافلاپ بر ثانیه)، پهنای باند حافظه HBM (گیگابایت بر ثانیه) و پهنای باند خواندن و نوشتن روی تراشه (گیگابایت بر ثانیه).
    • جزئیات کامل XLA op شامل جزئیات مربوط به اشکال و طرح‌های مختلف.
    • منشأ XLA op در سطح چارچوب.
    • تعداد دفعات وقوع عملیات، و کل زمان صرف شده برای عملیات در مجموع.

توجه داشته باشید که پهنای باند خام (GB/s) یا نرخ محاسبات (TFLOP/s) با ترکیب داده‌های استاتیک کامپایلر بر روی FLOPها یا بایت‌های مورد نیاز برای عملیات (صورت کسر) با اطلاعات مدت زمان به ازای هر عملیات از پروفایل (مخرج کسر) محاسبه می‌شوند. اعداد استفاده (درصدها) با محاسبه داده‌های مطلق مصرف منابع به عنوان کسری از قابلیت‌های اوج محاسبات یا اوج پهنای باند به ازای هر شتاب‌دهنده محاسبه می‌شوند.