ابزار پروفایل عملیاتی HLO
شما میتوانید از ابزار HLO Op Profile برای درک عملکرد سختافزار برای دستههای مختلف عملیات سطح بالا (HLO) که در طول دوره پروفایلینگ اجرا میشوند، استفاده کنید.
پلتفرمهای پشتیبانیشده
هم TPU و هم GPU پشتیبانی میشوند.
استفاده از ابزار HLO Op Profile
HLO Op Profile دارای اجزای زیر است:
نمای کلی در بالای صفحه، خلاصهای از میزان استفاده کلی از فلاپهای محاسباتی شتابدهنده و پهنای باند HBM در طول دوره پروفایلینگ را ارائه میدهد.

جدول زیر نمای جزئیتری از میزان مصرف ارائه میدهد. این جدول، عملیات HLO اجرا شده توسط هر ماژول را در طول دوره پروفایلبندی دستهبندی میکند و شما میتوانید سلسله مراتب را طی کرده و میزان مصرف را به ازای هر ماژول، به ازای هر دسته در یک ماژول یا به ازای هر عملیات در یک دسته مشاهده کنید. عملیات ادغام را میتوان بیشتر گسترش داد تا عملیات غیر ادغامی و مبتنی بر عنصری که در بر دارند را نشان دهد.
- این دستهبندی عمدتاً توسط کامپایلر XLA تعریف میشود، و XProf در سناریوهای خاص از روشهای اکتشافی اضافی استفاده میکند (مثلاً نمودار HLO را برای شناسایی «ترکیبهای کانولوشن» تجزیه میکند).
- به طور پیشفرض، لیست ماژولها، دستهها و عملیاتها بر اساس کسری از کل زمان صرف شده برای اجرای ماژول، دسته یا عملیات مرتب میشود. در عوض، میتوانید مرتبسازی را بر اساس عملیاتی انجام دهید که بیشترین استفاده کم از سختافزار را ایجاد میکنند (بهرهبرداری وزندار با زمان اجرای عملیات یا «زمان تلفشده»). با شناسایی عملیاتهایی با استفاده کم از FLOPS و مصرف زمان بالا، میتوانید آنها را برای بهینهسازی هدف قرار دهید.
با نگه داشتن ماوس روی یک عملیات در جدول، کارتی در سمت چپ ظاهر میشود که جزئیات بیشتری در مورد عملیات یا دسته عملیات را نشان میدهد. کلیک روی ورودی جدول، کارت جزئیات عملیات را پین میکند.

این کارتها معمولاً شامل موارد زیر هستند، بسته به مورد:
- پیوندی به گزینه در ابزار Graph Viewer .
- میانگین زمان اجرا.
- نرخهای مطلق استفاده (برخلاف استفاده گزارششده در جدول) از توان محاسباتی (ترافلاپ بر ثانیه)، پهنای باند حافظه HBM (گیگابایت بر ثانیه) و پهنای باند خواندن و نوشتن روی تراشه (گیگابایت بر ثانیه).
- جزئیات کامل XLA op شامل جزئیات مربوط به اشکال و طرحهای مختلف.
- منشأ XLA op در سطح چارچوب.
- تعداد دفعات وقوع عملیات، و کل زمان صرف شده برای عملیات در مجموع.
توجه داشته باشید که پهنای باند خام (GB/s) یا نرخ محاسبات (TFLOP/s) با ترکیب دادههای استاتیک کامپایلر بر روی FLOPها یا بایتهای مورد نیاز برای عملیات (صورت کسر) با اطلاعات مدت زمان به ازای هر عملیات از پروفایل (مخرج کسر) محاسبه میشوند. اعداد استفاده (درصدها) با محاسبه دادههای مطلق مصرف منابع به عنوان کسری از قابلیتهای اوج محاسبات یا اوج پهنای باند به ازای هر شتابدهنده محاسبه میشوند.