ابزار نمایه HLO Op
میتوانید از ابزار HLO Op Profile برای درک عملکرد سختافزار برای دستههای مختلف عملیات سطح بالا (HLO) که در طول دوره نمایهسازی اجرا شدهاند، استفاده کنید.
پلتفرم های پشتیبانی شده
TPU: پشتیبانی می شود
GPU: پشتیبانی می شود
با استفاده از ابزار HLO Op Profile
HLO Op Profile دارای اجزای زیر است:
- نمای کلی بالای صفحه خلاصه ای از استفاده کلی از FLOPهای محاسبه شتاب دهنده و پهنای باند HBM را در طول دوره پروفایل ارائه می دهد.
- جدول زیر نمای دقیق تری از استفاده را ارائه می دهد. این عملیات HLO اجرا شده توسط هر ماژول در طول دوره نمایه سازی را دسته بندی می کند، و شما می توانید سلسله مراتب را طی کنید و استفاده را در هر ماژول، هر دسته در یک ماژول، یا هر عملیات در یک دسته مشاهده کنید. عملیات فیوژن را می توان بیشتر گسترش داد تا عملیات غیر همجوشی و بر حسب عنصر را نشان دهد.
- طبقهبندی عمدتاً توسط کامپایلر XLA تعریف میشود و XProf از اکتشافات اضافی در سناریوهای خاص استفاده میکند (به عنوان مثال، نمودار HLO را برای شناسایی «همجوشیهای پیچشی» تجزیه میکند.
- به طور پیشفرض، فهرست ماژولها، دستهها و عملیاتها بر اساس کسری از کل زمان صرف شده برای اجرای ماژول، دستهبندی یا عملیات مرتبسازی میشوند. به جای آن میتوانید بر اساس عملیاتی که باعث کمترین استفاده از سختافزار میشود (استفاده با وزن زمان اجرا یا «زمان تلفشده») مرتبسازی کنید. با شناسایی عملیات با استفاده کم از FLOPS و مصرف زمان زیاد، می توانید آنها را برای بهینه سازی هدف قرار دهید.
- با نگه داشتن ماوس روی یک عملیات در جدول، کارتی در سمت چپ ظاهر می شود که جزئیات بیشتری در مورد عملیات یا دسته عملیات نمایش می دهد. با کلیک کردن روی ورودی جدول، کارت جزئیات عملیات پین میشود. این کارت ها معمولاً در صورت لزوم شامل موارد زیر هستند:
- پیوندی به عملیات در ابزار Graph Viewer.
- میانگین زمان اجرا
- نرخ مطلق استفاده (برخلاف میزان استفاده گزارش شده در جدول) محاسبه (TFLOP/s)، پهنای باند HBM (GB/s)، و پهنای باند خواندن و نوشتن روی تراشه (GB/s).
- جزئیات کامل عملیات XLA از جمله جزئیات مربوط به اشکال و طرحبندیهای مختلف.
- منشأ عملیات XLA در سطح چارچوب.
- تعداد وقوع عملیات، و کل زمان صرف شده برای عملیات در مجموع.
توجه داشته باشید که پهنای باند خام (GB/s) یا نرخ محاسباتی (TFLOP/s) با ترکیب داده های کامپایلر ایستا بر روی FLOP یا بایت های مورد نیاز برای عملیات (شماره) با اطلاعات مدت زمان در هر عملیات از نمایه (مخرج) محاسبه می شود. اعداد استفاده (درصد) با محاسبه دادههای مصرف مطلق منبع به عنوان کسری از حداکثر محاسبه یا حداکثر پهنای باند قابلیتهای هر شتابدهنده محاسبه میشوند.