صفحه نمای کلی
صفحه مرور کلی، یک نمای کلی و جامع از عملکرد مدل شما در طول اجرای پروفایل، میزان استفاده از منابع سختافزاری و زمان صرف شده ارائه میدهد. صفحه مرور کلی به عنوان نقطه شروعی برای دنبال کردن تحلیلهای دقیقتر با استفاده از سایر ابزارهای موجود در XProf عمل میکند.

پلتفرمهای پشتیبانیشده
هم TPU و هم GPU پشتیبانی میشوند.
اجزای صفحه نمای کلی
صفحه مرور کلی بین محیطهای TPU و GPU متفاوت است. در اینجا به تفکیک هر دو نوع آمده است:
TPU (آموزش)
- خلاصه عملکرد شامل موارد زیر است:
- میانگین زمان گام (فقط آموزش) : میانگین زمان گام در تمام گامهای نمونهبرداری شده.
- میزان استفاده از فلاپس
- چرخه وظیفه TPU
- استفاده از پهنای باند حافظه
- راندمان برنامه Goodput : نحوه عملکرد مدل شما را نسبت به عملکرد ایدهآل روی این سختافزار اندازهگیری میکند.
- TF Op Placement : اینکه آیا عملیات روی میزبان یا دستگاه در حال اجرا است یا خیر.
- زمان صرف شده برای اجرای مشتاقانه (Eager Executions ): این معیار به هدایت بهینهسازیهای بالقوه مربوط به اجرای مشتاقانه کمک میکند.
- دقت محاسبات دستگاه : درصد زمان محاسبات دستگاه را که از محاسبات ۱۶ بیتی و ۳۲ بیتی استفاده میکند، گزارش میدهد.
- نمودار زمان-گام (آموزش) نموداری از زمان گام (برحسب میلیثانیه) را روی تمام گامهای نمونهبرداری شده رسم میکند. هر یک از رنگهای روی هم چیده شده در نمودار، نشاندهنده یک دسته از زمان گام است، مانند زمان بیکاری TensorCore یا زمان صرف شده برای برقراری ارتباط با میزبان.
TPU (استنتاج)
برای کارهای استنتاج TPU، نمای کلی کمی متفاوت است:
بخش نمودار گام-زمان با بخش تفکیک تأخیر جلسه استنتاج جایگزین شده است و شامل نموداری از موارد زیر است:
- تأخیر جلسه استنتاج به صورت درصدی : نسبت زمان صرف شده برای کار استنتاج در محاسبه میزبان، محاسبه دستگاه و ارتباط میزبان-دستگاه را نشان میدهد.
در بخش خلاصه عملکرد ، میانگین زمان گام با عبارت زیر جایگزین شده است:
- میانگین زمان جلسه (فقط برای استنتاج) : نموداری که توزیع زمان جلسه را در تمام جلسات، از جمله میانگین زمان جلسه، نشان میدهد.
مخصوص پردازنده گرافیکی
در تجزیه زمان گام ، میانگین زمان گام به چند دسته تقسیم میشود:
- تمام زمانهای دیگر : تمام زمانهای دیگر، شامل سربار پایتون.
- زمان کامپایل : زمانی که صرف کامپایل هستهها میشود.
- زمان خروجی : زمانی که صرف نوشتن دادههای خروجی میشود.
- زمان ورودی : زمانی که صرف خواندن دادههای ورودی میشود.
- زمان اجرای هسته : زمان میزبان برای اجرای هستهها.
- زمان محاسبه میزبان : زمان محاسبه میزبان.
- زمان ارتباط جمعی دستگاه : زمان صرف شده در ارتباطات جمعی GPU.
- زمان دستگاه به دستگاه : زمان ارتباط دستگاه به دستگاه.
- زمان محاسبه دستگاه : زمان محاسبه روی دستگاه.
خلاصه عملکرد برای پروفایلهای GPU شامل فیلدهای زیر است:
- TF Op Placement : اینکه آیا عملیات روی میزبان یا دستگاه در حال اجرا است یا خیر.
- زمان عملیاتی صرفشده برای اجراهای مشتاق : این معیار به هدایت بهینهسازیهای بالقوه مربوط به استفاده بیش از حد از اجرای مشتاق (برخلاف اجرای گراف) کمک میکند.
- دقت محاسبات دستگاه : درصد زمان محاسبات دستگاه را که از محاسبات ۱۶ بیتی و ۳۲ بیتی استفاده میکند، گزارش میدهد.