صفحه نمای کلی

صفحه مرور کلی، یک نمای کلی و جامع از عملکرد مدل شما در طول اجرای پروفایل، میزان استفاده از منابع سخت‌افزاری و زمان صرف شده ارائه می‌دهد. صفحه مرور کلی به عنوان نقطه شروعی برای دنبال کردن تحلیل‌های دقیق‌تر با استفاده از سایر ابزارهای موجود در XProf عمل می‌کند.

صفحه مرور کلی XProf

پلتفرم‌های پشتیبانی‌شده

هم TPU و هم GPU پشتیبانی می‌شوند.

اجزای صفحه نمای کلی

صفحه مرور کلی بین محیط‌های TPU و GPU متفاوت است. در اینجا به تفکیک هر دو نوع آمده است:

TPU (آموزش)

  • خلاصه عملکرد شامل موارد زیر است:
    • میانگین زمان گام (فقط آموزش) : میانگین زمان گام در تمام گام‌های نمونه‌برداری شده.
    • میزان استفاده از فلاپس
    • چرخه وظیفه TPU
    • استفاده از پهنای باند حافظه
    • راندمان برنامه Goodput : نحوه عملکرد مدل شما را نسبت به عملکرد ایده‌آل روی این سخت‌افزار اندازه‌گیری می‌کند.
    • TF Op Placement : اینکه آیا عملیات روی میزبان یا دستگاه در حال اجرا است یا خیر.
    • زمان صرف شده برای اجرای مشتاقانه (Eager Executions ): این معیار به هدایت بهینه‌سازی‌های بالقوه مربوط به اجرای مشتاقانه کمک می‌کند.
    • دقت محاسبات دستگاه : درصد زمان محاسبات دستگاه را که از محاسبات ۱۶ بیتی و ۳۲ بیتی استفاده می‌کند، گزارش می‌دهد.
  • نمودار زمان-گام (آموزش) نموداری از زمان گام (برحسب میلی‌ثانیه) را روی تمام گام‌های نمونه‌برداری شده رسم می‌کند. هر یک از رنگ‌های روی هم چیده شده در نمودار، نشان‌دهنده یک دسته از زمان گام است، مانند زمان بیکاری TensorCore یا زمان صرف شده برای برقراری ارتباط با میزبان.

TPU (استنتاج)

برای کارهای استنتاج TPU، نمای کلی کمی متفاوت است:

بخش نمودار گام-زمان با بخش تفکیک تأخیر جلسه استنتاج جایگزین شده است و شامل نموداری از موارد زیر است:

  • تأخیر جلسه استنتاج به صورت درصدی : نسبت زمان صرف شده برای کار استنتاج در محاسبه میزبان، محاسبه دستگاه و ارتباط میزبان-دستگاه را نشان می‌دهد.

در بخش خلاصه عملکرد ، میانگین زمان گام با عبارت زیر جایگزین شده است:

  • میانگین زمان جلسه (فقط برای استنتاج) : نموداری که توزیع زمان جلسه را در تمام جلسات، از جمله میانگین زمان جلسه، نشان می‌دهد.

مخصوص پردازنده گرافیکی

در تجزیه زمان گام ، میانگین زمان گام به چند دسته تقسیم می‌شود:

  • تمام زمان‌های دیگر : تمام زمان‌های دیگر، شامل سربار پایتون.
  • زمان کامپایل : زمانی که صرف کامپایل هسته‌ها می‌شود.
  • زمان خروجی : زمانی که صرف نوشتن داده‌های خروجی می‌شود.
  • زمان ورودی : زمانی که صرف خواندن داده‌های ورودی می‌شود.
  • زمان اجرای هسته : زمان میزبان برای اجرای هسته‌ها.
  • زمان محاسبه میزبان : زمان محاسبه میزبان.
  • زمان ارتباط جمعی دستگاه : زمان صرف شده در ارتباطات جمعی GPU.
  • زمان دستگاه به دستگاه : زمان ارتباط دستگاه به دستگاه.
  • زمان محاسبه دستگاه : زمان محاسبه روی دستگاه.

خلاصه عملکرد برای پروفایل‌های GPU شامل فیلدهای زیر است:

  • TF Op Placement : اینکه آیا عملیات روی میزبان یا دستگاه در حال اجرا است یا خیر.
  • زمان عملیاتی صرف‌شده برای اجراهای مشتاق : این معیار به هدایت بهینه‌سازی‌های بالقوه مربوط به استفاده بیش از حد از اجرای مشتاق (برخلاف اجرای گراف) کمک می‌کند.
  • دقت محاسبات دستگاه : درصد زمان محاسبات دستگاه را که از محاسبات ۱۶ بیتی و ۳۲ بیتی استفاده می‌کند، گزارش می‌دهد.