مگااسکیل XLA

MegascaleXLA یک سیستم کامپایلر + زمان اجرا است که آموزش TPU در مقیاس بزرگ را پشتیبانی می‌کند. این سیستم، اصول اولیه ارتباط جمعی را پیاده‌سازی می‌کند که به چندین برش TPU امکان برقراری ارتباط می‌دهد، که امکان اجرای کارهای آموزشی را فراهم می‌کند که فراتر از محدودیت‌های یک دامنه ICI واحد هستند.

راهنمای اشکال‌زدایی، نحوه شناسایی و تشخیص منابع مشکلات عملکردی مانند کندی، هنگ یا خطا در یک کار چند برشی که توسط Megascale هدایت می‌شود را مورد بحث قرار می‌دهد.

اصطلاحات

  • برش

    • یک برش (slice) مجموعه‌ای از تراشه‌ها است که همگی درون یک TPU Pod قرار دارند و توسط اتصالات داخلی تراشه (ICI) پرسرعت به هم متصل شده‌اند. برش‌ها بسته به نسخه TPU، بر اساس تراشه یا TensorCore توصیف می‌شوند.
    • Multislice گروهی از برش‌ها است که اتصال TPU را فراتر از اتصالات اتصال بین تراشه‌ای (ICI) گسترش می‌دهد و از شبکه مرکز داده (DCN) برای انتقال داده‌ها فراتر از یک برش استفاده می‌کند. داده‌های درون هر برش همچنان توسط ICI منتقل می‌شوند. با استفاده از این اتصال ترکیبی، Multislice امکان موازی‌سازی در برش‌ها را فراهم می‌کند و به شما امکان می‌دهد از تعداد بیشتری هسته TPU برای یک کار واحد نسبت به آنچه یک برش واحد می‌تواند در خود جای دهد، استفاده کنید.
    • از TPUها می‌توان برای اجرای یک کار روی یک برش یا چندین برش استفاده کرد.
  • رپیدآی

    • RapidEye سیستمی است که هدف آن ارائه زیرساخت اشکال‌زدایی جهانی یادگیری ماشین برای شناسایی سریع و ریشه‌یابی مشکلات ناشی از اشکالات سخت‌افزاری یا نرم‌افزاری نامناسب است. این سیستم، کارهای MegaScale را رصد می‌کند تا به طور خودکار رویدادهای هنگ را شناسایی، تجزیه و تحلیل و طبقه‌بندی کند. این فرآیند شامل جمع‌آوری داده‌ها از همه کارگران کار، هماهنگی پاسخ‌ها هنگام وقوع هنگ و ایجاد یک فایل خلاصه خلاصه برای هر رویداد است.
    • RapidEye به طور پیش‌فرض برای همه بارهای کاری چندبخشی فعال است. تشخیص را می‌توان در زیر مدیر منابع Pathways یا هماهنگ‌کننده MXLA (slice0 task0 برای بار کاری JAX چندکنترلی) یافت. RapidEye همچنین برای حذف خودکار TPUها و NICهای خراب بر اساس داده‌های rapideye در سطح ناوگان استفاده می‌شود.
  • مگااسکیل کالکتیو

    • مجموعه‌های XLA از طریق عناصر اولیه Megascale XLA (MXLA) پشتیبانی می‌شوند که مستقیماً توسط کاربر نهایی قابل استفاده نیستند. در زمان نگارش این متن، عناصر اولیه MXLA شامل مجموعه‌هایی شامل AllGather، AllReduce، AllToAll، ReduceScatter و OneToOne هستند. عملیات کاهشی که در حال حاضر پشتیبانی می‌شوند شامل جمع، حداکثر/حداقل و حاصلضرب هستند.