MegascaleXLA یک سیستم کامپایلر + زمان اجرا است که آموزش TPU در مقیاس بزرگ را پشتیبانی میکند. این سیستم، اصول اولیه ارتباط جمعی را پیادهسازی میکند که به چندین برش TPU امکان برقراری ارتباط میدهد، که امکان اجرای کارهای آموزشی را فراهم میکند که فراتر از محدودیتهای یک دامنه ICI واحد هستند.
راهنمای اشکالزدایی، نحوه شناسایی و تشخیص منابع مشکلات عملکردی مانند کندی، هنگ یا خطا در یک کار چند برشی که توسط Megascale هدایت میشود را مورد بحث قرار میدهد.
اصطلاحات
برش
- یک برش (slice) مجموعهای از تراشهها است که همگی درون یک TPU Pod قرار دارند و توسط اتصالات داخلی تراشه (ICI) پرسرعت به هم متصل شدهاند. برشها بسته به نسخه TPU، بر اساس تراشه یا TensorCore توصیف میشوند.
- Multislice گروهی از برشها است که اتصال TPU را فراتر از اتصالات اتصال بین تراشهای (ICI) گسترش میدهد و از شبکه مرکز داده (DCN) برای انتقال دادهها فراتر از یک برش استفاده میکند. دادههای درون هر برش همچنان توسط ICI منتقل میشوند. با استفاده از این اتصال ترکیبی، Multislice امکان موازیسازی در برشها را فراهم میکند و به شما امکان میدهد از تعداد بیشتری هسته TPU برای یک کار واحد نسبت به آنچه یک برش واحد میتواند در خود جای دهد، استفاده کنید.
- از TPUها میتوان برای اجرای یک کار روی یک برش یا چندین برش استفاده کرد.
رپیدآی
- RapidEye سیستمی است که هدف آن ارائه زیرساخت اشکالزدایی جهانی یادگیری ماشین برای شناسایی سریع و ریشهیابی مشکلات ناشی از اشکالات سختافزاری یا نرمافزاری نامناسب است. این سیستم، کارهای MegaScale را رصد میکند تا به طور خودکار رویدادهای هنگ را شناسایی، تجزیه و تحلیل و طبقهبندی کند. این فرآیند شامل جمعآوری دادهها از همه کارگران کار، هماهنگی پاسخها هنگام وقوع هنگ و ایجاد یک فایل خلاصه خلاصه برای هر رویداد است.
- RapidEye به طور پیشفرض برای همه بارهای کاری چندبخشی فعال است. تشخیص را میتوان در زیر مدیر منابع Pathways یا هماهنگکننده MXLA (slice0 task0 برای بار کاری JAX چندکنترلی) یافت. RapidEye همچنین برای حذف خودکار TPUها و NICهای خراب بر اساس دادههای rapideye در سطح ناوگان استفاده میشود.
مگااسکیل کالکتیو
- مجموعههای XLA از طریق عناصر اولیه Megascale XLA (MXLA) پشتیبانی میشوند که مستقیماً توسط کاربر نهایی قابل استفاده نیستند. در زمان نگارش این متن، عناصر اولیه MXLA شامل مجموعههایی شامل AllGather، AllReduce، AllToAll، ReduceScatter و OneToOne هستند. عملیات کاهشی که در حال حاضر پشتیبانی میشوند شامل جمع، حداکثر/حداقل و حاصلضرب هستند.