মেগাস্কেল এক্সএলএ

মেগাস্কেলএক্সএলএ হল একটি কম্পাইলার + রানটাইম সিস্টেম যা বৃহৎ-স্কেল টিপিইউ প্রশিক্ষণকে শক্তিশালী করে। এটি যৌথ যোগাযোগের আদিম প্রয়োগ করে যা একাধিক টিপিইউ স্লাইসকে যোগাযোগের অনুমতি দেয়, যা একক আইসিআই ডোমেনের সীমা ছাড়িয়ে বিস্তৃত প্রশিক্ষণের কাজ পরিচালনা করার অনুমতি দেয়।

ডিবাগিং গাইডে আলোচনা করা হয়েছে যে মেগাস্কেল দ্বারা চালিত মাল্টি-স্লাইস কাজে ধীরগতি, হ্যাং বা ত্রুটির মতো কর্মক্ষমতা সমস্যার উৎসগুলি কীভাবে সনাক্ত এবং নির্ণয় করা যায়।

পরিভাষা

  • স্লাইস

    • স্লাইস হলো চিপসের একটি সংগ্রহ যা একই TPU পডের ভিতরে অবস্থিত এবং হাই-স্পিড ইন্টারচিপ ইন্টারকানেক্ট (ICI) দ্বারা সংযুক্ত থাকে। TPU সংস্করণের উপর নির্ভর করে স্লাইসগুলিকে চিপস বা টেনসরকোর হিসাবে বর্ণনা করা হয়।
    • মাল্টিস্লাইস হল স্লাইসের একটি গ্রুপ, যা ইন্টার-চিপ ইন্টারকানেক্ট (ICI) সংযোগের বাইরে TPU সংযোগ প্রসারিত করে এবং একটি স্লাইসের বাইরে ডেটা প্রেরণের জন্য ডেটা-সেন্টার নেটওয়ার্ক (DCN) ব্যবহার করে। প্রতিটি স্লাইসের মধ্যে থাকা ডেটা এখনও ICI দ্বারা প্রেরণ করা হয়। এই হাইব্রিড সংযোগ ব্যবহার করে, মাল্টিস্লাইস স্লাইস জুড়ে সমান্তরালতা সক্ষম করে এবং আপনাকে একটি একক কাজের জন্য একটি একক স্লাইসের চেয়ে বেশি সংখ্যক TPU কোর ব্যবহার করতে দেয়।
    • টিপিইউগুলি একটি একক স্লাইস বা একাধিক স্লাইসে কাজ চালানোর জন্য ব্যবহার করা যেতে পারে।
  • র‍্যাপিডআই

    • RapidEye হল এমন একটি সিস্টেম যার লক্ষ্য হল বিশ্বব্যাপী ML ডিবাগিং পরিকাঠামো প্রদান করা যাতে খারাপ হার্ডওয়্যার বা সফ্টওয়্যার বাগের কারণে সৃষ্ট সমস্যাগুলি দ্রুত সনাক্ত করা যায় এবং মূল কারণ তৈরি করা যায়। এটি মেগাস্কেল জবগুলি স্বয়ংক্রিয়ভাবে হ্যাং ইভেন্টগুলি সনাক্ত, বিশ্লেষণ এবং শ্রেণীবদ্ধ করার জন্য পর্যবেক্ষণ করে। এই প্রক্রিয়াটিতে সমস্ত জব ওয়ার্কারদের কাছ থেকে ডেটা সংগ্রহ করা, হ্যাং হলে প্রতিক্রিয়া সমন্বয় করা এবং প্রতিটি ইভেন্টের জন্য একটি সারাংশ ডাইজেস্ট ফাইল তৈরি করা জড়িত।
    • সকল মাল্টিস্লাইস ওয়ার্কলোডের জন্য RapidEye ডিফল্টরূপে সক্রিয় থাকে। রোগ নির্ণয়টি Pathways রিসোর্স ম্যানেজার বা MXLA কোঅর্ডিনেটরের অধীনে পাওয়া যাবে (মাল্টি-কন্ট্রোলার JAX ওয়ার্কলোডের জন্য slice0 task0)। Fleetwide rapideye ডেটার উপর ভিত্তি করে খারাপ TPU এবং NIC স্বয়ংক্রিয়ভাবে অপসারণের জন্য RapidEyeও ব্যবহৃত হয়।
  • মেগাস্কেল কালেক্টিভ

    • XLA কালেক্টিভগুলি মেগাস্কেল XLA (MXLA) প্রিমিটিভগুলির মাধ্যমে সমর্থিত যা শেষ ব্যবহারকারীর দ্বারা সরাসরি ব্যবহারযোগ্য নয়। এটি লেখার সময় MXLA প্রিমিটিভগুলির মধ্যে রয়েছে AllGather, AllReduce, AllToAll, ReduceScatter এবং OneToOne। বর্তমানে সমর্থিত রিডাকশন অপারেশনগুলির মধ্যে রয়েছে সমষ্টি, সর্বোচ্চ/মিনিট এবং পণ্য।