Megascale Stats Tool
يمكنك استخدام أداة Megascale Stats لتحليل أداء الاتصال بين الشرائح لأحمال العمل التي تمتد على شرائح TPU متعددة وتتواصل عبر شبكة مركز البيانات (DCN).
يتم إنشاء جميع المقاييس المعروضة في أداة Megascale Stats على أساس كل وحدة معالجة Tensor.
الأنظمة الأساسية المتوافقة
لا تتوافق أداة Megascale Stats إلا مع وحدات TPU.
المصطلحات ذات الصلة بالمجموعات
تعرض الأداة مقاييس متعلّقة بالتواصل بين شرائح TPU، والتي تتضمّن العمليات التالية:
send: يقاطع المضيف لبدء الوصول المباشر إلى الذاكرة (DMA) ويوفّر مخزنًا مؤقتًا مملوءًا للمضيف لبدء نقل البيانات.send-done: تشير إلى المضيف بأنّ عملية نقل البيانات قد اكتملت.recv: توفّر هذه السمة مخزنًا مؤقتًا فارغًا ليملأه المضيف بالبيانات المنقولة.-
recv-done: تشير إلى المضيف بأنّه تم تلقّي البيانات.
يتم بدء عملية جماعية من خلال عملية send، ويتم إكمالها من خلال عملية recv-done المطابقة. يتم إرسال البيانات فعليًا بعد اكتمال عملية الإرسال. تحدث عملية send-done بعد إرسال البيانات. وبالمثل، يتم تلقّي البيانات بعد اكتمال عملية recv. تحدث عملية
recv-done بعد تلقّي البيانات.
مكوّنات الواجهة
تعرض الأداة جدولاً يتضمّن الأعمدة التالية، مع صف واحد لكل عملية جماعية تم تحليلها:
- الاسم المشترك لشبكة DCN: يتم تحديده من قِبل XLA.
- اسم عملية الاستلام: اسم عملية
recv-doneفي وحدة معالجة الموتّرات ويوفّر ذلك طريقة سهلة للبحث في Trace Viewer عن عمليات TPU الجماعية المقابلة. - إرسال اسم العملية: اسم عملية
sendفي وحدة معالجة الموتّرات - وقت السماح: يُعرَّف على أنّه الوقت المستقل عن الشبكة الذي يجب أن تنقل فيه المجموعة البيانات. وهو مقياس للوقت المتاح للمجموعة لإرسال البيانات وتلقّيها، باستثناء عمليات
sendأوsend-doneأوrecvأوrecv-done. تؤدي زيادة وقت الاستراحة إلى تقليل فرص توقّف وحدة المعالجة العصبية (TPU) لمجموعة. على سبيل المثال، إذا كان الجدول الزمني كما يلي:

Slack time is calculated in this example as:
Slack time = t<sub>1</sub> + t<sub>2</sub> + t<sub>3</sub>
- المدة المرصودة: المدة المرصودة لكل مجموعة. يتم احتسابها
كفاصل زمني بين بداية عملية
sendونهاية عمليةrecv-doneالمقابلة، بما في ذلك الوقت المستغرَق في إرسال البيانات وتلقّيها. على سبيل المثال، إذا كان لديك المخطط الزمني التالي:

Observed duration is calculated as:
Observed duration = t<sub>send</sub> + t<sub>1</sub> + t<sub>send-done</sub> + t<sub>2</sub> + t<sub>recv</sub> + t<sub>3</sub> + t<sub>recv-done</sub>
- مدة التوقف: هي مدة توقّف مجموعة وحدات معالجة Tensor. هذا هو إجمالي المدة الزمنية التي تستغرقها العمليات
sendوsend-doneوrecvوrecv-done، باستثناء الوقت المستغرَق في نقل البيانات. على سبيل المثال، إذا كان لديك المخطط الزمني التالي:

Stall duration is calculated in this example as:
Stall duration = t<sub>send</sub> + t<sub>send-done</sub> + t<sub>recv</sub> + t<sub>recv-done</sub>
- عدد مرات الظهور: هو إجمالي عدد المرات التي تم فيها بدء مجموعة وإكمالها خلال مدة الملف الشخصي. يجب أن تتم العملية
sendوالعمليةrecv-doneالمطابقة لها خلال مدة الملف الشخصي ليتم تضمينهما في هذا المقياس. - إجمالي الوقت المجمّع الذي يتوقف فيه TPU: هو إجمالي الوقت الذي تتوقف فيه مجموعة من وحدات TPU خلال مدة الملف الشخصي. يتم احتساب إجمالي مدة التوقف المؤقت على النحو التالي:
- إجمالي مدة التوقف المجمَّعة = مدة التوقف * عدد مرات حدوثه
- حجم البيانات المنقولة: مقدار البيانات التي يتم نقلها عبر الشبكة للمجموعة، ويتم احتسابها استنادًا إلى شكل عملية XLA.
- معدل نقل البيانات المطلوب: معدل نقل البيانات المطلوب لنقل البيانات خلال فترة السماح المحدّدة. يمكنك استخدام هذا المقياس لمعرفة عدد المجموعات التي تتنافس على معدّل نقل بيانات الشبكة خلال مدة الملف الشخصي. يتم احتساب النطاق الترددي المطلوب على النحو التالي:
- معدل نقل البيانات المطلوب = حجم البيانات المنقولة / وقت الاستراحة
تحليل بيانات أداة إحصاءات Megascale
لتحليل البيانات المعروضة في الأداة، اتّبِع الخطوات التالية:
- رتِّب الجدول حسب
Aggregated Total Stallبترتيب تنازلي. - حدِّد الاسم الجماعي لشبكة DCN الذي يحقّق أعلى
Aggregated Total Stall. قد تشير القيمة المرتفعة بشكل كبير مقارنةً بالقيم الأخرى إلى حدوث اختناق. - اضرب
Required Bandwidthلمجموعة DCN في عدد النوى (على سبيل المثال، 8 لكل مضيف TPU v4). إذا كانت هذه القيمة أكبر من الحد الأقصى لمعدل نقل البيانات على الشبكة لوحدة TPU، قد يشير ذلك إلى ازدحام الشبكة. جرِّب تغيير آلية التقسيم لتقليل معدل نقل البيانات المطلوب. - إنشاء تفريغ HLO للتحقّق من مشاكل المحول البرمجي يمكن أن يؤدي توسيع نطاق العمليتَين
sendوrecv-doneإلى السماح بجدولة المزيد من عمليات HLO المتداخلة وتقليل وقت توقّف وحدة المعالجة العصبية (TPU). - تحقَّق من مدة
recv-doneعملية في أداة Trace Viewer للمجموعة التي تتضمّن أكبر إجمالي مجمّع للتوقّف. قد يشير طول مدة النقل إلى حدوث اختناق في معدل نقل البيانات، لأنّ عملياتrecv-doneعادةً ما يتم حظرها على الشبكة. - إذا لم يكن وقت تنفيذ عمليات
recv-doneمرتفعًا بشكل مفرط مقارنةً بوقت الاستراحة، قد يشير ذلك إلى مشكلة في الجهاز.