Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

واجهة برمجة التطبيقات Compiler API

الخلفية

نفترض أنّ القراء على دراية بأساسيات تمثيل التجزئة على الأقل، والتي تصف كيفية تعبير تجزئة مصفوفة تينسور في Shardy. يوضّح هذا المستند كيفية استخدام تمثيلات التحليل إلى أقسام في برنامج، مثلاً لربط عملية تقسيم إلى أقسام بأحد مصفوفات البرنامج.

إنّ انتشار التجزئة هو عملية تحديد عملية تجزئة لكل مصفوفة كثيفة في برنامج معيّن استنادًا إلى قيود التجزئة لمجموعة فرعية من المصفوفات الكثيفة. توفّر واجهة برمجة التطبيقات compiler API في Shardy عدة طرق للتأثير في عملية نشر التجزئة أو التحكّم فيها. بالإضافة إلى ذلك، يسمح للمستخدمين بإدراج عمليات حسابية مجزّأة يدويًا في برامجهم.

الهدف

يصف هذا المستند تصميم مكونات واجهة برمجة التطبيقات هذه في Shardy ويوضّح سلوكها وثوابت الأداء فيها. يُرجى العِلم أنّه على الرغم من أنّ واجهة برمجة التطبيقات هذه تُستخدَم للتحكّم في نشر التجزئة، لن NOT هذه المقالة أيّ شيء عن سلوك النشر أو كيفية تصميمه.

نظرة عامة

عمليات تقسيم الإدخال/الإخراج: يمكنك إرفاق عملية تقسيم بأحد مدخلات الدالة الرئيسية أو مخرجاتها للإشارة إلى أنّه يجب تقسيم مصفوفة الإدخال/الإخراج بهذه الطريقة عند إرسالها إلى الدالة أو استلامها منها.
قيد التجزئة: يمكنك إرفاق عملية تجزئة بأحد المتسلسلات الوسيطة (مثل نتيجة matmul) للإشارة إلى أنّه هذا هو كيفية تجزئة هذا المتسلسل، أو مجموعة فرعية من استخداماته.
مجموعة التجزئة: تجميع مصفوفات متعددة حسب رقم تعريف لتحديد أنّه يجب تقسيمها بالطريقة نفسها
الحساب اليدوي: يضمّ حسابًا فرعيًا يتم تقسيمه يدويًا باستخدام مجموعة فرعية من محاور الشبكة، حيث يتم تحديد عمليات التجزئة على طول هذه المحاور اليدوية لجميع الإدخالات والمخرجات، وداخل الحساب الفرعي تكون أنواع الن tensors محلية بالنسبة إلى عمليات التجزئة هذه.

التصميم التفصيلي

تقسيم الإدخال/الإخراج

يسمح للمستخدمين بتحديد تقسيم لمدخلات ومخرجات الدالة الرئيسية.

في MLIR، يمكن إرفاق السمات بوسيطات الدوالّ ونتائجها، وبالتالي يمكن للمستخدمين إرفاق سمات التجزئة بالدالة بهذه الطريقة.

على سبيل المثال:

@mesh_xy = <["x"=2, "y"=2]>

// The 1st input has a sharding specified, but the 2nd input doesn't.
// The output has a sharding specified.
func @main(%arg0: tensor<8x8xf32>
            {sdy.sharding = #sdy.sharding<@mesh_xy, [{"x"}, {}]>},
            %arg1: tensor<8x16xf32>)
    -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xy, [{}, {"y"}]>}) {
  ...
}

قيد التقسيم إلى أجزاء

تسمح هذه الميزة للمستخدمين بإرفاق عملية تقسيم بعنصر مصفوفة وسيط في برنامجهم، ما يُعلم أداة التقسيم بأنّ هذه هي الطريقة التي يجب بها تقسيم هذا العنصر المصفوفة أو مجموعة فرعية من استخداماته.

هذه عملية MLIR تأخذ مصفوفة كثافة Tensor كمدخل، وتتضمّن سمة تجزئة. يمكن أن تكون العملية:

أن لا يكون لها أي استخدامات (غير مرتبطة) - ما يعني أنّ التقسيم المرفق هو الطريقة التي يجب بها تقسيم المتجه نفسه
أن يكون لها استخدامات: ويعني ذلك أنّ التقسيم المرفق هو الطريقة التي يجب تقسيم استخدامات عملية قيد التقسيم بها، في حين أنّ استخدامات ناقلات المصفوفات المدخلة الأخرى قد يكون لها تقسيم مختلف (إذا لم تكن ناقلات المصفوفات المدخلة لها استخدامات أخرى، يكون السلوك هو نفسه في حالة عدم توفّر أي استخدامات). سيحدِّد التوسّع عملية تقسيم مصفوفة السلاسل المتعدّدة ذاتها ويعيد تقسيمها إذا لزم الأمر.

يمكن أن تتضمّن تقسيمات سمات مفتوحة، ما يعني أنّه يمكن تقسيم الم Operand بشكلٍ إضافي على طول المحاور المتاحة.

@mesh_xy = <["x"=2, "y"=2]>

%0 = ... : tensor<8x8xf32>
%1 = sdy.sharding_constraint %0 <@mesh_xy, [{"x"}, {?}]> : tensor<8x8xf32>

مجموعة التجزئة

في الحالات التي لا تتوفّر فيها أيّ تبعيات للبيانات أو تبعيات قوية للبيانات بين مصفوفة تينسور أو أكثر، مع معرفة المستخدمين بأنّه يجب تقسيم مصفوفات التنسور بالطريقة نفسها أو بطرق مشابهة، توفّر واجهة برمجة التطبيقات Shardy API طريقة لتحديد هذه العلاقة. يمنحك هذا حرية تحديد بوضوح أنّه يجب تقسيم مصفوفات Tensor على نحو متطابق.

لتحقيق ذلك، نقدّم مفهوم مجموعات الشرائح، حيث تحتوي كل مجموعة على أي عدد من التعليمات المرتبطة بمعرّف مجموعة الشرائح نفسه. تفرض مجموعات التجزئة أن تكون عمليات التجزئة ضمن المجموعة نفسها متماثلة.

على سبيل المثال، في برنامج افتراضي للمستخدِم مثل ما هو موضّح أدناه، نريد تقسيم مخرجات البرنامج بالطريقة نفسها المستخدَمة في إدخال البرنامج في حال عدم توفّر أيّ تداخلات بين البيانات.

في حال تنفيذ هذا البرنامج، لن تتمكّن عملية نشر التجزئة من الاستنتاج بشأن تجزئة مصفوفات %1 و%2، وسينتهي الأمر بتكرارها. ومع ذلك، من خلال إرفاق سمة shard_group تشير إلى أنّ الإدخال %0 والإخراج %2 يقعان ضمن shard_group نفسه، نسمح بنشر القسمة @mesh_xy, [{"x"},{"y"}]> من الإدخال %0 إلى الإخراج %2، ثم إلى بقية الرسم البياني الذي يتم بثّه بشكل ثابت %1 هنا. يمكننا تعيين قيمة إلى مجموعة باستخدام عملية sdy.sharding_group.

@mesh_xy = <["x"=2, "y"=2]>

module @"jit_zeros_like" {
  func.func @main(%arg0: tensor<8x2xi64> {sdy.sharding = #sdy.sharding<@mesh_xy, [{"x"},{"y"}]>} }) -> (tensor<8x2xi64>) {
    %0 = sdy.sharding_group %arg0, id=0 : tensor<8x2xi64>
    %1 = stablehlo.constant dense<0> : tensor<8x2xi64>
    %2 = sdy.sharding_group %1, id=0 : tensor<8x2xi64>
    return %2 : tensor<8x2xi64>
  }
}

في هذا المثال البسيط أعلاه، كان بإمكاننا بدلاً من ذلك تحديد القسمة نفسها في الإخراج كما في الإدخال، ما سيؤدي إلى التأثير نفسه، لأنّنا سبق أن عرفنا الشريحة التي نريد تعيينها للإدخال قبل الوقت، ولكن في الحالات الأكثر واقعية، نستخدم الشريحة للحفاظ على توحيد تجزئة المتسلسلات متعددة بدون معرفة التجزئة لأي منها بالضرورة، بينما سيتولى Shardy الباقي ويجد أفضل تجزئة لتخصيصها.

الحساب اليدوي

قد يريد المستخدمون التحكّم بشكل صريح في كيفية مشاركة أجزاء من عمليات الحساب وتحديد المجموعات التي يتم استخدامها. على سبيل المثال، يريد بعض المستخدمين تطبيق matmul المجمّع يدويًا (من واجهة برمجة التطبيقات للواجهة الأمامية) بدلاً من تأخير التحويل إلى المُجمِّع. نوفّر واجهة برمجة تطبيقات للحساب اليدوي تتيح لهم تنفيذ ذلك.

هذه هي عملية MLIR التي تتضمّن منطقة واحدة للحساب الفرعي اليدوي. سيحدّد المستخدمون تقسيمات الإدخال/الإخراج لهذا الحساب الفرعي باستخدام مجموعة أساسية (ربما تشمل جميع) محاور الشبكة. سيكون الحساب الفرعي محلّيًا/يدويًا بالنسبة إلى محاور الشبكة المحدّدة (المعروفة أيضًا باسم المحاور اليدوية)، و عامًا/غير مقسّم بالنسبة إلى المحاور غير المحدّدة (المعروفة أيضًا باسم المحاور الحرة). يمكن تقسيم عملية المعالجة الفرعية بشكل أكبر على طول المحاور الحرة أثناء النشر بالطريقة نفسها التي يمكن بها إجراء المعالجة خارج هذه العملية.