XLA 自訂呼叫

本文說明如何使用 XLA FFI 程式庫編寫及使用 XLA 自訂呼叫。自訂呼叫是一種機制，可在 HLO 模組中向 XLA 編譯器 (在編譯時) 說明外部「作業」，而 XLA FFI 則是一種機制，可向 XLA 註冊這類作業的實作 (在執行階段)。FFI 是「外部函式介面」的縮寫，是一組 C API，可為 XLA 定義二進位介面 (ABI)，以便呼叫以其他程式設計語言編寫的外部程式碼。XLA 提供以 C++ 編寫的 XLA FFI 專屬繫結，可向使用者隱藏基礎 C API 的所有低層級詳細資料。

注意： 自訂呼叫 API/ABI 使用 PJRT 樣式的版本控管 (主要、次要)，但目前仍處於實驗階段，隨時可能中斷。API/ABI 確定後，我們打算提供類似 PJRT 的穩定性保證。

注意： 透過自訂呼叫巨集 API 註冊的函式，其 HLO 可見名稱不會遵守 C++ 命名空間。因此，不同程式庫註冊的函式完全有可能發生意外衝突！API 會拒絕這類重複註冊，但為避免大型專案發生問題，最安全的方法是完全限定所有參照的命名空間，包括 XLA_REGISTER_CUSTOM_CALL 註冊巨集和自訂呼叫目標參照，或直接在函式名稱中使用 C 樣式的命名空間。

JAX + XLA 自訂呼叫

如需將自訂呼叫和 XLA FFI 與 JAX 整合的端對端範例，請參閱 JAX 說明文件。

XLA FFI 繫結

XLA FFI 繫結是自訂呼叫簽章的編譯時間規格：自訂呼叫引數、屬性和其類型，以及透過執行環境傳遞的其他參數 (即 GPU 後端的 GPU 串流)。XLA FFI 繫結可繫結至任何 C++ 可呼叫項目 (函式指標、lambda 等)，並使用相容的 operator() 簽章。建構的處理常式會解碼 XLA FFI 呼叫框架 (由穩定的 C API 定義)、檢查所有參數的類型，並將解碼結果轉送至使用者定義的回呼。

XLA FFI 繫結大量採用範本中繼程式設計，以便將建構的處理常式編譯為最有效率的機器碼。每個自訂呼叫參數的執行時間負擔，大約是幾奈秒。

以範本特化形式實作的 XLA FFI 自訂點，使用者可以定義如何解碼自訂型別，也就是說，可以為使用者定義的 enum class 型別定義自訂解碼。

從自訂呼叫傳回錯誤

自訂呼叫實作項目必須傳回 xla::ffi::Error 值，向 XLA 執行階段發出成功或錯誤信號。這與 absl::Status 類似，且具有相同的錯誤代碼集。我們不會使用 absl::Status，因為它沒有穩定的 ABI，而且在動態載入的自訂呼叫程式庫和 XLA 本身之間傳遞時並不安全。

// Handler that always returns an error.
auto always_error = Ffi::Bind().To(
    []() { return Error(ErrorCode::kInternal, "Oops!"); });

// Handler that always returns a success.
auto always_success = Ffi::Bind().To(
    []() { return Error::Success(); });

緩衝區引數和結果

XLA 會使用目的地傳遞樣式來處理結果：自訂呼叫 (或任何其他 XLA 作業) 不會為結果分配記憶體，而是寫入 XLA 執行階段傳遞的目的地。XLA 會使用靜態緩衝區指派作業，並在編譯時根據所有值的即時範圍分配緩衝區。

傳遞至 FFI 處理常式的結果會包裝在 Result<T> 範本中，該範本具有類似指標的語意：operator-> 可存取基礎參數。

AnyBuffer 引數和結果可存取任何資料類型的自訂呼叫緩衝區參數。如果自訂呼叫具有適用於多種資料類型的泛型實作，且自訂呼叫實作會根據資料類型執行執行階段分派作業，這就很有用。AnyBuffer 可存取緩衝區資料型別、維度和緩衝區指標。

%0 = "stablehlo.custom_call"(%arg0) {
  call_target_name = "foo",
  api_version = 4 : i32
} : (tensor<2x2xf32>) -> tensor<2x2xf32>

// Buffers of any number of dimensions and data type.
auto handler = Ffi::Bind().Arg<AnyBuffer>().Ret<AnyBuffer>().To(
    [](AnyBuffer arg, Result<AnyBuffer> res) -> Error {
      void* arg_data = arg.untyped_data();
      void* res_data = res->untyped_data();
      return Error::Success();
    });

受限緩衝區引數和結果

Buffer 可用於對緩衝區資料型別和維度數量新增限制，如果執行階段引數與 FFI 處理常式簽章不符，處理常式會自動檢查並向 XLA 執行階段傳回錯誤。

// Buffers of any number of dimensions and F32 data type.
auto handler = Ffi::Bind().Arg<Buffer<F32>>().Ret<Buffer<F32>>().To(
    [](Buffer<F32> arg, Result<Buffer<F32>> res) -> Error {
      float* arg_data = arg.typed_data();
      float* res_data = res->typed_data();
      return Error::Success();
    });

// Buffers of number of dimensions 2 and F32 data type.
auto handler = Ffi::Bind().Arg<BufferR2<F32>>().Ret<BufferR2<F32>>().To(
    [](BufferR2<F32> arg, Result<BufferR2<F32>> res) -> Error {
      float* arg_data = arg.typed_data();
      float* res_data = res->typed_data();
      return Error::Success();
    });

可變引數和結果

如果自訂呼叫的不同例項中，引數和結果的數量可能不同，則可在執行階段使用 RemainingArgs 和 RemainingRets 解碼。

auto handler = Ffi::Bind().RemainingArgs().RemainingRets().To(
    [](RemainingArgs args, RemainingRets results) -> Error {
      ErrorOr<AnyBuffer> arg = args.get<AnyBuffer>(0);
      ErrorOr<Result<AnyBuffer>> res = results.get<AnyBuffer>(0);

      if (!arg.has_value()) {
        return Error(ErrorCode::kInternal, arg.error());
      }

      if (!res.has_value()) {
        return Error(ErrorCode::kInternal, res.error());
      }

      return Error::Success();
    });

可在一般引數和結果後宣告可變引數和結果，但可變引數後繫結一般引數和結果是違法的。

auto handler =
    Ffi::Bind()
        .Arg<AnyBuffer>()
        .RemainingArgs()
        .Ret<AnyBuffer>()
        .RemainingRets()
        .To([](AnyBuffer arg, RemainingArgs args, AnyBuffer ret,
               RemainingRets results) -> Error { return Error::Success(); });

屬性

XLA FFI 支援自動解碼以 custom_call backend_config 形式傳遞的 mlir::DictionaryAttr，並將其做為 FFI 處理常式引數。

%0 = "stablehlo.custom_call"(%arg0) {
  call_target_name = "foo",
  backend_config= {
    i32 = 42 : i32,
    str = "string"
  },
  api_version = 4 : i32
} : (tensor<f32>) -> tensor<f32>

在這個範例中，自訂呼叫有一個緩衝區引數和兩個屬性，而 XLA FFI 可以自動解碼並傳遞至使用者定義的可呼叫函式。

auto handler = Ffi::Bind()
  .Arg<BufferR0<F32>>()
  .Attr<int32_t>("i32")
  .Attr<std::string_view>("str")
  .To([](BufferR0<F32> buffer, int32_t i32, std::string_view str) {
    return Error::Success();
  });

使用者定義的列舉屬性

XLA FFI 可以自動將整數 MLIR 屬性解碼為使用者定義的列舉。列舉類別必須具有相同的基礎整數型別，且解碼必須向 XLA FFI 明確註冊。

%0 = "stablehlo.custom_call"(%arg0) {
  call_target_name = "foo",
  backend_config= {
    command = 0 : i32
  },
  api_version = 4 : i32
} : (tensor<f32>) -> tensor<f32>

enum class Command : int32_t {
  kAdd = 0,
  kMul = 1,
};

XLA_FFI_REGISTER_ENUM_ATTR_DECODING(Command);

auto handler = Ffi::Bind().Attr<Command>("command").To(
    [](Command command) -> Error { return Error::Success(); });

繫結所有自訂通話屬性

您可以將所有自訂通話屬性當做字典存取，並在執行階段延遲解碼所需的屬性。

auto handler = Ffi::Bind().Attrs().To([](Dictionary attrs) -> Error {
  ErrorOr<int32_t> i32 = attrs.get<int32_t>("i32");
  return Error::Success();
});

使用者定義的結構體屬性

XLA FFI 可將字典屬性解碼為使用者定義的結構體。

%0 = "stablehlo.custom_call"(%arg0) {
  call_target_name = "foo",
  backend_config= {
    range = { lo = 0 : i64, hi = 42 : i64 }
  },
  api_version = 4 : i32
} : (tensor<f32>) -> tensor<f32>

在上述範例中，range 是 mlir::DictionaryAttr 屬性，且可自動解碼為 C++ 結構體，不必依名稱存取字典欄位。解碼必須使用 XLA_FFI_REGISTER_STRUCT_ATTR_DECODING 巨集明確註冊 (幕後會在 ::xla::ffi 命名空間中定義範本特化，因此巨集必須新增至全域命名空間)。

struct Range {
  int64_t lo;
  int64_t hi;
};

XLA_FFI_REGISTER_STRUCT_ATTR_DECODING(Range, StructMember<int64_t>("lo"),
                                             StructMember<int64_t>("hi"));

auto handler = Ffi::Bind().Attr<Range>("range").To([](Range range) -> Error{
  return Error::Success();
});

自訂屬性可以從字典載入，就像任何其他屬性一樣。在以下範例中，所有自訂通話屬性都會解碼為 Dictionary，且可依名稱存取 range。

auto handler = Ffi::Bind().Attrs().To([](Dictionary attrs) -> Error {
  ErrorOr<Range> range = attrs.get<Range>("range");
  return Error::Success();
});

在 CPU 上建立自訂呼叫

您可以透過 XLA 的用戶端 API 建立代表自訂呼叫的 HLO 指令。舉例來說，下列程式碼使用自訂呼叫，在 CPU 上計算 A[i] = B[i % 128]+ C[i]。(當然可以，而且應該這麼做！- 執行此操作使用一般 HLO。)

#include "xla/client/xla_builder.h"
#include "xla/service/custom_call_target_registry.h"

void do_it() {
  xla::XlaBuilder b("do_it");
  xla::XlaOp param0 =
      xla::Parameter(&b, 0, xla::ShapeUtil::MakeShape(xla::F32, {128}), "p0");
  xla::XlaOp param1 =
      xla::Parameter(&b, 1, xla::ShapeUtil::MakeShape(xla::F32, {2048}), "p1");
  xla::XlaOp custom_call =
      xla::CustomCall(&b, "do_custom_call", /*operands=*/{param0, param1},
        /*shape=*/xla::ShapeUtil::MakeShape(xla::F32, {2048}),
        /*opaque=*/"", /*has_side_effect=*/false,
        /*output_operand_aliasing=*/{}, /*literal=*/nullptr,
        /*schedule=*/CustomCallSchedule::SCHEDULE_NONE,
        /*api_version=*/CustomCallApiVersion::API_VERSION_TYPED_FFI);
}

// Constrain custom call arguments to 1-dimensional buffers of F32 data type.
using BufferF32 = xla::ffi::BufferR1<xla::ffi::DataType::F32>;

// Implement a custom call as a C++ function. Note that we can use `Buffer` type
// defined by XLA FFI that gives us access to buffer data type and shape.
xla::ffi::Error do_custom_call(BufferF32 in0, BufferF32 in1,
                               xla::ffi::Result<BufferF32> out) {
  size_t d0 = in0.dimensions[0];
  size_t d1 = in1.dimensions[0];

  // Check that dimensions are compatible.
  assert(out->dimensions[0] == d1 && "unexpected dimensions");

  for (size_t i = 0; i < d1; ++i) {
    out->data[i] = in0.data[i % d0] + in1.data[i];
  }
}

// Explicitly define an XLA FFI handler signature and bind it to the
// `do_custom_call` implementation. XLA FFI handler can automatically infer
// type signature from the custom call function, but it relies on magical
// template metaprogramming an explicit binding provides and extra level of
// type checking and clearly states custom call author intentions.
XLA_FFI_DEFINE_HANDLER(handler, do_custom_call,
                       ffi::Ffi::Bind()
                           .Arg<Buffer>()
                           .Arg<Buffer>()
                           .Ret<Buffer>());

// Registers `handler` with and XLA FFI on a "Host" platform.
XLA_FFI_REGISTER_HANDLER(xla::ffi::GetXlaFfiApi(), "do_custom_call",
                         "Host", handler);

在 GPU 上建立自訂呼叫

使用 XLA FFI 註冊 GPU 自訂呼叫幾乎相同，唯一不同的是，您需要要求基礎平台串流 (CUDA 或 ROCM 串流)，才能在裝置上啟動核心。以下是 CUDA 範例，可執行與上述 CPU 程式碼相同的運算 (A[i] = B[i % 128] + C[i])。

void do_it() { /* same implementation as above */ }

__global__ custom_call_kernel(const float* in0, const float* in1, float* out) {
  size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
  out[idx] = in0[idx % 128] + in1[idx];
}

void do_custom_call(CUstream stream, BufferF32 in0, BufferF32 in1,
                    xla::ffi::Result<BufferF32> out) {
  size_t d0 = in0.dimensions[0];
  size_t d1 = in1.dimensions[0];
  size_t d2 = out->dimensions[0];

  assert(d0 == 128 && d1 == 2048 && d2 == 2048 && "unexpected dimensions");

  const int64_t block_dim = 64;
  const int64_t grid_dim = 2048 / block_dim;
  custom_call_kernel<<<grid_dim, block_dim, 0, stream>>>(
    in0.data, in1.data, out->data);
}

XLA_FFI_DEFINE_HANDLER(handler, do_custom_call,
                       ffi::Ffi::Bind()
                           .Ctx<xla::ffi::PlatformStream<CUstream>>()
                           .Arg<BufferF32>()
                           .Arg<BufferF32>()
                           .Ret<BufferF32>());

XLA_FFI_REGISTER_HANDLER(xla::ffi::GetXlaFfiApi(), "do_custom_call",
                         "CUDA", handler);

請注意，GPU 自訂呼叫函式仍是在 CPU 上執行的函式。do_custom_call CPU 函式負責在 GPU 上將工作加入佇列。這裡會啟動 CUDA 核心，但也可以執行其他動作，例如呼叫 cuBLAS。

引數和結果也位於主機上，資料成員則包含指向裝置 (即 GPU) 記憶體的指標。傳遞至自訂呼叫處理常式的緩衝區具有基礎裝置緩衝區的形狀，因此自訂呼叫可以從中計算核心啟動參數。

將元組傳遞至自訂呼叫

請參考下列自訂呼叫。

using xla::ShapeUtil;
using xla::F32;
Shape p0_shape = ShapeUtil::MakeTuple({
    ShapeUtil::MakeShape(F32, {32}),
    ShapeUtil::MakeTuple({
        ShapeUtil::MakeShape(F32, {64}),
        ShapeUtil::MakeShape(F32, {128}),
    }),
    ShapeUtil::MakeShape(F32, {256}),
});
xla::XlaOp p0 = xla::Parameter(0, p0_shape, "p0");

Shape out_shape = ShapeUtil::MakeTuple({
  ShapeUtil::MakeShape(F32, {512}),
  ShapeUtil::MakeShape(F32, {1024}),
});
xla::CustomCall(&b, "do_custom_call", /*operands=*/{p0}, out_shape, ...);

在 CPU 和 GPU 上，元組在記憶體中會以指標陣列表示。當 XLA 使用元組引數或結果呼叫自訂呼叫時，會將其扁平化，並以一般緩衝區引數或結果的形式傳遞。

以暫時緩衝區形式輸出元組

自訂呼叫的元組輸入內容很方便，但並非必要。如果我們不支援自訂呼叫的元組輸入，您一律可以使用 get-tuple-element 解壓縮元組，再將其傳遞至自訂呼叫。

另一方面，元組 outputs 可讓您執行原本無法執行的操作。

使用元組輸出的顯而易見原因，是自訂呼叫 (或任何其他 XLA 作業) 會透過元組輸出傳回多個獨立陣列。

但較不明顯的是，元組輸出也是為自訂呼叫暫時記憶體提供記憶體的方式。可以，輸出可以代表暫時緩衝區。舉例來說，輸出緩衝區具有作業可寫入的屬性，且在寫入後可從中讀取。這正是您對暫時緩衝區的期望。

在上述範例中，假設我們想將 F32[1024] 用做暫時緩衝區。接著，我們會像上述一樣編寫 HLO，但不會讀取自訂呼叫輸出內容的元組索引 1。

XLA 自訂呼叫 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

JAX + XLA 自訂呼叫

XLA FFI 繫結

從自訂呼叫傳回錯誤

緩衝區引數和結果

受限緩衝區引數和結果

可變引數和結果

屬性

使用者定義的列舉屬性

繫結所有自訂通話屬性

使用者定義的結構體屬性

在 CPU 上建立自訂呼叫

在 GPU 上建立自訂呼叫

將元組傳遞至自訂呼叫

以暫時緩衝區形式輸出元組

XLA 自訂呼叫