Рабочий процесс отладки

В этом документе описывается общий алгоритм отладки проблем MXLA.

Предварительное условие

  1. Используйте JAX версии 0.6 или выше и включите распределенную службу JAX. Эта версия JAX содержит дополнительные функции логирования, которые могут помочь определить, у каких рабочих процессов возникают проблемы.
  2. Создайте дамп HLO, используя флаг --xla_dump_to при инициализации рабочей нагрузки. Это описано в документации XLA .
  3. Установите параметр --vmodule=real_program_continuator=1, чтобы включить подробное логирование состояния выполнения программы TPU.

Блок-схема

Приведенная ниже блок-схема иллюстрирует процесс отладки. Чтобы получить доступ к подробным руководствам по каждому шагу, щелкните соответствующий элемент на схеме.