Инструмент профиля операции HLO

Вы можете использовать инструмент HLO Op Profile, чтобы понять производительность оборудования для различных категорий операций высокого уровня (HLO), выполняемых в течение периода профилирования.

Поддерживаемые платформы

ТПУ: Поддерживается

Графический процессор: поддерживается

Использование инструмента HLO Op Profile

Профиль операции HLO состоит из следующих компонентов:

  1. Обзор в верхней части страницы предоставляет сводную информацию об общем использовании вычислительных FLOP ускорителя и пропускной способности HBM в течение периода профилирования.
  2. В таблице ниже представлено более детальное представление об использовании. Он классифицирует операции HLO, выполняемые каждым модулем в течение периода профилирования, и вы можете перемещаться по иерархии и просматривать использование для каждого модуля, для каждой категории внутри модуля или для каждой операции внутри категории. Операции слияния можно дополнительно расширить, чтобы показать содержащиеся в них поэлементные операции, не являющиеся слиянием.
    • Категоризация определяется в основном компилятором XLA, при этом XProf в определенных сценариях использует дополнительные эвристики (например, он анализирует граф HLO для выявления «слияний сверток»).
    • По умолчанию список модулей, категорий и операций сортируется по доле общего времени, затраченного на выполнение модуля, категории или операции. Вместо этого вы можете выбрать сортировку по операциям, которые вызывают наибольшую недогрузку оборудования (загрузка, взвешенная по времени выполнения операции, или «потерянное время»). Выявляя операции с низким использованием FLOPS и высокими затратами времени, вы можете направить их на оптимизацию.
  3. При наведении курсора на операцию в таблице слева открывается карточка с более подробной информацией об операции или категории операции. При нажатии на запись таблицы закрепляется карточка с подробными сведениями об операции. Эти карты обычно включают в себя следующее:
    • Ссылка на операцию в инструменте просмотра графиков.
    • Среднее время выполнения.
    • Абсолютные показатели использования (в отличие от использования, указанного в таблице) вычислительных ресурсов (TFLOP/с), пропускной способности HBM (ГБ/с) и пропускной способности встроенного чтения и записи (ГБ/с).
    • Полная информация о XLA, включая сведения о различных формах и планировках.
    • Происхождение операции XLA на уровне платформы.
    • Количество повторений операции и общее время, затраченное на операцию в совокупности.

Обратите внимание, что необработанная пропускная способность (ГБ/с) или скорость вычислений (TFLOP/с) вычисляются путем объединения статических данных компилятора о FLOP или байтах, необходимых для операции (числитель), с информацией о продолжительности каждой операции из профиля (знаменатель). Показатели использования (проценты) рассчитываются путем вычисления абсолютных данных о потреблении ресурсов как доли от пиковых вычислительных возможностей или пиковой пропускной способности на ускоритель.