Инструмент профиля операции HLO
Инструмент HLO Op Profile можно использовать для оценки производительности оборудования для различных категорий операций высокого уровня (HLO), выполненных в течение периода профилирования.
Поддерживаемые платформы
Поддерживаются как TPU, так и GPU.
Использование инструмента HLO Op Profile
Профиль операции HLO состоит из следующих компонентов:
Обзор в верхней части страницы содержит сводку общего использования вычислительных мощностей ускорителя (FLOP) и пропускной способности HBM за период профилирования.

Таблица ниже предоставляет более детальное представление об использовании ресурсов. Она классифицирует операции HLO, выполненные каждым модулем за период профилирования, и вы можете просматривать иерархию и просматривать использование ресурсов по каждому модулю, по каждой категории внутри модуля или по каждой операции внутри категории. Операции слияния можно дополнительно развернуть, чтобы отобразить содержащиеся в них не слияния поэлементные операции.
- Категоризация определяется в основном компилятором XLA, при этом XProf использует дополнительные эвристики в определенных сценариях (например, он анализирует граф HLO для выявления «слияний сверток»).
- По умолчанию список модулей, категорий и операций сортируется по доле общего времени, затраченного на выполнение модуля, категории или операции. Вы можете выбрать сортировку по операциям, которые вызывают наибольшую недогрузку оборудования (загрузка, взвешенная по времени выполнения операции, или «потерянное время»). Выявив операции с низкой производительностью FLOPS и высоким потреблением времени, вы можете оптимизировать их.
При наведении курсора на операцию в таблице слева появляется карточка с более подробной информацией об операции или категории операции. Щелчок по записи в таблице закрепляет карточку с подробной информацией об операции.

Эти карты обычно включают в себя следующее (по мере необходимости):
- Ссылка на операцию в инструменте просмотра графиков .
- Среднее время выполнения.
- Абсолютные показатели использования (в отличие от показателей использования, указанных в таблице) вычислительных мощностей (TFLOP/s), пропускной способности HBM (ГБ/s) и пропускной способности чтения и записи на кристалле (ГБ/s).
- Полные сведения об операции XLA, включая сведения о различных формах и макетах.
- Происхождение операции XLA на уровне фреймворка.
- Количество повторений операции и общее время, затраченное на операцию в совокупности.
Обратите внимание, что чистая пропускная способность (ГБ/с) или скорость вычислений (ТФЛОП/с) вычисляются путём объединения статических данных компилятора о FLOP или байтах, необходимых для операции (числитель), с информацией о длительности операции из профиля (знаменатель). Показатели использования (проценты) вычисляются путём вычисления абсолютного потребления ресурсов как доли пиковой вычислительной мощности или пиковой пропускной способности каждого ускорителя.