Обзорная страница
На странице обзора представлен сводный обзор производительности вашей модели во время профилирования, эффективности использования аппаратных ресурсов и затраченного времени. Страница обзора служит отправной точкой для проведения более детального анализа с использованием других инструментов XProf.

Поддерживаемые платформы
Поддерживаются как TPU, так и GPU.
Компоненты страницы обзора
Страница обзора различается в зависимости от среды TPU и GPU. Вот подробное описание обоих вариантов:
ТПУ (обучение)
- В сводке результатов работы содержится:
- Среднее время выполнения шага (только для обучения) : время выполнения шага, усредненное по всем проанализированным шагам.
- Использование FLOPS
- Рабочий цикл ТПУ
- Использование полосы пропускания памяти
- Эффективность использования программного обеспечения : Измеряет, насколько хорошо ваша модель работает по сравнению с идеальной производительностью на данном оборудовании.
- Размещение TF-операции : Определяет, выполняется ли операция на хосте или на устройстве.
- Время, затраченное на немедленные выполнения операций : этот показатель помогает определить потенциальные пути оптимизации, связанные с немедленным выполнением операций.
- Точность вычислений устройства : показывает процент времени вычислений устройства, использующего 16-битные и 32-битные вычисления.
- График времени выполнения шага (в процессе обучения) отображает время выполнения шага (в миллисекундах) по всем проанализированным шагам. Каждый из цветов на графике представляет собой категорию времени выполнения шага, например, время простоя TensorCore или время, затраченное на обмен данными с хостом.
ТПУ (вывод)
В случае задач вывода данных на TPU ситуация несколько иная:
Раздел «График времени выполнения» заменен разделом «Анализ задержки сеанса вывода» и включает в себя диаграмму, содержащую следующие данные:
- Задержка сеанса вывода в процентилях : показывает долю времени, затраченного на вычисления на хосте, вычисления на устройстве и обмен данными между хостом и устройством.
В разделе «Сводка производительности» среднее время выполнения шага заменяется следующим текстом:
- Среднее время сессии (только для выводов) : Диаграмма, показывающая распределение времени сессии по всем сессиям, включая среднее время сессии.
Специфика для графического процессора
В разделе «Разбивка времени на шаг » среднее время на шаг разделено на несколько категорий:
- Всё остальное время : всё остальное время, включая накладные расходы Python.
- Время компиляции : время, затраченное на компиляцию ядер.
- Время вывода : время, затраченное на запись выходных данных.
- Время ввода : Время, затраченное на чтение входных данных.
- Время запуска ядра : время, затрачиваемое хостом на запуск ядер.
- Время вычислений на хосте : Время вычислений на хосте.
- Время коллективного обмена данными между устройствами : время, затраченное на коллективный обмен данными между графическими процессорами.
- Время между устройствами : время обмена данными между устройствами.
- Время вычислений на устройстве : время вычислений, выполняемых на устройстве.
Сводка производительности для профилей графического процессора включает следующие поля:
- Размещение TF-операции : Определяет, выполняется ли операция на хосте или на устройстве.
- Время выполнения операций, затраченное на немедленные операции : этот показатель помогает определить потенциальные пути оптимизации, связанные с чрезмерным использованием немедленных операций (в отличие от операций с графом данных).
- Точность вычислений устройства : показывает процент времени вычислений устройства, использующего 16-битные и 32-битные вычисления.