OpenXLA Project

Эта страница переведена с помощью Cloud Translation API.

Инструмент просмотра трассировок

Вы можете использовать Trace Viewer для визуализации временной шкалы событий, произошедших во время сеанса профилирования. Он отображает длительность операций, выполняемых вашей моделью на различных компонентах системы, таких как хост (ЦП) и ускорители (графические процессоры или TPU). Это позволяет понять, как ваша модель использует аппаратные ресурсы, выявить узкие места производительности и оптимизировать её для более быстрого выполнения.

Просмотрщик трассировок

Поддерживаемые платформы

Поддерживаются как TPU, так и GPU.

Trace Viewer для графических процессоров группирует события на временных шкалах по каждому чипу графического процессора и потокам внутри него, тогда как для TPU он организует события на временных шкалах по каждому чипу TPU и ядру. В любом случае, Trace Viewer также отображает события на временных шкалах по каждому потоку для центрального процессора, к которому подключены ускорители.

Trace Viewer для графических процессоров

Взаимодействие с временной шкалой

Trace Viewer предоставляет несколько инструментов и методов для навигации и изучения временной шкалы:

Навигация: После щелчка по событию на временной шкале вы можете использовать следующие сочетания клавиш:
- В: Увеличить.
- С: Уменьшить масштаб.
- А: Панорамирование влево.
- D: Панорамирование вправо.
Селектор инструментов: плавающий селектор инструментов содержит инструменты, которые можно использовать, нажимая на соответствующие значки или используя соответствующие сочетания клавиш:
- Инструмент выбора (1 или !): Щёлкните по событию, чтобы выбрать его и просмотреть подробную информацию на панели «Подробности». Выберите несколько событий, удерживая клавишу Ctrl и щёлкнув по ним, чтобы просмотреть сводку.
- Инструмент «Панорама» (2 или @): перетаскивайте, чтобы перемещать временную шкалу по горизонтали или вертикали.
- Инструмент «Масштаб» (3 или #): перетащите, чтобы увеличить масштаб определенной области временной шкалы.
- Инструмент «Время» (4 или $): Перетащите, чтобы отметить временной интервал. Длительность отмеченного интервала будет отображена. Вы также можете использовать клавишу «m», чтобы отметить выбранный фрагмент и определить его общую длительность.
Масштабировать выбранные события (f): выберите одно или несколько событий и нажмите клавишу «f», чтобы быстро увеличить масштаб нужного участка временной шкалы. Это полезно для фокусировки на определённом этапе обучения.

Выбор инструмента просмотра трассировок

При обработке большого количества событий трассировки Trace Viewer работает в потоковом режиме. Это означает, что он загружает данные по запросу по мере перемещения и масштабирования по временной шкале, подобно тому, как работают картографические приложения. Если масштабирование выполняется быстрее, чем загружаются данные, вы можете увидеть низкое разрешение изображения до завершения загрузки.

Компоненты интерфейса Trace Viewer

Вот основные компоненты пользовательского интерфейса Trace Viewer:

Ось времени расположена горизонтально вверху, показывая время относительно начала трассы.
Временные шкалы организованы по разделам и трекам, с метками, расположенными на левой вертикальной оси. Каждый раздел представляет собой элемент обработки (например, узел устройства или потоки хоста) и может быть развёрнут или свёрнут. Внутри каждого раздела находятся треки, представляющие собой временные шкалы для определённых действий.
События — это цветные прямоугольные блоки на временной шкале, отображающие длительность операции или метасобытия, например, этапа обучения. Цвет событий не имеет определённого значения.
Панель сведений, которая появляется внизу временной шкалы при выборе одного или нескольких событий, отображает дополнительную информацию о выбранных событиях, такую как их имя, время начала и длительность. При выборе операции XLA вы можете увидеть ссылки на эту операцию в инструменте просмотра графиков (Graph Viewer) , а также другую информацию, доступную фреймворку и компилятору, включая указатели на исходный код и/или трассировку стека Python, операцию фреймворка, вызвавшую генерацию этой операции XLA, и т. д. Здесь также может отображаться количество операций с плавающей запятой (FLOPS) и количество байтов, к которым обратилась операция. Эта информация статически извлекается из XLA во время компиляции, а не из информации во время выполнения из профиля.

Типичные участки и пути

Trace Viewer предоставляет следующие разделы и треки.

По одной секции для каждого узла TPU со следующими дорожками:
- Шаги : показывает длительность шагов обучения, выполняемых на данном ядре TPU, если они соответствующим образом аннотированы в пользовательской программе или фреймворке.
- Модули XLA : исполняемая программа XLA.
- XLA Ops : показывает операции XLA HLO, выполненные на ядре TPU. Каждая операция фреймворка более высокого уровня (например, JAX, Tensorflow или PyTorch) транслируется в одну или несколько операций XLA, которые затем компилируются для выполнения на TPU.
- XLA TraceMe : аннотации, добавляемые пользователем в код, описывающие логические единицы работы, которые он намерен отслеживать. Вы можете видеть здесь данные, даже если не добавляли никаких аннотаций; обычно их добавляет XLA (например, барьерные ядра) или сам XProf (например, удаленные записи трассировки).
- Имя фреймворка Область действия : Для каждой операции фреймворка визуализируется трассировка стека. Для краткости эта дорожка отображается только для одного устройства.
- Framework Ops : отображает операции фреймворка (например, JAX, Tensorflow или PyTorch), выполняемые на ядре TPU, если они соответствующим образом аннотированы в пользовательской программе или фреймворке.
- Имя фреймворка Область действия : Для каждой операции фреймворка визуализируется трассировка стека. Для краткости эта дорожка отображается только для одного устройства.
- Исходный код : путь к исполняемому исходному коду, если он доступен в профиле.
- Скалярный блок : для TPU события, выполняемые на скалярном блоке, отображаются, если присутствуют в профиле.
- Флаги синхронизации TensorCore : механизм синхронизации на TPU, отображается, если присутствует в профиле.
- Host Offload : операции, которые асинхронно перемещают данные между памятью хоста и памятью ускорителя. Обычно в строке XLA Ops отображаются соответствующие операции запуска и остановки, указывающие на подготовку ускорителя к передаче данных (например, помечающие области памяти источника/назначения как «используемые» на время передачи). Если несколько операций разгрузки выполняются параллельно, может присутствовать несколько строк host offload, что требует от средства просмотра трассировки одновременного отображения нескольких событий.
Один раздел для каждого узла Sparsecore: некоторые поколения TPU (например, TPU v5p и Trillium ) оснащены одним или несколькими блоками SparseCore в дополнение к плотным вычислительным блокам MXU; модули, операции и TraceMes, связанные с этими ядрами, будут отображаться в этом разделе.
Один раздел для каждого узла GPU со следующими дорожками:
- По одной дорожке на поток, при этом имя потока также включает информацию о типах операций, выполняемых в потоке (Memcpy, Compute и т. д.).
- Статистика запуска : показывает максимальное и среднее время, проведенное на этапе запуска.
- Шаги , Модули XLA , Операции фреймворка , Область действия имени фреймворка , Исходный код : все это похоже на разделы TPU.
- XLA TraceMe не поддерживается для графических процессоров.
- Операции XLA отображаются в разделах, посвященных графическому процессору, но в настоящее время они не всегда точны, поскольку выводятся из потоковых данных. Поэтому они не могут полностью учитывать модель выполнения графического процессора, где может существовать сопоставление операций XLA с фактическими ядрами, выполняемыми в разных потоках, в соотношении N:M, а также динамическое распределение нескольких потоков по разным SM в аппаратном обеспечении.
Один раздел для каждого компонента (например, одного пула потоков), работающего на процессоре хост-машины, с одной дорожкой на поток в случае пулов потоков. Здесь также будут отображаться трассировки Python, если они были включены при сборе профилей.

Обратите внимание, что только данные XLA Ops для TPU и потоковые данные для GPU напрямую основаны на собранном профиле; все остальные строки являются «производными строками», включающими дополнительную информацию о «боковой полосе», предоставленную компилятором, дополнительные пользовательские аннотации и/или эвристики, применяемые XProf. Следовательно, эти производные строки могут присутствовать или не присутствовать в некоторых профилях.

Другие особенности

Вы можете искать конкретные названия событий с помощью строки поиска «Найти события...». В настоящее время поиск выполняется только в видимом временном интервале на экране, а не по всей трассировке.
События потока : включение этой опции нажатием кнопки «События потока» на верхней панели добавляет визуализации, связывая события в одном потоке или строке с событиями в другой строке потока. Например, может быть нарисована стрелка от операции на хосте, которая ставит в очередь или запускает работу для ускорителя, к операции на ускорителе, которая выполняет эту работу. XProf определяет эти связи, комбинируя пользовательские аннотации, встроенную эвристику и постобработку информации, получаемой от различных компонентов (например, драйверов CUPTI, идентификаторов запуска ядра, информации среды выполнения TPU и т. д.).