Инструмент статистики ядра графического процессора

Инструмент GPU Kernel Stats позволяет просматривать статистику производительности и исходные операции фреймворка для каждого ядра с графическим ускорением, запущенного во время сеанса профилирования. Этот инструмент помогает выявить потенциальные узкие места на низком уровне и выявить возможности оптимизации.

Поддерживаемые платформы

Инструмент GPU Kernel Stats поддерживается только на графических процессорах.

Компоненты интерфейса

Интерфейс инструмента статистики ядра графического процессора (GPU Kernel Stats) представляет собой таблицу, в которой каждая уникальная пара операций ядра и фреймворка представлена ​​одной строкой. Вы можете щёлкнуть по любому заголовку столбца, чтобы отсортировать таблицу соответствующим образом. Порядок по умолчанию основан на общей длительности пары операций ядра и фреймворка.

Статистика ядра графического процессора XProf

Таблица статистики ядра графического процессора содержит следующую информацию для каждой пары ядро-операция:

  • Имя ядра: Имя запущенного ядра.
  • Регистров на поток: количество регистров графического процессора, используемых ядром на поток.
  • Используемая общая память: общий размер общей памяти, используемой ядром, в байтах.
  • Размер блока: Размеры блока резьбы, выраженные как blockDim.x, blockDim.y, blockDim.z.
  • Размеры сетки: Размеры сетки блоков потоков, выраженные как gridDim.x, gridDim.y, gridDim.z.
  • Теоретическая загрузка: теоретическая загрузка графического процессора, выраженная в процентах. Это показатель способности скрывать задержку памяти.
  • Ядро использует Tensor Core: эвристика, указывающая, содержит ли само ядро ​​инструкции Tensor Core, на основе наличия общих инструкций Tensor Core.
  • Приемлемость тензорных ядер: эвристика, указывающая, имеет ли исходная операция фреймворка право использовать тензорные ядра, на основе часто встречающихся операций, в которых используются тензорные ядра.
  • Имя операции: Имя операции фреймворка, запустившей это ядро.
  • Вхождения: количество раз, когда данная пара «ядро-операция» была выполнена в течение периода профилирования.
  • Общая длительность (мкс): сумма времени выполнения всех вхождений этой пары ядро-операция.
  • Средняя длительность (мкс): среднее время выполнения для всех случаев выполнения этой пары ядро-операция.
  • Минимальная длительность (мкс): наименьшее время выполнения, наблюдаемое для этой пары ядро-операция.
  • Максимальная длительность (мкс): самое длительное время выполнения, наблюдаемое для этой пары ядро-операция.
  • Поля поиска позволяют фильтровать строки по имени ядра графического процессора или по имени операции .
  • Вы можете экспортировать таблицу в CSV-файл, нажав кнопку «Экспортировать как CSV».

Возможность экспорта статистики ядра графического процессора XProf в CSV