Herramienta de perfil de operaciones de HLO
Puedes usar la herramienta de perfil de operaciones de HLO para comprender el rendimiento del hardware de las diferentes categorías de operaciones de alto nivel (HLO) que se ejecutan durante el período de perfilado.
Plataformas compatibles
TPU: Compatible
GPU: Compatible
Usa la herramienta de perfil de operaciones de HLO
El perfil de operaciones de HLO tiene los siguientes componentes:
- La descripción general en la parte superior de la página proporciona un resumen del uso general de los FLOP de procesamiento del acelerador y la banda ancha de HBM durante el período de generación de perfiles.
- En la siguiente tabla, se proporciona una vista más detallada del uso. Clasifica las operaciones de HLO que ejecuta cada módulo durante el período de generación de perfiles, y puedes recorrer la jerarquía y ver el uso por módulo, por categoría dentro de un módulo o por operación dentro de una categoría. Las operaciones de fusión se pueden expandir aún más para mostrar las operaciones que no son de fusión y que contienen elementos.
- El compilador XLA define la categorización en su mayoría, y XProf emplea heurísticas adicionales en ciertas situaciones (p.ej., analiza el gráfico de HLO para identificar "fusiones de convolución").
- De forma predeterminada, la lista de módulos, categorías y operaciones se ordena según la fracción del tiempo total dedicado a ejecutar el módulo, la categoría o la operación. En su lugar, puedes ordenar por las operaciones que causan la mayor infrautilización del hardware (utilización ponderada por el tiempo de ejecución de la operación o “tiempo desperdiciado”). Si identificas operaciones con baja utilización de FLOPS y alto consumo de tiempo, puedes orientarlas para su optimización.
- Si colocas el cursor sobre una operación en la tabla, aparecerá una tarjeta en el lado izquierdo que mostrará más detalles sobre la operación o la categoría de operación. Si haces clic en una entrada de la tabla, se fijará la tarjeta de detalles de la operación. Por lo general, estas tarjetas incluyen lo siguiente, según corresponda:
- Es un vínculo a la operación en la herramienta Visor de gráficos.
- Es el tiempo de ejecución promedio.
- Tasas de uso absolutas (en contraste con el uso informado en la tabla) del procesamiento (TFLOP/s), el ancho de banda de HBM (GB/s) y el ancho de banda de lectura y escritura en chip (GB/s).
- Los detalles completos de la operación de XLA, incluidos los detalles sobre varias formas y diseños
- El origen de la operación XLA a nivel del framework.
- La cantidad de instancias de la operación y el tiempo total dedicado a la operación en agregado
Ten en cuenta que las tasas de ancho de banda sin procesar (GB/s) o de procesamiento (TFLOP/s) se calculan combinando los datos estáticos del compilador sobre FLOP o bytes necesarios para la operación (el numerador) con la información de duración por operación del perfil (el denominador). Los números de utilización (porcentajes) se calculan a partir de los datos de consumo de recursos absolutos como una fracción de las capacidades de procesamiento o ancho de banda máximos por acelerador.