Ferramenta de perfil de operação de HLO
É possível usar a ferramenta de perfil de operação de HLO para entender o desempenho do hardware para diferentes categorias de operações de alto nível (HLO) executadas durante o período de criação de perfil.
Plataformas compatíveis
TPU: compatível
GPU: compatível
Como usar a ferramenta de perfil de operações do HLO
O perfil de operação do HLO tem os seguintes componentes:
- A visão geral na parte de cima da página mostra um resumo da utilização geral dos FLOPs de computação do acelerador e da largura de banda da HBM durante o período de criação de perfil.
- A tabela abaixo mostra uma visão mais detalhada da utilização. Ele categoriza
as operações de HLO executadas por cada módulo durante o período de criação de perfil. Você pode
percorrer a hierarquia e conferir a utilização por módulo, por categoria em
um módulo ou por operação em uma categoria. As operações de fusão podem ser expandidas
para mostrar as operações elementares que não são de fusão que elas contêm.
- A categorização é definida principalmente pelo compilador XLA, com o XProf usando outras heurísticas em determinados cenários (por exemplo, ele analisa o gráfico HLO para identificar "fusões de convolução").
- Por padrão, a lista de módulos, categorias e operações é classificada pela fração do tempo total gasto na execução do módulo, da categoria ou da operação. Em vez disso, você pode escolher classificar por operações que causam a maior subutilização do hardware (utilização ponderada pelo tempo de execução da operação ou "tempo desperdiçado"). Ao identificar operações com baixa utilização de FLOPS e alto consumo de tempo, é possível direcioná-las para otimização.
- Passar o cursor sobre uma operação na tabela mostra um card à esquerda
com mais detalhes sobre a operação ou a categoria de operação. Clicar em uma
entrada de tabela fixa o card de detalhes da operação. Esses cards geralmente incluem o
seguinte, conforme apropriado:
- Um link para a operação na ferramenta Graph Viewer.
- Tempo médio de execução.
- Taxas absolutas de uso (em contraste com a utilização informada na tabela) da computação (TFLOP/s), da largura de banda da HBM (GB/s) e da largura de banda de leitura e gravação no chip (GB/s).
- Os detalhes completos da operação XLA, incluindo detalhes sobre várias formas e layouts.
- A procedência da operação XLA no nível do framework.
- O número de ocorrências da operação e o tempo total gasto na operação no agregado.
As larguras de banda brutas (GB/s) ou taxas de computação (TFLOP/s) são computadas combinando dados de compilador estático em FLOPs ou bytes necessários para a operação (o numerador) com informações de duração por operação do perfil (o denominador). Os números de utilização (porcentagens) são calculados computando os dados absolutos de consumo de recursos como uma fração dos recursos de computação ou largura de banda de pico por acelerador.