O XProf é uma ferramenta de criação de perfis e análise de performance para machine learning.
Recursos
- Informações de perfil de alta qualidade com base em eventos e contadores de hardware e metadados do compilador.
 - Baixa sobrecarga de coleta, geralmente <1% em TPUs e <5% em GPUs durante o período de criação de perfil.
 - Amplo conjunto de ferramentas que oferecem uma compreensão profunda da sua carga de trabalho:
- Página de visão geral: confira uma visão agregada de nível superior de como foi o desempenho do seu modelo durante uma execução de perfil, incluindo o uso de recursos de hardware.
 - Visualizador de rastreamento: visualize um cronograma detalhado dos eventos que ocorreram e qual parte do sistema os executou (por exemplo, CPU, TPU ou GPU.
 - Visualizador de gráficos: visualize a estrutura do gráfico do seu programa XLA. Ele mostra o gráfico de operações de alto nível (HLO, na sigla em inglês).
 - Visualizador de memória: visualize o uso de memória durante o ciclo de vida do programa e confira os detalhes do conteúdo da memória no ponto de pico de uso de memória.
 - Perfil de memória: visualize o uso dinâmico de memória dos seus aceleradores durante a execução do programa.
 - Perfil de operações HLO: entenda a performance do hardware para diferentes categorias de operações de alto nível (HLO) executadas pelo seu programa.
 - Estatísticas de operações do HLO: confira as estatísticas de performance das operações do High Level Optimizer (HLO) executadas pelo seu programa e identifique as operações mais demoradas no seu gráfico do HLO.
 - Estatísticas de operações do framework: confira as estatísticas de desempenho de operações no nível do framework (por exemplo, JAX, TensorFlow ou PyTorch/XLA) executados no host e no acelerador.
 - Análise de roofline: confira um modelo de desempenho visual intuitivo que mostra as limitações de hardware inerentes que afetam a performance do seu programa, indicando se ele está limitado pela memória ou pela computação.
 - Estatísticas de megascale: analise o desempenho da comunicação entre frações de cargas de trabalho que abrangem várias frações de TPU e se comunicam pela rede de data center (DCN).
 - Estatísticas do kernel da GPU: confira estatísticas de desempenho e a operação de framework de origem para cada kernel acelerado por GPU no seu programa.
 
 
Primeiros passos
Para instruções de instalação, consulte o Guia de início rápido do XProf.
Se você usa o Google Cloud para executar suas cargas de trabalho, recomendamos a ferramenta xprofiler. Ela oferece uma experiência simplificada de coleta e visualização de perfis usando VMs que executam o XProf.
Para conferir uma demonstração rápida dos recursos do XProf, teste o notebook de demonstração.
Integração com o TensorBoard
Historicamente, a única maneira de instalar e usar o XProf era com o Tensorboard. Esse era chamado de perfil do plug-in do TensorBoard. Algumas documentações mais antigas ainda podem usar esse termo. Essa integração agora é opcional: pense no Tensorboard como um contêiner para o conjunto de ferramentas XProf, que também pode ser instalado e usado de forma independente, com comportamento idêntico.