Outil de profil d'opération HLO

Vous pouvez utiliser l'outil de profil d'opération HLO pour comprendre les performances matérielles des différentes catégories d'opérations de haut niveau (HLO) exécutées au cours de la période de profilage.

Plates-formes compatibles

TPU: compatible

GPU: compatible

Utiliser l'outil de profil d'opération HLO

Le profil d'opération HLO se compose des composants suivants:

  1. La vue d'ensemble en haut de la page fournit un résumé de l'utilisation globale des FLOP de calcul de l'accélérateur et de la bande passante HBM pendant la période de profilage.
  2. Le tableau ci-dessous fournit une vue plus détaillée de l'utilisation. Il catégorise les opérations HLO exécutées par chaque module pendant la période de profilage. Vous pouvez parcourir la hiérarchie et afficher l'utilisation par module, par catégorie dans un module ou par opération dans une catégorie. Les opérations de fusion peuvent être développées pour afficher les opérations de non-fusion, élément par élément, qu'elles contiennent.
    • La catégorisation est principalement définie par le compilateur XLA, tandis que XProf utilise des heuristiques supplémentaires dans certains scénarios (par exemple, il analyse le graphique HLO pour identifier les "fusions de convolutions").
    • Par défaut, la liste des modules, catégories et opérations est triée en fonction de la fraction du temps total consacré à l'exécution du module, de la catégorie ou de l'opération. Vous pouvez choisir de trier par les opérations qui sous-utilisent le plus le matériel (utilisation pondérée par la durée d'exécution de l'opération, ou "temps perdu"). En identifiant les opérations dont l'utilisation des FLOPS est faible et la consommation de temps élevée, vous pouvez les cibler pour les optimiser.
  3. Si vous pointez sur une opération dans le tableau, une fiche s'affiche sur la gauche, avec des détails sur l'opération ou la catégorie d'opération. Cliquez sur une entrée de tableau pour épingler la fiche d'informations sur l'opération. Ces fiches incluent généralement les éléments suivants, le cas échéant :
    • Lien vers l'opération dans l'outil Graph Viewer.
    • Temps d'exécution moyen.
    • Taux d'utilisation absolus (par opposition à l'utilisation indiquée dans le tableau) du calcul (TFLOP/s), de la bande passante HBM (Go/s) et de la bande passante de lecture et d'écriture sur le chip (Go/s).
    • Informations complètes sur l'opération XLA, y compris sur les différentes formes et mises en page.
    • Provenance de l'opération XLA au niveau du framework.
    • Nombre d'occurrences de l'opération et temps total passé sur l'opération au total.

Notez que les bandes passantes brutes (Go/s) ou les taux de calcul (TFLOP/s) sont calculés en combinant les données statiques du compilateur sur les FLOP ou les octets requis pour l'opération (le numérateur) avec les informations de durée par opération du profil (le dénominateur). Les nombres d'utilisation (en pourcentage) sont calculés en calculant les données de consommation de ressources absolues en tant que fraction des capacités de calcul ou de bande passante de pointe par accélérateur.