HLO Op Profile 工具

您可以使用 HLO Op Profile 工具了解在性能分析期间执行的不同类别的高级操作 (HLO) 的硬件性能。

支持的平台

TPU:受支持

GPU:受支持

使用 HLO Op Profile 工具

HLO 操作配置文件包含以下组件:

  1. 页面顶部的概览会简要显示加速器计算 FLOP 和 HBM 带宽在性能分析期间的总体利用率。
  2. 下表提供了更精细的利用率视图。它会对每个模块在性能分析期间执行的 HLO 操作进行分类,您可以遍历该层次结构,并查看每个模块、模块中的每个类别或类别中的每个操作的利用率。您可以进一步展开融合操作,以显示其包含的非融合元素级操作。
    • 分类主要由 XLA 编译器定义,XProf 会在某些情况下采用其他启发词语(例如,它会解析 HLO 图来识别“卷积融合”)。
    • 默认情况下,模块、类别和操作的列表会按执行模块、类别或操作所花费的总时间所占的百分比进行排序。您也可以选择按导致硬件利用率最低的操作(利用率按操作的运行时间或“浪费时间”加权)进行排序。通过识别 FLOPS 利用率较低且时间消耗较高的操作,您可以将其作为优化目标。
  3. 将鼠标悬停在表格中的某个操作上,左侧会显示一张卡片,其中显示有关该操作或操作类别的更多详细信息。点击表格条目可固定操作详情卡片。这些卡片通常包含以下内容(如适用):
    • 指向 Graph Viewer 工具中相应操作的链接。
    • 平均执行时间。
    • 计算 (TFLOP/s)、HBM 带宽 (GB/s) 以及芯片端读取和写入带宽 (GB/s) 的绝对使用率(与表格中报告的利用率相对应)。
    • 完整的 XLA 运算详细信息,包括各种形状和布局的详细信息。
    • 框架级 XLA 运算的来源。
    • 操作的发生次数,以及在该操作上总共花费的时间。

请注意,原始带宽 (GB/s) 或计算速率 (TFLOP/s) 是通过将操作所需的 FLOP 或字节的静态编译器数据(分子)与配置文件中的每个操作的持续时间信息(分母)相结合计算得出的。利用率数据(百分比)的计算方法是将绝对资源消耗数据作为每个加速器的峰值计算能力或峰值带宽能力的一部分进行计算。