XProf 是一款用于机器学习的分析和性能分析工具。
功能
- 基于硬件事件和计数器以及编译器元数据的高质量分析信息。
- 收集开销低,在性能分析期间,通常在 TPU 上低于 1%,在 GPU 上低于 5%。
- 提供广泛的工具,可帮助您深入了解工作负载:
- 概览页面:查看模型在性能分析运行期间的总体表现,包括硬件资源利用率。
- Trace Viewer:直观呈现所发生事件的详细时间轴,以及执行这些事件的系统部分(例如,CPU、TPU 或 GPU)。
- Graph Viewer:直观呈现 XLA 程序的图结构。它会显示高级别操作 (HLO) 图。
- 内存查看器:直观地了解程序生命周期内的内存使用情况,并深入了解内存使用量达到峰值时的内存内容详情。
- 内存配置文件:直观呈现程序执行期间加速器的动态内存用量。
- HLO 操作配置文件:了解程序执行的不同类别的高级操作 (HLO) 的硬件性能。
- HLO Op 统计信息:查看程序执行的高级优化器 (HLO) 操作的性能统计信息,并确定 HLO 图中最耗时的操作。
- 框架操作统计信息:查看框架级操作(例如 JAX、TensorFlow 或 PyTorch/XLA)在主机和加速器上执行。
- Roofline 分析:查看直观的视觉性能模型,该模型可显示影响程序性能的固有硬件限制,并指明程序是受内存限制还是受计算限制。
- Megascale 统计信息:分析跨多个 TPU 切片(通过数据中心网络 [DCN] 进行通信)的工作负载的切片间通信性能。
- GPU 内核统计信息:查看程序中每个 GPU 加速内核的性能统计信息和原始框架操作。
使用入门
如需了解安装说明,请参阅 XProf 快速入门。
如果您使用 Google Cloud 运行工作负载,我们建议您使用 xprofiler 工具。它使用运行 XProf 的虚拟机提供简化的配置文件收集和查看体验。
如需快速演示 XProf 功能,请尝试演示笔记本。
TensorBoard 集成
过去,安装和使用 XProf 的唯一方法是使用 TensorBoard。这称为 TensorBoard 插件 Profile;一些旧文档可能仍在使用此术语。此集成现在是可选的:您可以将 TensorBoard 视为 XProf 工具套件的容器,该套件也可以单独安装和使用,并且行为完全相同。