HLO 작업 프로필 도구
HLO 작업 프로필 도구를 사용하여 프로파일링 기간 동안 실행된 다양한 카테고리의 HLO 작업의 하드웨어 성능을 파악할 수 있습니다.
지원되는 플랫폼
TPU: 지원됨
GPU: 지원됨
HLO 작업 프로필 도구 사용
HLO Op 프로필에는 다음과 같은 구성요소가 있습니다.
- 페이지 상단의 개요는 프로파일링 기간 동안 가속기 컴퓨팅 FLOPs 및 HBM 대역폭의 전반적인 사용률을 요약하여 보여줍니다.
- 아래 표에서는 사용률을 더 세부적으로 확인할 수 있습니다. 이는 프로파일링 기간 동안 각 모듈에서 실행된 HLO 작업을 분류하며, 계층 구조를 탐색하여 모듈별, 모듈 내 카테고리별 또는 카테고리 내 작업별로 사용률을 확인할 수 있습니다. 융합 작업을 더 확장하여 융합 이외의 요소별 작업을 표시할 수 있습니다.
- 분류는 대부분 XLA 컴파일러에 의해 정의되며, XProf는 특정 시나리오에서 추가 휴리스틱을 사용합니다 (예: HLO 그래프를 파싱하여 'convolution fusions'를 식별함).
- 기본적으로 모듈, 카테고리, 작업 목록은 모듈, 카테고리 또는 작업 실행에 소비된 총 시간의 비율로 정렬됩니다. 대신 하드웨어를 가장 많이 사용하지 않는 작업 (작업의 런타임 또는 '낭비된 시간'으로 가중치가 적용된 사용률)으로 정렬할 수 있습니다. FLOPS 사용률이 낮고 시간 소모가 많은 작업을 식별하여 최적화 대상을 타겟팅할 수 있습니다.
- 테이블에서 작업 위로 마우스를 가져가면 왼쪽에 카드가 표시되어 작업 또는 작업 카테고리에 관한 자세한 내용을 확인할 수 있습니다. 표 항목을 클릭하면 작업 세부정보 카드가 고정됩니다. 이러한 카드에는 일반적으로 다음과 같은 정보가 포함됩니다.
- 그래프 뷰어 도구의 작업에 대한 링크입니다.
- 평균 실행 시간입니다.
- 컴퓨팅 (TFLOP/s), HBM 대역폭 (GB/s), 온칩 읽기 및 쓰기 대역폭 (GB/s)의 절대 사용률 (표에 보고된 사용률과 대조됨)입니다.
- 다양한 도형 및 레이아웃에 관한 세부정보를 포함한 전체 XLA 연산 세부정보
- 프레임워크 수준에서 XLA 작업의 출처입니다.
- 연산 발생 횟수 및 집계된 연산에 소비된 총 시간입니다.
원시 대역폭 (GB/s) 또는 컴퓨팅 속도 (TFLOP/s)는 연산에 필요한 FLOP 또는 바이트의 정적 컴파일러 데이터 (분자)와 프로필의 연산당 시간 정보 (분모)를 결합하여 계산됩니다. 사용률 수치 (백분율)는 절대 리소스 소비 데이터를 가속기당 최대 컴퓨팅 또는 최대 대역폭 기능의 비율로 계산하여 계산됩니다.