XProf, आपके प्रोग्राम की परफ़ॉर्मेंस के ट्रेस और प्रोफ़ाइलें पाने और उन्हें विज़ुअलाइज़ करने का एक बेहतरीन तरीका है. इसमें जीपीयू और टीपीयू पर होने वाली गतिविधि भी शामिल है. आखिरी नतीजा कुछ ऐसा दिखता है:

प्रोग्रामैटिक कैप्चर
jax.profiler.start_trace और jax.profiler.stop_trace तरीकों का इस्तेमाल करके, JAX कोड के लिए प्रोफ़ाइलर ट्रेस कैप्चर करने के लिए अपने कोड को इंस्ट्रुमेंट किया जा सकता है. कॉल
jax.profiler.start_trace
उस डायरेक्ट्री के साथ जिसमें ट्रेस फ़ाइलें लिखनी हैं. यह वही --logdir डायरेक्ट्री होनी चाहिए जिसका इस्तेमाल XProf को शुरू करने के लिए किया गया था. इसके बाद, ट्रेस देखने के लिए XProf का इस्तेमाल किया जा सकता है.
उदाहरण के लिए, प्रोफ़ाइलर ट्रेस लेने के लिए:
import jax
jax.profiler.start_trace("/tmp/profile-data")
# Run the operations to be profiled
key = jax.random.key(0)
x = jax.random.normal(key, (5000, 5000))
y = x @ x
y.block_until_ready()
jax.profiler.stop_trace()
jax.block_until_ready कॉल को नोट करें. हम इसका इस्तेमाल यह पक्का करने के लिए करते हैं कि डिवाइस पर किए गए काम को ट्रेस में कैप्चर किया गया हो. इस बारे में ज़्यादा जानने के लिए, एसिंक्रोनस डिस्पैच देखें.
start_trace और stop_trace के विकल्प के तौर पर, jax.profiler.trace कॉन्टेक्स्ट मैनेजर का इस्तेमाल भी किया जा सकता है:
import jax
with jax.profiler.trace("/tmp/profile-data"):
key = jax.random.key(0)
x = jax.random.normal(key, (5000, 5000))
y = x @ x
y.block_until_ready()
ट्रेस देखना
ट्रेस कैप्चर करने के बाद, XProf यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करके इसे देखा जा सकता है.
लॉग डायरेक्ट्री की ओर इशारा करके, स्टैंडअलोन XProf कमांड का इस्तेमाल करके सीधे तौर पर प्रोफ़ाइलर यूज़र इंटरफ़ेस (यूआई) लॉन्च किया जा सकता है:
$ xprof --port=8791 /tmp/profile-data
Attempting to start XProf server:
Log Directory: /tmp/profile-data
Port: 8791
Worker Service Address: 0.0.0.0:50051
Hide Capture Button: False
XProf at http://localhost:8791/ (Press CTRL+C to quit)
दिए गए यूआरएल पर जाएं (जैसे, http://localhost:8791/) पर क्लिक करें.
उपलब्ध ट्रेस, बाईं ओर मौजूद "सेशन" ड्रॉपडाउन मेन्यू में दिखते हैं. अपनी पसंद का सेशन चुनें. इसके बाद, "टूल" ड्रॉपडाउन में जाकर, "ट्रेस व्यूअर" चुनें. अब आपको एक्ज़ीक्यूशन की टाइमलाइन दिखेगी. ट्रेस में नेविगेट करने के लिए, WASD कुंजियों का इस्तेमाल किया जा सकता है. साथ ही, ज़्यादा जानकारी के लिए, इवेंट चुनने के लिए क्लिक या खींचें और छोड़ें. ट्रेस व्यूअर का इस्तेमाल करने के बारे में ज़्यादा जानकारी के लिए, Trace Viewer टूल का दस्तावेज़ देखें.
XProf की मदद से मैन्युअल तरीके से कैप्चर करना
यहां चल रहे प्रोग्राम से, मैन्युअल तरीके से ट्रिगर किए गए N-सेकंड के ट्रेस को कैप्चर करने के निर्देश दिए गए हैं.
XProf सर्वर चालू करें:
xprof --logdir /tmp/profile-data/आपको
<http://localhost:8791/>पर XProf लोड करने का विकल्प दिखना चाहिए.--portफ़्लैग की मदद से, कोई दूसरा पोर्ट तय किया जा सकता है.आपको जिस Python प्रोग्राम या प्रोसेस की प्रोफ़ाइल बनानी है उसमें यहां दिया गया कोड जोड़ें. इसे प्रोग्राम या प्रोसेस की शुरुआत में जोड़ें:
import jax.profiler jax.profiler.start_server(9999)इससे प्रोफ़ाइलर सर्वर शुरू होता है, जिससे XProf कनेक्ट होता है. अगले चरण पर जाने से पहले, प्रोफ़ाइलर सर्वर चालू होना चाहिए. सर्वर का इस्तेमाल पूरा हो जाने पर, इसे बंद करने के लिए
jax.profiler.stop_server()पर कॉल करें.अगर आपको लंबे समय तक चलने वाले प्रोग्राम (जैसे कि लंबा ट्रेनिंग लूप) के किसी स्निपेट की प्रोफ़ाइल बनानी है, तो इसे प्रोग्राम की शुरुआत में रखें और प्रोग्राम को सामान्य तरीके से शुरू करें. अगर आपको किसी छोटे प्रोग्राम (जैसे कि माइक्रोबेंचमार्क) की प्रोफ़ाइल बनानी है, तो एक विकल्प यह है कि IPython शेल में प्रोफ़ाइलर सर्वर शुरू करें. इसके बाद, अगले चरण में कैप्चर शुरू करने के बाद,
%runके साथ छोटा प्रोग्राम चलाएं. एक और विकल्प यह है कि प्रोग्राम की शुरुआत में प्रोफ़ाइलर सर्वर शुरू करें औरtime.sleep()का इस्तेमाल करें, ताकि आपको कैप्चर शुरू करने के लिए काफ़ी समय मिल सके.<http://localhost:8791/>खोलें. इसके बाद, सबसे ऊपर बाईं ओर मौजूद "प्रोफ़ाइल कैप्चर करें" बटन पर क्लिक करें. प्रोफ़ाइल सेवा के यूआरएल के तौर पर "localhost:9999" डालें. यह प्रोफ़ाइलर सर्वर का पता है, जिसे आपने पिछले चरण में शुरू किया था. आपको जितने मिलीसेकंड के लिए प्रोफ़ाइल बनानी है उतने मिलीसेकंड डालें. इसके बाद, "CAPTURE" पर क्लिक करें.अगर आपको जिस कोड की प्रोफ़ाइल बनानी है वह पहले से नहीं चल रहा है (उदाहरण के लिए, अगर आपने Python शेल में प्रोफ़ाइलर सर्वर शुरू किया है), तो कैप्चरिंग के दौरान उसे चलाएं.
डेटा कैप्चर होने के बाद, XProf अपने-आप रीफ़्रेश हो जाना चाहिए. (XProf की सभी प्रोफ़ाइलिंग सुविधाएं, JAX से जुड़ी नहीं हैं. इसलिए, ऐसा हो सकता है कि शुरुआत में आपको लगे कि कुछ भी कैप्चर नहीं किया गया है.) बाईं ओर मौजूद "टूल" में जाकर, "ट्रेस व्यूअर" चुनें.
अब आपको एक्ज़ीक्यूशन की टाइमलाइन दिखेगी. ट्रेस में नेविगेट करने के लिए, WASD कुंजियों का इस्तेमाल किया जा सकता है. साथ ही, इवेंट चुनने के लिए क्लिक या खींचें. इससे आपको सबसे नीचे ज़्यादा जानकारी दिखेगी. ट्रेस व्यूअर का इस्तेमाल करने के बारे में ज़्यादा जानकारी के लिए, Trace Viewer टूल का दस्तावेज़ देखें.
लगातार प्रोफ़ाइलिंग के स्नैपशॉट कैप्चर करना
किसी भी समय लगातार प्रोफ़ाइलिंग का स्नैपशॉट कैप्चर करने के लिए, यहां दिए गए निर्देशों का पालन करें.
- आपको जिस Python प्रोग्राम या प्रोसेस की प्रोफ़ाइल बनानी है उसमें यहां दिया गया कोड जोड़ें. इसे प्रोग्राम या प्रोसेस की शुरुआत में जोड़ें:
import jax.profiler
jax.profiler.start_server(9999)
- अपने प्रोग्राम से अलग, लगातार प्रोफ़ाइलिंग शुरू करने के लिए:
from xprof.api import continuous_profiling_snapshot
continuous_profiling_snapshot.start_continuous_profiling('localhost:9999', {})
- स्नैपशॉट पाएं:
from xprof.api import continuous_profiling_snapshot
continuous_profiling_snapshot.get_snapshot('localhost:9999', '/tmp/profile-data/')
- लगातार प्रोफ़ाइलिंग की सुविधा बंद करें:
from xprof.api import continuous_profiling_snapshot
continuous_profiling_snapshot.stop_continuous_profiling('localhost:9999')
- XProf शुरू करें:
xprof --port=8791 /tmp/profile-data
अब आपको एक्ज़ीक्यूशन की टाइमलाइन दिखेगी. ट्रेस में नेविगेट करने के लिए, WASD कुंजियों का इस्तेमाल किया जा सकता है. साथ ही, इवेंट चुनने के लिए क्लिक या खींचें. इससे आपको सबसे नीचे ज़्यादा जानकारी दिखेगी. ट्रेस व्यूअर का इस्तेमाल करने के बारे में ज़्यादा जानकारी के लिए, Trace Viewer टूल का दस्तावेज़ देखें.
XProf और Tensorboard
XProf, Tensorboard में प्रोफ़ाइलिंग और ट्रेस कैप्चर करने की सुविधा देने वाला टूल है. जब तक xprof इंस्टॉल है, तब तक Tensorboard में "प्रोफ़ाइल" टैब दिखेगा. इसका इस्तेमाल करना, XProf को अलग से लॉन्च करने जैसा ही है. हालांकि, इसे उसी लॉग डायरेक्ट्री की ओर पॉइंट करके लॉन्च किया जाना चाहिए.
इसमें प्रोफ़ाइल कैप्चर करने, उसका विश्लेषण करने, और उसे देखने की सुविधा शामिल है. XProf, tensorboard_plugin_profile की जगह लेता है. यह सुविधा पहले सुझाई गई थी.
$ tensorboard --logdir=/tmp/profile-data
[...]
Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.19.0 at http://localhost:6006/ (Press CTRL+C to quit)
कस्टम ट्रेस इवेंट जोड़ना
डिफ़ॉल्ट रूप से, ट्रेस व्यूअर में मौजूद इवेंट, ज़्यादातर लो-लेवल वाले इंटरनल JAX फ़ंक्शन होते हैं. अपने कोड में jax.profiler.TraceAnnotation और jax.profiler.annotate_function का इस्तेमाल करके, अपने इवेंट और फ़ंक्शन जोड़े जा सकते हैं.
प्रोफ़ाइलर के विकल्पों को कॉन्फ़िगर करना
start_trace तरीके में एक वैकल्पिक profiler_options पैरामीटर होता है. इससे प्रोफ़ाइलर के व्यवहार को बेहतर तरीके से कंट्रोल किया जा सकता है. यह पैरामीटर, jax.profiler.ProfileOptions का इंस्टेंस होना चाहिए.
उदाहरण के लिए, सभी Python और होस्ट ट्रेस बंद करने के लिए:
import jax
options = jax.profiler.ProfileOptions()
options.python_tracer_level = 0
options.host_tracer_level = 0
jax.profiler.start_trace("/tmp/profile-data", profiler_options=options)
# Run the operations to be profiled
key = jax.random.key(0)
x = jax.random.normal(key, (5000, 5000))
y = x @ x
y.block_until_ready()
jax.profiler.stop_trace()
सामान्य विकल्प
host_tracer_level: यह होस्ट-साइड की गतिविधियों के लिए ट्रेस लेवल सेट करता है.इस्तेमाल की जा सकने वाली वैल्यू:
0: इससे होस्ट (सीपीयू) ट्रेसिंग पूरी तरह से बंद हो जाती है.1: इससे सिर्फ़ उपयोगकर्ता के इंस्ट्रुमेंट किए गए TraceMe इवेंट को ट्रेस किया जा सकता है.2: इसमें लेवल 1 के ट्रेस के साथ-साथ, प्रोग्राम के एक्ज़ीक्यूशन की हाई-लेवल की जानकारी भी शामिल होती है. जैसे, XLA की महंगी कार्रवाइयां (डिफ़ॉल्ट रूप से).3: इसमें लेवल 2 के ट्रेस के साथ-साथ, प्रोग्राम के एक्ज़ीक्यूशन की ज़्यादा जानकारी भी शामिल होती है. जैसे, XLA के कम खर्चीले ऑपरेशन.
device_tracer_level: यह नीति कंट्रोल करती है कि डिवाइस की पहचान करने की सुविधा चालू है या नहीं.इस्तेमाल की जा सकने वाली वैल्यू:
0: इससे डिवाइस की पहचान करने की सुविधा बंद हो जाती है.1: डिवाइस ट्रेसिंग की सुविधा चालू करता है (डिफ़ॉल्ट).
python_tracer_level: इससे यह कंट्रोल किया जाता है कि Python ट्रेसिंग की सुविधा चालू है या नहीं.इस्तेमाल की जा सकने वाली वैल्यू:
0: यह Python फ़ंक्शन कॉल ट्रेसिंग को बंद करता है (डिफ़ॉल्ट रूप से चालू होता है).1: इससे Python ट्रेसिंग चालू होती है.
कॉन्फ़िगरेशन के बेहतर विकल्प
TPU के विकल्प
tpu_trace_mode: यह टीपीयू ट्रेसिंग के मोड के बारे में बताता है.इस्तेमाल की जा सकने वाली वैल्यू:
TRACE_ONLY_HOST: इसका मतलब है कि सिर्फ़ होस्ट-साइड (सीपीयू) की गतिविधियों को ट्रैक किया जाता है. साथ ही, डिवाइस (टीपीयू/जीपीयू) के कोई भी ट्रेस इकट्ठा नहीं किए जाते.TRACE_ONLY_XLA: इसका मतलब है कि डिवाइस पर सिर्फ़ XLA-लेवल के ऑपरेशनों को ट्रेस किया जाता है.TRACE_COMPUTE: यह डिवाइस पर कंप्यूटिंग से जुड़ी कार्रवाइयों को ट्रैक करता है.TRACE_COMPUTE_AND_SYNC: यह डिवाइस पर कंप्यूटिंग और सिंक्रनाइज़ेशन, दोनों तरह के इवेंट को ट्रैक करता है.
अगर "tpu_trace_mode" नहीं दिया गया है, तो trace_mode डिफ़ॉल्ट रूप से
TRACE_ONLY_XLAपर सेट होता है.tpu_num_sparse_cores_to_trace: इससे पता चलता है कि टीपीयू पर कितने स्पार्स कोर को ट्रेस करना है.tpu_num_sparse_core_tiles_to_trace: इससे यह तय किया जाता है कि टीपीयू पर ट्रेस करने के लिए, हर स्पार्स कोर में कितने टाइल होंगे.tpu_num_chips_to_profile_per_task: इससे हर टास्क के लिए, प्रोफ़ाइल किए जाने वाले टीपीयू चिप की संख्या तय की जाती है.
GPU के विकल्प
जीपीयू की प्रोफ़ाइलिंग के लिए, ये विकल्प उपलब्ध हैं:
gpu_max_callback_api_events: यह CUPTI कॉलबैक एपीआई से इकट्ठा किए गए इवेंट की ज़्यादा से ज़्यादा संख्या सेट करता है. यह डिफ़ॉल्ट रूप से2*1024*1024पर सेट होता है.gpu_max_activity_api_events: यह CUPTI गतिविधि एपीआई से इकट्ठा किए गए इवेंट की ज़्यादा से ज़्यादा संख्या सेट करता है. यह डिफ़ॉल्ट रूप से2*1024*1024पर सेट होता है.gpu_max_annotation_strings: इससे एनोटेशन स्ट्रिंग की ज़्यादा से ज़्यादा संख्या सेट की जाती है. यह डिफ़ॉल्ट रूप से1024*1024पर सेट होता है.gpu_enable_nvtx_tracking: इससे CUPTI में NVTX ट्रैकिंग चालू होती है. डिफ़ॉल्ट रूप से, यहFalseपर सेट होता है.gpu_enable_cupti_activity_graph_trace: यह CUDA ग्राफ़ के लिए, CUPTI गतिविधि ग्राफ़ ट्रेसिंग को चालू करता है. यह डिफ़ॉल्ट रूप सेFalseपर सेट होता है.gpu_pm_sample_counters: कॉमा लगाकर अलग की गई, GPU परफ़ॉर्मेंस मॉनिटरिंग मेट्रिक की स्ट्रिंग.इनका इस्तेमाल CUPTI की पीएम सैंपलिंग सुविधा का इस्तेमाल करके किया जाता है. उदाहरण के लिए,"sm__cycles_active.avg.pct_of_peak_sustained_elapsed". पीएम सैंपलिंग डिफ़ॉल्ट रूप से बंद होती है. उपलब्ध मेट्रिक के लिए, NVIDIA का CUPTI दस्तावेज़ देखें.gpu_pm_sample_interval_us: यह CUPTI PM सैंपलिंग के लिए, माइक्रोसेकंड में सैंपलिंग इंटरवल सेट करता है. यह डिफ़ॉल्ट रूप से500पर सेट होता है.gpu_pm_sample_buffer_size_per_gpu_mb: यह CUPTI PM सैंपलिंग के लिए, हर डिवाइस में सिस्टम मेमोरी बफ़र का साइज़ सेट करता है. यह साइज़ एमबी में होता है. डिफ़ॉल्ट रूप से, यह 64 एमबी पर सेट होती है. ज़्यादा से ज़्यादा 4 जीबी की वैल्यू इस्तेमाल की जा सकती है.gpu_num_chips_to_profile_per_task: इस विकल्प से, हर टास्क के लिए प्रोफ़ाइल किए जाने वाले जीपीयू डिवाइसों की संख्या तय की जाती है. अगर इसे तय नहीं किया जाता है, 0 पर सेट किया जाता है या अमान्य वैल्यू पर सेट किया जाता है, तो सभी उपलब्ध जीपीयू की प्रोफ़ाइल बनाई जाएगी. इसका इस्तेमाल, ट्रेस कलेक्शन के साइज़ को कम करने के लिए किया जा सकता है.gpu_dump_graph_node_mapping: इस विकल्प को चालू करने पर, CUDA ग्राफ़ नोड मैपिंग की जानकारी को ट्रेस में डंप कर दिया जाता है. यह डिफ़ॉल्ट रूप सेFalseपर सेट होता है.
उदाहरण के लिए:
options = ProfileOptions()
options.advanced_configuration = {"tpu_trace_mode" : "TRACE_ONLY_HOST", "tpu_num_sparse_cores_to_trace" : 2}
अगर कोई ऐसी कुंजी या विकल्प वैल्यू मिलती है जिसकी पहचान नहीं हुई है, तो यह फ़ंक्शन InvalidArgumentError दिखाता है.