SparseCore, टाइल वाला एक खास प्रोसेसर है. इसे ऐसे वर्कलोड की परफ़ॉर्मेंस को बेहतर बनाने के लिए डिज़ाइन किया गया है जिनमें अनियमित और कम मेमोरी ऐक्सेस करने के साथ-साथ कंप्यूटेशन शामिल होता है. खास तौर पर, हाई बैंडविड्थ मेमोरी (एचबीएम) में सेव किए गए बड़े डेटासेट पर. यह एम्बेड किए गए लुकअप जैसे कामों को आसानी से कर सकता है. हालांकि, इसकी क्षमताओं का इस्तेमाल, डाइनैमिक और स्पार्स वर्कलोड को तेज़ी से प्रोसेस करने के लिए भी किया जा सकता है.
1. SparseCore के बारे में जानकारी
आर्किटेक्चर की मुख्य विशेषताएं:
- टाइल वाला आर्किटेक्चर: इसमें कई कंप्यूट टाइलें शामिल होती हैं. हर टाइल एक पूरी डेटाफ़्लो यूनिट होती है, जिसमें अपनी लोकल मेमोरी और प्रोसेसिंग यूनिट होती है. इससे पैरलल प्रोसेसिंग की जा सकती है.
- डाइनैमिक एक्ज़ीक्यूशन: यह डेटा पर निर्भर कंट्रोल फ़्लो और मेमोरी ऐक्सेस को नेटिव तौर पर सपोर्ट करता है. यह कम डेटा के लिए ज़रूरी है.
- वेक्टर प्रोसेसिंग: यह बेहतर तरीके से कंप्यूटेशन करने के लिए, छोटे-वेक्टर टास्क (हार्डवेयर वर्शन के आधार पर 8-एलिमेंट या 16-एलिमेंट) का इस्तेमाल करता है.
- सेंट्रलाइज़्ड कंट्रोल: एक ही SparseCore सीक्वेंसर, सभी टाइल पर टास्क को व्यवस्थित करता है. इससे यह पक्का होता है कि सभी ऑपरेशन एक साथ हों.
- डेटा की खास जानकारी देने की सुविधा: इसमें खास क्रॉस-लेन ऑपरेशन शामिल होते हैं. ये ऑपरेशन, सॉर्ट करने, फ़िल्टर करने, और प्रीफ़िक्स सम जैसे कामों के लिए फ़ायदेमंद होते हैं.
- मेमोरी हैरारकी: यह बड़े डेटासेट को सेव करने के लिए, एचबीएम का इस्तेमाल करता है. साथ ही, बार-बार ऐक्सेस किए जाने वाले डेटा को स्टेज करने के लिए, लोकल स्क्रैचपैड मेमोरी (एसपीएमईएम) का इस्तेमाल करता है. इससे एचबीएम की लेटेन्सी काफ़ी कम हो जाती है.
एक नज़र में खास जानकारी:
| एट्रिब्यूट | TPU v4 | TPU v5p | Trillium |
|---|---|---|---|
| SparseCores/Chip | 4 | 4 | 2 |
| Tiles/SparseCore | 16 | 16 | 16 |
| SIMD Width | 8 | 8 | 8 (F32) 16 (BF16) |
| एचबीएम की क्षमता | 32 जीबी | 96 GiB | 32 जीबी |
2. SparseCore होस्ट प्रीप्रोसेसिंग
SparseCore की परफ़ॉर्मेंस के लिए, डेटा को सही तरीके से तैयार करना बहुत ज़रूरी है. इसमें होस्ट प्रीप्रोसेसिंग अहम भूमिका निभाती है. इसमें कई मुख्य फ़ंक्शन शामिल हैं:
- डेटा बदलना:
- कच्चे इनपुट डेटा पर ज़रूरी ट्रांसफ़ॉर्मेशन लागू करें.
- आईडी ट्रांसफ़ॉर्मेशन मैनेज करें. यह सुविधा या टेबल स्टैकिंग के साथ काम करते समय खास तौर पर ज़रूरी होती है.
- इनपुट डेटा को कोऑर्डिनेट (सीओओ) स्पार्स फ़ॉर्मैट में बदलें. इसके बारे में ज़्यादा जानकारी, यहां दी गई है.
- डेटा को इस तरह से बांटें कि उसे चिप पर मौजूद अलग-अलग SparseCore में आसानी से डिस्ट्रिब्यूट किया जा सके.
- सीमा की पुष्टि करना:
- पक्का करें कि इनपुट डेटा की विशेषताएं (उदाहरण के लिए, आईडी की संख्या), SparseCore की पहले से तय की गई ऑपरेशनल सीमाओं के मुताबिक हों. जैसे,
max_ids_per_partitionऔरmax_unique_ids_per_partition. - अगर इनपुट डेटा इन सीमाओं से ज़्यादा है, तो होस्ट प्रीप्रोसेसिंग लेयर, डेटा को छोटे-छोटे मिनी-बैच में बांटने की कोशिश कर सकती है. इससे डेटा, तय सीमाओं के मुताबिक हो जाएगा.
- पक्का करें कि इनपुट डेटा की विशेषताएं (उदाहरण के लिए, आईडी की संख्या), SparseCore की पहले से तय की गई ऑपरेशनल सीमाओं के मुताबिक हों. जैसे,
- डेटा ट्रांसफ़र:
- प्रोसेस किए गए और पुष्टि किए गए डेटा को टीपीयू की हाई बैंडविड्थ मेमोरी (एचबीएम) में आसानी से कॉपी करता है, ताकि इसे SparseCore पर लागू किया जा सके.
टेबल स्टैकिंग को समझना:
टेबल स्टैकिंग, ऑप्टिमाइज़ेशन की एक अहम तकनीक है. इसमें कई एम्बेडिंग टेबल को तार्किक तरीके से एक साथ जोड़ा जाता है, ताकि एम्बेडिंग लुकअप की क्षमता को बढ़ाया जा सके. आम तौर पर, इस प्रोसेस को एमएल फ़्रेमवर्क अपने-आप मैनेज करता है.
- फ़िचर स्टैकिंग: ऐसा तब होता है, जब कई अलग-अलग सुविधाएं एक ही एम्बेडिंग टेबल शेयर करती हैं. इसका एक सामान्य उदाहरण यह है कि अलग-अलग कॉन्टेक्स्ट के ज़िप कोड जैसी कई कैटगरी वाली सुविधाओं के लिए, एक ही एम्बेडिंग डिक्शनरी का इस्तेमाल किया जाता है.
- टेबल स्टैकिंग: इस स्थिति में, अलग-अलग एम्बेडिंग टेबल को एक साथ स्टैक किया जाता है. एक जैसे एम्बेडिंग डाइमेंशन और ऑप्टिमाइज़र कॉन्फ़िगरेशन वाली टेबल को अक्सर ग्रुप किया जाता है.
टेबल स्टैकिंग का मुख्य फ़ायदा यह है कि इससे स्टैक की गई इन टेबल पर कार्रवाइयों के लिए, ज़्यादा असरदार बैच साइज़ बनाया जा सकता है. इससे कंप्यूटेशनल ओवरहेड कम हो जाता है. साथ ही, यह इंटर-चिप कम्यूनिकेशन (आईसीआई) की लेटेन्सी को छिपाने में असरदार हो सकता है. बेहतर परफ़ॉर्मेंस के लिए, स्टैक की गई टेबल की संख्या सामान्य होनी चाहिए. आम तौर पर, यह संख्या 5 से 100 के बीच होती है.
3. COO टेंसर में कन्वर्ज़न
SparseCore से डेटा प्रोसेस करने से पहले, आम तौर पर इसे कोऑर्डिनेट (COO) स्पार्स टेंसर फ़ॉर्मैट में बदला जाता है. COO फ़ॉर्मैट, स्पार्स मैट्रिक्स को असरदार तरीके से दिखाने का एक तरीका है. आम तौर पर, इसमें तीन ऐरे का इस्तेमाल किया जाता है:
row_ids: यह एक ऐसा कलेक्शन है जिसमें हर नॉन-ज़ीरो एलिमेंट के लिए पंक्ति के इंडेक्स होते हैं. बैच प्रोसेसिंग के संदर्भ में, यह अक्सर बैच डाइमेंशन से मेल खाता है.col_ids: यह एक ऐसा कलेक्शन होता है जिसमें हर नॉन-ज़ीरो एलिमेंट के लिए कॉलम इंडेक्स शामिल होते हैं. एम्बेड करने के लिए, ये अक्सर सुविधा या आईडी की वैल्यू होती हैं.values(ज़रूरी नहीं): यह एक ऐसी सरणी होती है जिसमें (row,col) कोऑर्डिनेट पर मौजूद, शून्य से अलग वैल्यू वाले एलिमेंट की असल वैल्यू होती हैं. आईडी की संख्या से जुड़ी सीमाएं तय करते समय, इन वैल्यू (फ़ायदे) को अक्सर ध्यान में नहीं रखा जाता. इस बारे में बाद में बताया गया है.
उदाहरण के लिए:
आईडी के बैच दिखाने वाली स्पार्स मैट्रिक्स के इनपुट पर विचार करें:
[
[id_A], // Sample 0
[id_A, id_B, id_C], // Sample 1
[id_B, id_B, id_D], // Sample 2 (note duplicate id_B)
]
COO फ़ॉर्मैट में बदलने के बाद (और हो सकता है कि एक ही सैंपल में आईडी को डुप्लीकेट से हटाने के बाद):
row_ids = [0, 1, 1, 1, 2, 2]
col_ids = [id_A, id_A, id_B, id_C, id_B, id_D]
SparseCore, काम को प्रोसेस और डिस्ट्रिब्यूट करने के लिए इस कन्वर्ज़न का इस्तेमाल करता है.
खास तौर पर, col_ids यह तय करने के लिए ज़रूरी हैं कि कोई आईडी किस खास SparseCore पार्टीशन से जुड़ा है. इससे शार्डिंग और लुकअप को बेहतर तरीके से किया जा सकता है.
4. SparsecoreConfig: यह हाई-लेवल एपीआई है
फ़्रेमवर्क के हिसाब से एम्बेड किए जाने वाले एपीआई:
- JAX: https://github.com/jax-ml/jax-tpu-embedding
- TensorFlow: https://www.tensorflow.org/recommenders/api_docs/python/tfrs/layers/embedding/TPUEmbedding
- Keras: https://keras.io/keras_rs/api/embedding_layers/distributed_embedding
SparsecoreConfig या XLA फ़्लैग जैसे मिलते-जुलते तरीके, SparseCore के कई व्यवहारों को कंट्रोल करने के लिए एक हाई-लेवल इंटरफ़ेस के तौर पर काम करते हैं. इन पैरामीटर के बारे में पूरी जानकारी होना, परफ़ॉर्मेंस को बेहतर बनाने और यह पक्का करने के लिए ज़रूरी है कि आपके मॉडल सही तरीके से काम कर रहे हैं.
disable_table_stacking: bool = False- वजह: यह फ़्लैग कंट्रोल करता है कि टेबल स्टैकिंग की सुविधा अपने-आप चालू होती है या नहीं. टेबल स्टैकिंग की सुविधा चालू होने पर, फ़्रेमवर्क को टेबल स्टैक करने से रोका जाता है. इससे परफ़ॉर्मेंस कम हो सकती है, क्योंकि ओवरहेड बढ़ जाते हैं. साथ ही, इंटर-चिप इंटरकनेक्ट (आईसीआई) की लेटेन्सी को छिपाने की क्षमता कम हो जाती है.
- डिफ़ॉल्ट:
False(इसका मतलब है कि टेबल स्टैकिंग की सुविधा आम तौर पर डिफ़ॉल्ट रूप से चालू होती है. हालांकि, यह सुविधा सिर्फ़ उन फ़्रेमवर्क में काम करती है जहां इसे इस्तेमाल किया जा सकता है).
max_ids_per_chip_per_sample: int = 64- जानकारी: यह पैरामीटर, एम्बेड किए गए आईडी की कुल संख्या पर एक ग्लोबल ऊपरी सीमा तय करता है. यह संख्या, इनपुट बैच में मौजूद एक सैंपल से एक चिप प्रोसेस कर सकती है. यह संख्या, सभी टेबल के लिए एग्रीगेट की जाती है. यह चिप लेवल पर संसाधनों को मैनेज करने का एक तरीका है. इसमें, टेबल या पार्टीशन के हिसाब से तय की गई ज़्यादा जानकारी वाली सीमाओं को ध्यान में रखा जाता है. इस वैल्यू को बेहतर बनाने के लिए, आम तौर पर मॉडल की खास बातों और सिस्टम की कुल क्षमता पर निर्भर रहना पड़ता है.
- डिफ़ॉल्ट:
64.
max_ids_per_table: Optional[Dict[str, int]] = None- जानकारी: यह पैरामीटर, एम्बेडिंग आईडी की ज़्यादा से ज़्यादा संख्या के बारे में बताता है. इसमें डुप्लीकेट आईडी भी शामिल हो सकते हैं. इन आईडी को हर लॉजिकल टेबल के लिए प्रोसेस किया जा सकता है. इसके लिए, सभी SparseCore में मौजूद सभी पार्टीशन को ध्यान में रखा जाता है. यह
max_ids_per_partitionसे ज़्यादा है. अगर किसी टेबलTकोPपार्टिशन में बांटा गया है, तो यह सीमा उन सभी आईडी के योग पर लागू होती है जिन्हें सभी P पार्टिशन पर भेजा गया है. यह अक्सरmax_ids_per_partition_per_sampleऔर बैच के कुल साइज़ से जुड़ा होता है. - सेटिंग: आम तौर पर, इसे सीमा तय करने वाली फ़ाइल का इस्तेमाल करके कॉन्फ़िगर किया जाता है. उदाहरण के लिए,
xla_sparse_core_max_ids_fileफ़्लैग का इस्तेमाल करके, जहांmax_ids_per_partitionको तय किया जाता है. टेबल लेवल का यह कॉन्सेप्ट, पार्टीशन लेवल की उन सीमाओं (max_idsऔरmax_uniques) को सेट करने का एक तरीका है. - डिफ़ॉल्ट:
None(अगर साफ़ तौर पर नहीं बताया गया है, तो वैल्यू को हर पार्टीशन की सीमाओं या अन्य कॉन्फ़िगरेशन से अनुमानित किया जा सकता है).
- जानकारी: यह पैरामीटर, एम्बेडिंग आईडी की ज़्यादा से ज़्यादा संख्या के बारे में बताता है. इसमें डुप्लीकेट आईडी भी शामिल हो सकते हैं. इन आईडी को हर लॉजिकल टेबल के लिए प्रोसेस किया जा सकता है. इसके लिए, सभी SparseCore में मौजूद सभी पार्टीशन को ध्यान में रखा जाता है. यह
max_unique_ids_per_table: Optional[Dict[str, int]] = None- ब्यौरा: यह
max_ids_per_tableके जैसा ही है. हालांकि, यह पैरामीटर हर लॉजिकल टेबल के लिए यूनीक आईडी की ज़्यादा से ज़्यादा संख्या तय करता है. यह सेटिंग, डिवाइस पर मौजूद बफ़र के साइज़ को सही तरीके से सेट करने के लिए ज़रूरी है. इन बफ़र का इस्तेमाल, यूनीक आईडी प्रोसेसिंग और उसके बाद की वेक्टर कार्रवाइयों में किया जाता है. - सेटिंग: इसे आम तौर पर, सीमाएं तय करने वाली फ़ाइल में भी तय किया जाता है या
max_unique_ids_per_partition_per_sampleसे लिया जाता है. - डिफ़ॉल्ट:
None.
- ब्यौरा: यह
allow_id_dropping: bool = False- वजह: यह बूलियन फ़्लैग, आईडी ड्रॉप करने की सुविधा को कंट्रोल करता है. ऐसा तब होता है, जब इनपुट डेटा में मिले आईडी की संख्या (देखी गई सीमाएं), कंपाइल करने के दौरान सेट की गई सीमाओं (उदाहरण के लिए,
max_ids_per_partition) से ज़्यादा हो जाती है.- अगर
True: जिन आईडी की वजह से सीमाएं पार हो सकती हैं उन्हें चुपचाप हटा दिया जाता है. आम तौर पर, किसी पार्टीशन में मौजूद आईडी को क्रम से प्रोसेस किया जाता है. साथ ही, जिस आईडी की वजह से, तय की गई मिनी-बैच की सीमा से ज़्यादा आईडी प्रोसेस हो जाते हैं उसे हटा दिया जाता है. इससे प्रोग्राम को काम करना जारी रखने की अनुमति मिलती है. हालांकि, इससे मॉडल की सटीकता पर बुरा असर पड़ सकता है. - अगर
False: गड़बड़ी ट्रिगर होती है. साथ ही, अगर तय की गई सीमाएं, कंपाइल की गई सीमाओं से ज़्यादा हो जाती हैं, तो प्रोसेस बंद हो जाएगी. इस तरीके से, यह पक्का किया जाता है कि सभी डेटा को प्रोसेस किया जाए. हालांकि, इसके लिए सीमाओं को ज़्यादा सावधानी से कॉन्फ़िगर करना ज़रूरी होता है.
- अगर
- डिफ़ॉल्ट:
False(डेटा साइलेंट तरीके से ड्रॉप होने के बजाय, ओवरफ़्लो होने पर गड़बड़ी होती है).
- वजह: यह बूलियन फ़्लैग, आईडी ड्रॉप करने की सुविधा को कंट्रोल करता है. ऐसा तब होता है, जब इनपुट डेटा में मिले आईडी की संख्या (देखी गई सीमाएं), कंपाइल करने के दौरान सेट की गई सीमाओं (उदाहरण के लिए,
initialize_tables_on_host: bool = True- जानकारी: यह फ़्लैग तय करता है कि एम्बेडिंग टेबल को होस्ट सीपीयू पर शुरू किया जाए या नहीं. इसके बाद, इन्हें टीपीयू की हाई बैंडविड्थ मेमोरी (एचबीएम) में ट्रांसफ़र किया जाता है. टेबल को होस्ट पर शुरू करना स्टैंडर्ड तरीका है. इसे
Trueपर सेट करने से, इस कन्वेंशन का पालन किया जाता है. अगर इसेFalseपर सेट किया जाता है, तो इसका मतलब होगा कि डिवाइस पर मौजूद डेटा का इस्तेमाल करके मॉडल को शुरू किया गया है. इससे परफ़ॉर्मेंस पर अलग-अलग तरह के असर पड़ सकते हैं या मॉडल को शुरू करने के लिए कुछ खास शर्तें पूरी करनी पड़ सकती हैं.
- जानकारी: यह फ़्लैग तय करता है कि एम्बेडिंग टेबल को होस्ट सीपीयू पर शुरू किया जाए या नहीं. इसके बाद, इन्हें टीपीयू की हाई बैंडविड्थ मेमोरी (एचबीएम) में ट्रांसफ़र किया जाता है. टेबल को होस्ट पर शुरू करना स्टैंडर्ड तरीका है. इसे
enable_fast_table_initialization: bool = False- जानकारी: यह फ़ंक्शन, टेबल को सीधे तौर पर टीपीयू पर शुरू करता है. इससे मॉडल को शुरू होने में लगने वाला समय कम हो सकता है.
5. परफ़ॉर्मेंस के लिए पाइपलाइनिंग
पाइपलाइनिंग, परफ़ॉर्मेंस को ऑप्टिमाइज़ करने की एक ऐसी तकनीक है जिसकी मदद से TensorCore (टीसी) और SparseCore (एससी) पर एक साथ कई कार्रवाइयां की जा सकती हैं. इन कंप्यूटेशन को ओवरलैप करके, कुल थ्रूपुट को काफ़ी हद तक बेहतर बनाया जा सकता है.
- मैकेनिज़्म: ट्रेनिंग के स्टैंडर्ड चरण में, स्पार्स एम्बेडिंग लुकअप (SC मैनेज करता है) और डेंस लेयर कंप्यूटेशन (TC मैनेज करता है) शामिल होते हैं. पाइपलाइनिंग की मदद से, SC को चरण
iके अपने हिस्से पर काम करने की अनुमति मिलती है. उदाहरण के लिए, फ़ॉरवर्ड या बैकवर्ड पास. वहीं, TC एक साथ उसी चरणiके किसी दूसरे हिस्से या आस-पास के चरणों, जैसे किi-1याi+1के हिस्सों को प्रोसेस करता है. - ग्रेडिएंट पर असर: SparseCore, "पुराने" ग्रेडिएंट पर काम कर सकता है.
उदाहरण के लिए, ऐसा हो सकता है कि चरण
iके बैकप्रॉपैगेशन फ़ेज़ के दौरान कैलकुलेट किए गए ग्रेडिएंट, चरणi+2तक पूरी तरह से अपडेट न हों और एससी को न दिखें. - परफ़ॉर्मेंस बनाम संख्यात्मक ट्रेड-ऑफ़: एक साथ कई निर्देशों को लागू करने से, परफ़ॉर्मेंस में काफ़ी सुधार हो सकता है. इससे डिवाइस के स्टेप टाइम में दो गुना तक सुधार हो सकता है. हालांकि, पुराने ग्रेडिएंट का इस्तेमाल करने से, संख्याओं (embedding_weights) में मामूली बदलाव हो सकते हैं. इससे मॉडल कन्वर्जेंस के व्यवहार या हासिल की गई फ़ाइनल सटीकता पर असर पड़ सकता है. इस ट्रेड-ऑफ़ को स्वीकार किया जा सकता है या नहीं, यह काफ़ी हद तक मॉडल पर निर्भर करता है. साथ ही, इसके लिए अक्सर अनुभवजन्य पुष्टि की ज़रूरत होती है.
- कंट्रोल फ़्लैग: पाइपलाइनिंग को
tf_xla_disable_full_embedding_pipeliningसे कंट्रोल किया जा सकता है. इस फ़्लैग कोtrueपर सेट करने से, फ़ुल पाइपलाइनिंग (TensorCore और SparseCore कंप्यूटेशन का ओवरलैप होना) बंद हो जाती है. वहीं, इसेfalseपर सेट करने से (या अगर फ़्लैग के सिमैंटिक का मतलब यह है कि फ़ॉल्स होने पर इसे चालू किया जाता है), यह चालू हो जाती है.
कॉन्सेप्चुअल पाइपलाइनिंग फ़्लो:
पाइपलाइनिंग के बिना (आसान क्रमवार फ़्लो):
Loop: SC/F_i -> TC/F_i -> TC/B_i -> SC/B_iपाइपलाइनिंग (आसानी से ओवरलैप होने वाला फ़्लो) के साथ:
Time -> Step i: SC/F_i | TC/F_i | TC/B_i | SC/B_i Step i+1: SC/F_i+1| TC/F_i+1| TC/B_i+1| SC/B_i+1ध्यान दें: हार्डवेयर और कंपाइलर में लागू किए गए पाइपलाइनिंग के असली चरण ज़्यादा जटिल हो सकते हैं. इनमें अक्सर प्री-लूप, मुख्य एक्ज़ीक्यूशन लूप, और पोस्ट-लूप शामिल होते हैं. इनका इस्तेमाल डेटा डिपेंडेंसी को मैनेज करने और यह पक्का करने के लिए किया जाता है कि डेटा सही हो.
6. एक्सएलए की भूमिका
XLA (ऐक्सलरेटेड लीनियर अलजेब्रा), डोमेन के हिसाब से काम करने वाला कंपाइलर है. यह TensorFlow जैसे फ़्रेमवर्क से मिले हाई-लेवल के कंप्यूटेशनल ग्राफ़ को, टीपीयू के हिसाब से बनाए गए मशीन कोड में बदलता है. इसमें SparseCore के लिए तय किए गए ऑपरेशंस के निर्देश जनरेट करना शामिल है.
SparseCore कॉन्टेक्स्ट में मुख्य फ़ंक्शन:
- स्पार्स ऑपरेशंस का कंपाइलेशन: XLA, एम्बेडिंग लुकअप ऑपरेशंस (जैसे कि
SparseDenseMatmulOp) और अन्य स्पार्स कंप्यूटेशन को लो-लेवल, एक्ज़ीक्यूटेबल SparseCore प्रोग्राम में कंपाइल करने के लिए ज़िम्मेदार होता है. - सीमाओं का इंटिग्रेशन: यह कॉन्फ़िगर की गई ऑपरेशनल सीमाओं का इस्तेमाल करता है. उदाहरण के लिए,
max_ids_per_partition,max_unique_ids_per_partition. ये सीमाएं अक्सरxla_sparse_core_max_ids_fileजैसे फ़्लैग से तय की गई सीमाओं वाली फ़ाइल के ज़रिए दी जाती हैं. इनका इस्तेमाल, साइज़ तय करने और डिवाइस पर मौजूद मेमोरी बफ़र को स्टैटिक तौर पर असाइन करने के लिए किया जाता है. खास तौर पर, SPMEM में. - टारगेट किए गए ऑप्टिमाइज़ेशन: XLA, ऑप्टिमाइज़ेशन का एक सुइट उपलब्ध कराता है. इसे खास तौर पर SparseCore आर्किटेक्चर के लिए डिज़ाइन किया गया है. इनमें, निर्देशों को शेड्यूल करना, मेमोरी लेआउट में बदलाव करना, और ज़्यादा से ज़्यादा दक्षता के लिए ऑपरेशनों को फ़्यूज़ करना शामिल हो सकता है.
- फ़्लैग का इस्तेमाल करके कंट्रोल करना: SparseCore के व्यवहार, ट्यूनिंग पैरामीटर, और ऑप्टिमाइज़ेशन की रणनीतियों के कई पहलुओं को XLA फ़्लैग के ज़रिए दिखाया और कंट्रोल किया जाता है. उदाहरण के लिए, सीमा का अनुमान लगाने के लिए
xla_sparse_core_estimate_max_idsया डीबग करने के लिएxla_sc_detect_nan.
ओपन सोर्स की स्थिति:
फ़िलहाल, Sparsecore Implementation सिर्फ़ अंदरूनी तौर पर उपलब्ध है और इसे libtpu.so का इस्तेमाल करके दिखाया जाता है.
गड़बड़ी की रिपोर्टिंग और डाइग्नोस्टिक्स:
SparseCore कॉन्फ़िगरेशन या संसाधन की सीमाओं से जुड़ी कंपाइल करने की गड़बड़ियां, अक्सर XLA:TPU कंपाइल-टाइम की गड़बड़ियों के तौर पर दिखती हैं. गड़बड़ी के इन मैसेज से, कई समस्याओं के बारे में अहम जानकारी मिल सकती है. जैसे, उपलब्ध SPMEM के लिए बहुत ज़्यादा सीमाएं सेट की गई हैं या ऐसे कॉन्फ़िगरेशन का इस्तेमाल किया जा रहा है जो काम नहीं करते.
7. SparseCore पर टेबल के लिए सीमाएं कैसे लागू होती हैं
SparseCore पर, "सीमाएं" बुनियादी कॉन्फ़िगरेशन पैरामीटर होती हैं. ये मुख्य रूप से, हर उस टेबल के लिए दो पर-पार्टिशन सेटिंग को रेफ़र करती हैं जिसे उपलब्ध SparseCore में शार्ड (डिस्ट्रिब्यूट) किया गया है:
max_ids_per_partition: इससे कुल आईडी की ज़्यादा से ज़्यादा संख्या तय होती है. इसमें डुप्लीकेट आईडी भी शामिल होते हैं. यह संख्या बताती है कि किसी एक कंप्यूटेशनल चरण में, कोई भी सिंगल SparseCore, किसी दी गई टेबल के किसी खास पार्टीशन के लिए, कितने आईडी भेज सकता है या प्रोसेस कर सकता है.max_unique_ids_per_partition: इससे यूनीक आईडी की वह ज़्यादा से ज़्यादा संख्या तय होती है जिसे कोई भी SparseCore, किसी
फ़िज़िकल टेबल लेआउट और प्रोसेसिंग में अनुवाद:
- टेबल शार्डिंग की रणनीति: एम्बेड की गई टेबल को आम तौर पर, सिस्टम में मौजूद सभी SparseCore में "मॉड-शार्ड" किया जाता है. इसका मतलब है कि हर SparseCore, हर टेबल के शब्दावली (पंक्तियों) के अलग-अलग सबसेट के लिए ज़िम्मेदार होता है. आम तौर पर,
SparseCore_kको आईडीjअसाइन किया जाता है. यहk = j % num_total_sparse_coresजैसे फ़ॉर्मूले के आधार पर होता है. - "पार्टिशन" की परिभाषा: इस संदर्भ में, "पार्टिशन" का मतलब एम्बेडिंग टेबल के उस खास सेगमेंट से है जिसके लिए एक SparseCore, लुकअप को हैंडल करता है.
- एसपीएमईएम बफ़र का असाइनमेंट: इन सीमाओं का इस्तेमाल XLA कंपाइलर करता है. इससे डिवाइस पर मौजूद स्क्रैचपैड मेमोरी (एसपीएमईएम) में बफ़र का साइज़ तय किया जाता है और उन्हें असाइन किया जाता है. बफ़र को इस तरह से डाइमेंशन किया जाता है कि किसी दिए गए पार्टीशन के आईडी से जुड़ा सभी ज़रूरी डेटा, प्रोसेसिंग के लिए SPMEM में लोड किया जा सके. यह डेटा, तय की गई
max_idsऔरmax_unique_idsसीमाओं तक हो सकता है. यह खास तौर पर, एलिमेंट के हिसाब से न की जाने वाली कंप्यूटिंग के लिए ज़रूरी है. जैसे, किसी पार्टीशन में डुप्लीकेट आईडी कम करना. उदाहरण के लिए, कंप्रेस की गई स्पार्स लाइन (सीएसआर) का प्रज़ेंटेशन बनाते समय, उस पार्टीशन के आईडी के लिए पूरा काम का डेटासेट, फ़ास्ट मेमोरी में तुरंत उपलब्ध होना चाहिए. तय की गई सीमाएं बनाम देखी गई सीमाएं:
- मॉनिटर की गई सीमाएं: ये रनटाइम के दौरान, हर पार्टीशन के लिए मिले आईडी की असल संख्या होती है. यह संख्या, प्रोसेस किए जा रहे इनपुट डेटा पर आधारित होती है.
- अगर देखी गई सीमाएं, कंपाइल की गई सीमाओं से ज़्यादा हैं, तो इससे आईडी ड्रॉप हो सकता है (अगर
allow_id_droppingचालू है) या गड़बड़ियां हो सकती हैं.
सीमाएं तय करना: सही सीमाएं तय करने के लिए, इनपुट डेटा के डिस्ट्रिब्यूशन का ध्यान से विश्लेषण किया जाता है. किसी भी टेबल के लिए (इसे
T1कहते हैं, जो खुद स्टैक की गई बड़ी टेबलTका हिस्सा हो सकती है):- इनपुट बैच (उदाहरण के लिए,
[BatchSize, MaxSequenceLength]शेप का 2DSparseTensor) को शुरुआत में उपलब्ध SparseCore में बांटा जाता है. उदाहरण के लिए, अगर किसी TensorCore को दो SparseCore के साथ जोड़ा जाता है, तो हर SparseCore को[BatchSize/2, MaxSequenceLength]शेप का सब-बैच मिल सकता है. - इसके बाद, इस सब-बैच को सीओओ फ़ॉर्मैट में बदला जाता है. इससे
row_idsऔरcol_idsमिलते हैं. - एक ही सैंपल में मौजूद डुप्लीकेट आईडी (यानी कि एक ही
row_idऔरcol_idवाली एंट्री) हटा दिए जाते हैं. - हर बचे हुए यूनीक
col_id(सैंपल में मौजूद) के लिए, इस आईडी के लिए ज़िम्मेदार टारगेट SparseCore का पता लगाने के लिए, मोड-शार्डिंग के नियम का इस्तेमाल किया जाता है:target_sc_id = col_id % num_total_sparse_cores. - हर
target_sc_idके लिए, आईडी (ids_per_sparse_core[target_sc_id]++) की कुल संख्या और यूनीक आईडी (unique_ids_per_sparse_core[target_sc_id]++, यह पक्का करने के बाद कि उस खासtarget_sc_idके लिए आईडी यूनीक है) की संख्या का हिसाब रखा जाता है. - इसके बाद, टेबल
T1के लिएmax_ids_per_partitionकोmax(ids_per_sparse_core_array)पर सेट कर दिया जाता है. - इसी तरह, टेबल
T1के लिएmax_unique_ids_per_partitionकोmax(unique_ids_per_sparse_core_array)पर सेट किया गया है. - अगर टेबल
T1, स्टैक की गई टेबल का कॉम्पोनेंट है, तो सभी कॉम्पोनेंट टेबल से आंकड़ों को जोड़ने से पहले, आईडी डिस्ट्रिब्यूशन पर रोटेशन या शिफ़्ट जैसे अतिरिक्त बदलाव लागू किए जा सकते हैं. इससे सभी चिप पर लोड को बराबर रखने में मदद मिलती है.
- इनपुट बैच (उदाहरण के लिए,
इन सीमाओं को सही तरीके से सेट करना एक मुश्किल काम है: कम सीमाएं सेट करने से, परफ़ॉर्मेंस बेहतर हो सकती है. ऐसा इसलिए, क्योंकि हर चरण में कम डेटा प्रोसेस करना पड़ता है और एसपीएमईएम पर दबाव कम हो जाता है. हालांकि, अगर इन्हें बहुत कम पर सेट किया जाता है, तो इससे बहुत ज़्यादा मिनी-बैचिंग हो सकती है या आईडी को अनचाहे तरीके से हटाया जा सकता है.
8. हर SparseCore कैसे कम्यूनिकेट करता है
स्पार्सकोर कम्यूनिकेशन, खास तौर पर एंबेडिंग लुकअप के लिए आईडी की सूची को प्रोसेस करने के संदर्भ में, कई कोऑर्डिनेटेड तरीकों पर निर्भर करता है:
- मॉड शार्डिंग और इंप्लिसिट राउटिंग:
- एम्बेड की गई टेबल को सिस्टम में मौजूद सभी SparseCore में मोड-शार्ड किया जाता है.
- जब होस्ट, इनपुट डेटा का बैच उपलब्ध कराता है, तो उसे बाद में COO फ़ॉर्मैट में प्रीप्रोसेस किया जाता है. इसमें
col_idsभी शामिल होता है.col_idवैल्यू का इस्तेमाल यह तय करने के लिए किया जाता है कि उस खास आईडी:target_sc_id = col_id % num_total_sparse_coresके लिए कौनसी SparseCore ज़िम्मेदार है. - हर SparseCore, सिर्फ़ उन आईडी को पाता और प्रोसेस करता है जो उसके असाइन किए गए शब्दावली के हिस्सों से मैप होते हैं. होस्ट प्रीप्रोसेसिंग स्टेज, डेटा को इस तरह से तैयार करने के लिए ज़रूरी है कि हर SparseCore, अपने काम के आईडी को तुरंत पहचान सके और उन पर कार्रवाई कर सके.
- होस्ट के हिसाब से डेटा डिस्ट्रिब्यूशन:
- होस्ट प्रीप्रोसेसिंग लॉजिक, पूरे इनपुट बैच को अलग-अलग हिस्सों में बांटता है. इसके बाद,
row_idsऔरcol_idsके ज़रूरी हिस्सों को (अगर लागू हो, तो उनसे जुड़ी सुविधाओं या वज़न के साथ) हर SparseCore के लिए सीधे तौर पर उपलब्ध मेमोरी (HBM) या शेयर की गई HBM में डिस्ट्रिब्यूट करता है. SparseCore, शेयर की गई HBM से अपना ज़रूरी डेटा फ़ेच करेंगे.
- होस्ट प्रीप्रोसेसिंग लॉजिक, पूरे इनपुट बैच को अलग-अलग हिस्सों में बांटता है. इसके बाद,
- इंट्रा-स्पार्सकोर प्रोसेसिंग:
- जब किसी SparseCore को किसी टेबल पार्टीशन के लिए आईडी का तय किया गया सेट मिल जाता है, तो वह इन आईडी का डुप्लीकेट डेटा हटाने और उनसे जुड़े एम्बेडिंग वेक्टर इकट्ठा करने जैसे ऑपरेशन करता है. ये मुख्य रूप से लोकल कंप्यूटेशन होते हैं. इन्हें SparseCore के टाइल में ही एक्ज़ीक्यूट किया जाता है. साथ ही, इसके लोकल SPMEM का इस्तेमाल किया जाता है.
- Inter-SparseCore communication (All-to-All):
- शुरुआती प्रोसेसिंग फ़ेज़ (जैसे कि एम्बेडिंग लुकअप) के बाद, "ऑल-टू-ऑल" कम्यूनिकेशन पैटर्न का इस्तेमाल किया जा सकता है. इससे SparseCore में मौजूद नतीजों को एक साथ लाया जा सकता है या उन्हें फिर से डिस्ट्रिब्यूट किया जा सकता है. उदाहरण के लिए, ऐक्टिवेशन को TensorCore लेयर में फ़ीड करने से पहले, जो सभी ओरिजनल सैंपल पोज़िशन के हिसाब से इनपुट चाहती है. अगर ओरिजनल इनपुट बैच को पैरलल प्रोसेसिंग के लिए डिस्ट्रिब्यूट किया गया था, तो ऐक्टिवेशन के पूरे सेट को फिर से बनाने के लिए यह ज़रूरी है.
- TensorCore के साथ कम्यूनिकेशन:
- SparseCore, TensorCore के साथ कम्यूनिकेट करते हैं. इससे फ़ॉरवर्ड पास के दौरान एम्बेडिंग ऐक्टिवेशन भेजे जाते हैं और बैकवर्ड पास के दौरान ग्रेडिएंट मिलते हैं. इस इंटरैक्शन को XLA-कंपाइल किए गए प्रोग्राम से मैनेज किया जाता है. इसमें अक्सर HBM को इंटरमीडियरी बफ़र के तौर पर इस्तेमाल किया जाता है. पाइपलाइनिंग की रणनीति (जिसके बारे में पहले बताया गया है) से, एससी-टीसी के बीच होने वाले कम्यूनिकेशन के समय और सिंक्रनाइज़ेशन पर काफ़ी असर पड़ता है.
संक्षेप में कहें, तो सही SparseCore को आईडी "डिस्ट्रीब्यूट" करने का काम, मुख्य रूप से शार्डिंग स्कीम और होस्ट प्रीप्रोसेसिंग के चरणों से होता है. इसके बाद, SparseCores अपने लोकल डेटा पर काम करते हैं. इसके बाद, सामूहिक कम्यूनिकेशन ऑपरेशन किए जाते हैं. जैसे, अगर डेटा को TensorCores के ज़रिए आगे प्रोसेस करने से पहले, सभी SparseCores के बीच ग्लोबल स्तर पर एक्सचेंज या फिर से व्यवस्थित करना है, तो सभी के लिए एक ही ऑपरेशन किया जाता है.
9. SparseCore में मेमोरी मैनेज करने की सुविधा
हर SparseCore, कैलकुलेशन करने के लिए अलग-अलग तरह की मेमोरी को असरदार तरीके से मैनेज करता है:
- स्क्रैचपैड मेमोरी (एसपीएमईएम):
- नेचर: यह एक छोटा, लेकिन बहुत तेज़ लोकल एसआरएएम है. यह सिर्फ़ हर स्पार्सकोर के लिए उपलब्ध होता है. यह ध्यान रखना ज़रूरी है कि SPMEM, कैश मेमोरी नहीं है. इसका इस्तेमाल, XLA कंपाइलर मैनेज करता है.
- मकसद: SPMEM का इस्तेमाल "डेटा को स्टेज करने के लिए" किया जाता है. इसमें इनपुट, आउटपुट, और इंटरमीडिएट नतीजे शामिल होते हैं. ये नतीजे, एससी की मौजूदा गणनाओं के लिए ज़रूरी होते हैं. SPMEM में डेटा को स्टेज करने से, HBM को ऐक्सेस करने में लगने वाला समय काफ़ी कम हो जाता है. आम तौर पर, HBM को ऐक्सेस करने में ज़्यादा समय लगता है.
- साइज़ तय करना: "सीमाएं" सेक्शन में बताया गया है कि SPMEM बफ़र का साइज़, कंपाइल टाइम पर स्टैटिक तौर पर तय किया जाता है. यह साइज़िंग,
max_ids_per_partitionऔरmax_unique_ids_per_partitionजैसे पैरामीटर पर आधारित होती है. स्टैटिक तौर पर मेमोरी असाइन करने से यह पक्का होता है कि टेबल पार्टीशन पर की जाने वाली किसी भी कार्रवाई (जैसे कि सीएसआर कम करना) के लिए, उस पार्टीशन के आईडी का ज़रूरी डेटा (तय की गई सीमाओं तक) SPMEM में फ़िट हो सकता है. - कंपाइलर ऑप्टिमाइज़ेशन: XLA कंपाइलर में, बेहतर ऑप्टिमाइज़ेशन शामिल होते हैं. इनसे यह सटीक तरीके से तय किया जाता है कि HBM की लेटेन्सी को असरदार तरीके से छिपाने और परफ़ॉर्मेंस को ज़्यादा से ज़्यादा बढ़ाने के लिए, SPMEM में कितना डेटा और कौनसे डेटा एलिमेंट को स्टेज करने की ज़रूरत है.
- डाइनैमिक ऐलोकेशन की सीमा: फ़िलहाल, SparseCore कंपाइलर, डाइनैमिक स्क्रैचपैड ऐलोकेशन की सुविधा के साथ काम नहीं करता. इससे पता चलता है कि सीमाएं तय करके, स्टैटिक साइज़िंग कितनी ज़रूरी है.
- हाई बैंडविड्थ मेमोरी (एचबीएम):
- नेचर: यह एक बड़ा, शेयर किया गया मेमोरी रिसॉर्स है. इसे सभी SparseCore, TensorCore, और होस्ट सिस्टम ऐक्सेस कर सकते हैं. प्राइमरी एम्बेडिंग टेबल, एचबीएम में सेव की जाती हैं.
- स्टैक का इस्तेमाल: SparseCore ऑपरेशनों के लिए, अक्सर इंटरमीडिएट नतीजों को HBM में कुछ समय के लिए सेव करने की ज़रूरत होती है. ये नतीजे, सीमित SPMEM में फ़िट नहीं होते या इन्हें प्रोसेसिंग पाइपलाइन के बड़े चरणों के बीच पास करने की ज़रूरत होती है. फ़ॉरवर्ड और बैकवर्ड, दोनों पास के दौरान एचबीएम स्टैक के इस्तेमाल का अनुमान इस तरह लगाया जा सकता है -
- फ़ॉरवर्ड पास एचबीएम स्टैक (सिंगल टेबल) ≈ (2 *
feature_width+ 1) *max_unique_nz_per_row*logical_replica_count* 4 बाइट - बैकवर्ड पास एचबीएम स्टैक (सिंगल टेबल) ≈ 3 *
feature_width*max_unique_nz_per_row*logical_replica_count* 4 बाइट
- फ़ॉरवर्ड पास एचबीएम स्टैक (सिंगल टेबल) ≈ (2 *
- हीप का इस्तेमाल: एचबीएम में हीप भी शामिल होता है, जिसे होस्ट मैनेज करता है. हीप में, डेंस लेयर के वेट, मॉडल में इस्तेमाल होने वाले कॉन्स्टेंट, और पहले से फ़ेच किया गया इनपुट डेटा जैसे डेटा को सेव किया जाता है. होस्ट जितने ज़्यादा चरणों के लिए डेटा को पहले से फ़ेच करता है, Heap का इस्तेमाल उतना ही ज़्यादा होता है. इसे
maximum_parallel_iterationsफ़्लैग से कंट्रोल किया जाता है. ज़्यादा प्रीफ़ेचिंग से परफ़ॉर्मेंस बेहतर हो सकती है. ऐसा इसलिए, क्योंकि यह होस्ट से डिवाइस में डेटा ट्रांसफ़र करने की प्रोसेस को डिवाइस पर डेटा प्रोसेस करने की प्रोसेस के साथ ओवरलैप कर देती है. हालांकि, इससे ज़्यादा एचबीएम का इस्तेमाल होता है. - एचबीएम ऑप्टिमाइज़ेशन के लिए सीरियलाइज़ेशन: फ़्लैग
xla_sc_num_serialized_tables_to_optimize_hbmकी मदद से यह कंट्रोल किया जा सकता है कि किसी भी समय एचबीएम स्टैक मेमोरी में कितनी टेबल का डेटा "लाइव" रखा जाए. इस संख्या को बढ़ाने से, ज़्यादा टेबल के लिए प्रोसेसिंग को असरदार तरीके से क्रम से किया जाता है. इससे पीक एचबीएम स्टैक के इस्तेमाल को कम किया जा सकता है. हालांकि, पैरललिज़्म कम होने की वजह से, परफ़ॉर्मेंस पर असर पड़ सकता है.
- वेक्टर मेमोरी (वीएमईएम):
- वीएमईएम, लोकल स्क्रैचपैड मेमोरी होती है. इसका इस्तेमाल सिर्फ़ टीसी (टेंसरकोर) करता है. VMEM को सीधे तौर पर SparseCore मैनेज नहीं करता है. हालांकि, यह मेमोरी इकोसिस्टम का एक अहम हिस्सा है. SC, मुख्य रूप से TensorCore के ज़रिए इससे इंटरैक्ट करता है.
मेमोरी मैनेज करने की पूरी रणनीति:
SparseCore के लिए मेमोरी मैनेजमेंट की मुख्य रणनीति, "हॉट" डेटा के लिए छोटे और तेज़ SPMEM का इस्तेमाल करने के बारे में है. इस डेटा को SparseCore टाइल से प्रोसेस किया जाता है. इससे, धीमी गति वाले HBM को कम से कम ऐक्सेस किया जा सकता है. कॉन्फ़िगर की गई सीमाएं, यह पक्का करने का मुख्य तरीका है कि SPMEM ओवरफ़्लो न हो. एचबीएम का इस्तेमाल, बड़ी एम्बेडिंग टेबल और कुछ समय के लिए सेव किए जाने वाले ऐसे डेटा को सेव करने के लिए किया जाता है जो एसपीएमईएम की क्षमता से ज़्यादा होता है. इसके अलावा, इसका इस्तेमाल ऐसे डेटा को सेव करने के लिए भी किया जाता है जिसे अलग-अलग प्रोसेसिंग यूनिट या पाइपलाइन स्टेज के साथ शेयर करना होता है. XLA कंपाइलर, इन आर्किटेक्चरल सिद्धांतों और उपयोगकर्ता की ओर से कॉन्फ़िगर की गई सीमाओं के आधार पर, सभी डेटा मूवमेंट और बफ़र के बंटवारे को व्यवस्थित करने के लिए ज़िम्मेदार होता है.
10. परफ़ॉर्मेंस और मेमोरी बॉटलनेक
SparseCore की मदद से बेहतर परफ़ॉर्मेंस पाने के लिए, संभावित समस्याओं और उन्हें ठीक करने के तरीके के बारे में साफ़ तौर पर जानकारी होना ज़रूरी है. ये समस्याएं, होस्ट पर, SparseCore में या TensorCore के साथ इंटरैक्ट करते समय हो सकती हैं.
परफ़ॉर्मेंस से जुड़ी आम समस्याएं:
- होस्ट बॉटलनेक:
- समस्या: ऐसा हो सकता है कि होस्ट सीपीयू, डेटा को पहले से प्रोसेस न कर पाए और उसे टीपीयू को तेज़ी से फ़ीड न कर पाए. इससे SparseCore और TensorCore का कम इस्तेमाल होता है. यह परफ़ॉर्मेंस को अक्सर सीमित करने वाला फ़ैक्टर है.
- समस्या हल करना: होस्ट सीपीयू के इस्तेमाल और इनपुट पाइपलाइन मेट्रिक पर नज़र रखें. होस्ट-साइड डेटा लोड करने और प्रीप्रोसेसिंग रूटीन को ऑप्टिमाइज़ करें. इसके लिए, सीओओ कन्वर्ज़न से जुड़ी सलाह देखें. डेटा प्रीफ़ेच करने की सुविधा को बेहतर बनाने के लिए,
maximum_parallel_iterationsफ़्लैग में बदलाव करें.
- टीसी/एससी के बीच सिंक्रनाइज़ेशन ठीक से न होना (पाइपलाइनिंग की कमी):
- समस्या: अगर TensorCore और SparseCore के बीच पाइपलाइनिंग की सुविधा बंद है या ठीक से काम नहीं कर रही है, तो हो सकता है कि एक यूनिट को दूसरी यूनिट के लिए इंतज़ार करना पड़े. इससे सिस्टम की परफ़ॉर्मेंस कम हो जाती है.
- कम करना: पक्का करें कि पाइपलाइनिंग चालू हो. उदाहरण के लिए,
tf_xla_disable_full_embedding_pipelining = falseया इसके बराबर.
- सीमा की वजह से होने वाली रुकावटें:
- समस्या:
- सीमाएं बहुत कम हैं: इससे बहुत ज़्यादा मिनी-बैचिंग ट्रिगर हो सकती है. मिनी-बैचिंग का मतलब है कि इनपुट बैच को कई छोटे-छोटे सब-बैच में बांटना, ताकि तय की गई सीमाओं को पूरा किया जा सके. इससे सटीकता बनी रहती है. हालांकि, हर मिनी-बैच में कुछ प्रोसेसिंग ओवरहेड होता है. इससे पूरे प्रोसेस की स्पीड कम हो सकती है. अगर
allow_id_droppingको 'सही है' पर सेट किया जाता है, तो बहुत कम सीमाएं तय करने से आईडी ड्रॉप हो सकता है. इससे मॉडल की परफ़ॉर्मेंस पर असर पड़ता है. - सीमाएं बहुत ज़्यादा हैं, लेकिन अब भी तय सीमा के अंदर हैं: सीमाएं बहुत ज़्यादा होने पर, मिनी-बैचिंग को रोका जा सकता है. हालांकि, अगर डेटा की विशेषताएं कभी-कभार ही इन पीक वैल्यू के आस-पास पहुंचती हैं, तो इससे SPMEM पर बेवजह दबाव बढ़ सकता है. इनसे, ज़रूरत से ज़्यादा एचबीएम स्टैक का इस्तेमाल भी हो सकता है.
- कंपाइलेशन में गड़बड़ियां: अगर कॉन्फ़िगर की गई सीमाओं के लिए, उपलब्ध फ़िज़िकल मेमोरी से ज़्यादा SPMEM या HBM स्टैक की ज़रूरत होती है, तो कंपाइलेशन पूरा नहीं होगा.
- सीमाएं बहुत कम हैं: इससे बहुत ज़्यादा मिनी-बैचिंग ट्रिगर हो सकती है. मिनी-बैचिंग का मतलब है कि इनपुट बैच को कई छोटे-छोटे सब-बैच में बांटना, ताकि तय की गई सीमाओं को पूरा किया जा सके. इससे सटीकता बनी रहती है. हालांकि, हर मिनी-बैच में कुछ प्रोसेसिंग ओवरहेड होता है. इससे पूरे प्रोसेस की स्पीड कम हो सकती है. अगर
- कम करना: पक्का करें कि सीमाएं सही तरीके से सेट की गई हों.
- समस्या:
- डेटा डिस्ट्रिब्यूशन स्क्यू:
- समस्या: अगर कुछ SparseCore पार्टीशन को लगातार, अन्य पार्टीशन की तुलना में बहुत ज़्यादा आईडी मिलते हैं, तो इसका मतलब है कि आईडी का डिस्ट्रिब्यूशन सही नहीं है. ऐसे में, ज़्यादा आईडी वाले SparseCore, परफ़ॉर्मेंस में रुकावट पैदा करेंगे.
- कम करना: मिनी-बैचिंग की प्रोसेस के दौरान आईडी शफ़ल करने से, स्टैक की गई टेबल के लिए इस समस्या को कम किया जा सकता है. खास तौर पर, "हॉट" यूज़र टेबल के लिए. आईडी डिस्ट्रिब्यूशन का ध्यान से विश्लेषण करें, ताकि हर टेबल के लिए सही और संतुलित सीमाएं सेट की जा सकें.
- टेबल स्टैक करने से जुड़ी समस्याएं:
- समस्या:
- बहुत कम टेबल स्टैक की गई हैं: इससे आईसीआई की लेटेन्सी को असरदार तरीके से छिपाया नहीं जा सकता या प्रोसेसिंग के ओवरहेड को ठीक से कम नहीं किया जा सकता.
- बहुत ज़्यादा टेबल स्टैक की गई हैं: इससे बहुत बड़ी लॉजिकल टेबल बन सकती हैं. इन्हें मैनेज करना मुश्किल हो सकता है या ये उपलब्ध संसाधन की सीमाओं से ज़्यादा हो सकती हैं.
- कम करना:
- यह पक्का करें कि स्टैक करने के लिए टेबल की संख्या सही हो. सामान्य दिशा-निर्देश के मुताबिक, स्टैक करने के लिए 5 से 100 टेबल "सबसे सही" होती हैं.
- समस्या:
- संख्याओं/क्वांटाइज़ेशन का सही तरीके से इस्तेमाल न करना:
- समस्या: जब BF16 या पूर्णांकों को क्वांटाइज़ करने जैसे कम सटीक फ़ॉर्मैट का इस्तेमाल किया जा सकता है, तब FP32 का इस्तेमाल करने से परफ़ॉर्मेंस में रुकावट आ सकती है. साथ ही, इससे कंप्यूटेशन की प्रोसेस धीमी हो सकती है.
- कम करना: कम सटीक विकल्पों को एक्सप्लोर करें. हालांकि, ध्यान रखें कि क्वांटाइज़ेशन में कुछ ओवरहेड होता है. साथ ही, मॉडल की सटीक जानकारी बनाए रखने के लिए, क्वांटाइज़ेशन पैरामीटर को ध्यान से ट्यून करने की ज़रूरत पड़ सकती है.
- एचबीएम बैंडविड्थ सैचुरेशन:
- समस्या: एचबीएम में बहुत ज़्यादा डेटा ट्रांसफ़र होने की वजह से, एचबीएम का उपलब्ध बैंडविड्थ खत्म हो सकता है. इसकी वजहें ये हो सकती हैं: फ़ीचर की चौड़ाई बहुत कम होने की वजह से पैडिंग का ओवरहेड ज़्यादा होना, मेमोरी ऐक्सेस करने के पैटर्न का सही न होना या लुकअप की संख्या बहुत ज़्यादा होना.
- कम करना: टीपीयू की संख्या बढ़ाने से, एचबीएम बैंडविड्थ की समस्या को कम किया जा सकता है.
मेमोरी से जुड़ी आम समस्याएं:
- SPMEM ओवरफ़्लो (कंपाइलेशन में गड़बड़ी):
- समस्या: अगर
max_ids_per_partitionऔरmax_unique_ids_per_partitionको बहुत ज़्यादा पर सेट किया जाता है, तो हो सकता है कि XLA कंपाइलर, SPMEM को ज़रूरत के मुताबिक असाइन न कर पाए. इससे कंपाइलेशन से जुड़ी गड़बड़ियां हो सकती हैं. जैसे:"Fixed size allocations (...) do not fit in TileSpmem (...)". इसके अलावा, अगर(sample_count * feature_width) / kNumTiles(जहांkNumTiles, एससी के हिसाब से टाइल की संख्या है) टाइल SPMEM में ऑपरेंड इकट्ठा करने के लिए बहुत बड़ा है, तो"Gather operand too large..."जैसी गड़बड़ियां हो सकती हैं. - समस्या हल करना: बैच का साइज़ कम करें या प्रोसेसिंग के लिए इस्तेमाल किए जाने वाले चिप की संख्या बढ़ाएं.
- समस्या: अगर
- एचबीएम स्टैक ओवरफ़्लो (रनटाइम या कंपाइलेशन):
- समस्या: अगर
feature_width,max_unique_nz_per_row, औरlogical_replica_countके कॉम्बिनेशन की वजह से, एचबीएम स्टैक मेमोरी की ज़रूरतें उपलब्ध एचबीएम से ज़्यादा हो जाती हैं, तो इससे रनटाइम या कंपाइलेशन के दौरान, आउट-ऑफ़-मेमोरी (ओओएम) गड़बड़ियां हो सकती हैं. - समस्या हल करना: टेबल की प्रोसेसिंग को क्रम से करने के लिए,
xla_sc_num_serialized_tables_to_optimize_hbmफ़्लैग को ट्यून करें. इससे, एचबीएम स्टैक का इस्तेमाल कम हो जाएगा. हालांकि, इससे परफ़ॉर्मेंस पर असर पड़ सकता है.
- समस्या: अगर
- एचबीएम हीप का खत्म होना:
- समस्या: यह समस्या मुख्य रूप से, बहुत ज़्यादा डेंस लेयर वेट, मेमोरी में सेव किए गए कई कॉन्स्टेंट या इनपुट प्रीफ़ेचिंग (ज़्यादा
maximum_parallel_iterations) की वजह से होती है. - कम करना: XProf Memory Viewer जैसे टूल का इस्तेमाल करके, हीप के इस्तेमाल पर नज़र रखें.
- समस्या: यह समस्या मुख्य रूप से, बहुत ज़्यादा डेंस लेयर वेट, मेमोरी में सेव किए गए कई कॉन्स्टेंट या इनपुट प्रीफ़ेचिंग (ज़्यादा
- पैडिंग ओवरहेड:
- समस्या: फ़ीचर डाइमेंशन में, एम्बेड की गई टेबल को 32B-लाइन में रखा जाता है. यह आठ फ़्लोट के बराबर होता है. इसलिए, कम चौड़ाई वाली सुविधाओं (उदाहरण के लिए, 1 फ़्लोट) के लिए, पैडिंग काफ़ी ज़्यादा होती है. उदाहरण के लिए, आवंटित बफ़र स्पेस का 7/8 हिस्सा पैडिंग होता है. इससे एचबीएम का इस्तेमाल नहीं हो पाता. टेबल के शब्दावली डाइमेंशन को भी सिस्टम में मौजूद SparseCore की संख्या के हिसाब से पैड किया जाता है. हालांकि, शब्दावली के साइज़ के हिसाब से बड़ी टेबल पर इसका असर न के बराबर होता है.
परफ़ॉर्मेंस और मेमोरी पर असर डालने वाले सामान्य फ़ैक्टर:
- टपोलॉजी: उपलब्ध चिप की संख्या और उनके इंटरकनेक्शन का आर्किटेक्चर.
- बैच का साइज़: इससे सीधे तौर पर हर SparseCore के लिए
sample_countपर असर पड़ता है. इससे मेमोरी की खपत और कंप्यूट लोड पर असर पड़ता है. - डेटा फ़ॉर्मैटिंग: बेहतर परफ़ॉर्मेंस के लिए, डिवाइस पर डेटा का लेआउट सही होना ज़रूरी है.
11. SparseCore प्रोफ़ाइल का विश्लेषण करना
परफ़ॉर्मेंस प्रोफ़ाइल का विश्लेषण करना, बॉटलनेक की पहचान करने और अपने SparseCore वर्कलोड में ऑप्टिमाइज़ेशन के अवसरों का पता लगाने का एक अहम तरीका है.
- ट्रेस पाना:
- प्रोफ़ाइलिंग टूल का इस्तेमाल करें. जैसे, XProf. इससे, मॉडल की ट्रेनिंग या अनुमान लगाने के दौरान, एक्ज़ीक्यूशन के बारे में पूरी जानकारी कैप्चर की जा सकती है. इस ट्रेस से, होस्ट, TensorCore, और SparseCore पर होने वाले ऑपरेशनों की टाइमलाइन मिलेगी.
- ट्रेस व्यूअर की जांच करें. उदाहरण के लिए, XProf या TensorBoard में:
- होस्ट की गतिविधि: होस्ट की गतिविधि की जांच करें. क्या टीपीयू की गतिविधि में कोई बड़ा अंतर है? इस तरह के अंतर से पता चल सकता है कि होस्ट एक बॉटलनेक है और वह डेटा को तेज़ी से प्रोसेस नहीं कर पा रहा है. अपनी इनपुट पाइपलाइन की परफ़ॉर्मेंस का विश्लेषण करें.
- TensorCore (टीसी) और SparseCore (एससी) की गतिविधि:
- टीसी और एससी, दोनों के लिए एक्ज़ीक्यूशन टाइमलाइन देखें. क्या दोनों एक साथ काम कर रहे हैं, जिससे पाइपलाइनिंग के असरदार होने का पता चलता है? या क्या ऐसी लंबी अवधि होती है, जब एक यूनिट निष्क्रिय रहती है और दूसरी यूनिट का इंतज़ार करती है?
- SC और TC, दोनों पर सबसे ज़्यादा समय लेने वाली कार्रवाइयों की पहचान करें.
- विज़ुअल ट्रेस आउटपुट (इसमें अक्सर रंगीन ब्लॉक दिखते हैं. ये ब्लॉक, समय के साथ अलग-अलग कार्रवाइयों को दिखाते हैं, जैसे कि
TPU:0 SparseCore 1 (pid 1005)) की मदद से, मुख्य कार्रवाइयों और निष्क्रियता की अवधि को विज़ुअली पहचाना जा सकता है.
- स्टेप टाइम का विश्लेषण: पूरे स्टेप टाइम को देखें. साथ ही, यह समझें कि इसे होस्ट प्रोसेसिंग, एससी कंप्यूटेशन, और टीसी कंप्यूटेशन के बीच कैसे बांटा गया है.
- मेमोरी का विश्लेषण (XProf Memory Viewer):
- हीप का इस्तेमाल: HBM हीप के इस्तेमाल की जांच करने के लिए, XProf के "Memory Viewer" टैब जैसे टूल इस्तेमाल करें. इससे यह पता लगाने में मदद मिल सकती है कि बड़े मॉडल के वज़न, कॉन्स्टेंट या इनपुट प्रीफ़ेचिंग की वजह से, ज़्यादा मात्रा में एचबीएम का इस्तेमाल हो रहा है या नहीं.
--vmodule=best_fit_allocator=1जैसे फ़्लैग चालू करने से, हीप मेमोरी के सबसे ज़्यादा इस्तेमाल के लॉग मिल सकते हैं. - स्टैक का इस्तेमाल (अप्रत्यक्ष): सीधे तौर पर एचबीएम स्टैक की प्रोफ़ाइलिंग करना मुश्किल हो सकता है. हालांकि, अगर आपको मेमोरी से जुड़ी गड़बड़ियां दिखती हैं और हीप का इस्तेमाल सही लगता है, तो एचबीएम स्टैक के खत्म होने की वजह से ऐसा हो सकता है. ऐसा अक्सर बहुत बड़ी सीमाओं या फ़ीचर की चौड़ाई की वजह से होता है. एचबीएम स्टैक के इस्तेमाल के लिए दिए गए फ़ॉर्मूले से, इसका अनुमान लगाया जा सकता है.
- हीप का इस्तेमाल: HBM हीप के इस्तेमाल की जांच करने के लिए, XProf के "Memory Viewer" टैब जैसे टूल इस्तेमाल करें. इससे यह पता लगाने में मदद मिल सकती है कि बड़े मॉडल के वज़न, कॉन्स्टेंट या इनपुट प्रीफ़ेचिंग की वजह से, ज़्यादा मात्रा में एचबीएम का इस्तेमाल हो रहा है या नहीं.
- खास पैटर्न ढूंढना:
- मिनी-बैचिंग: अगर सीमाएं बार-बार पार की जा रही हैं, तो आपको ट्रेस में मिनी-बैचिंग के सबूत दिख सकते हैं. उदाहरण के लिए, ग्लोबल बैच साइज़ के लिए उम्मीद से ज़्यादा छोटी एससी कार्रवाइयां. इसका पता अक्सर लॉग से या कुछ कार्रवाइयों के इनवोकेशन की संख्या देखकर लगाया जा सकता है.
- आईडी ड्रॉपिंग: अगर आईडी ड्रॉपिंग की सुविधा चालू है और ऐसा हो रहा है, तो सिस्टम लॉग से इसकी जानकारी मिल सकती है. इससे यह भी पता चलेगा कि कॉन्फ़िगर की गई सीमाएं, इनपुट डेटा के लिए बहुत ज़्यादा पाबंदियां लगाती हैं.
- कंपाइलेशन में लगने वाला समय: अगर बार-बार रीकंपाइल किया जाता है, तो कंपाइलेशन में ज़्यादा समय लग सकता है. खास तौर पर, अगर फ़ीडबैक के आधार पर ऑप्टिमाइज़ेशन (एफ़डीओ) की सुविधा चालू है और सीमाएं बार-बार बदली जा रही हैं, तो ट्रेनिंग में लगने वाले कुल समय में काफ़ी बढ़ोतरी हो सकती है.
- फ़्लैग और कॉन्फ़िगरेशन से जोड़ें:
- प्रोफ़ाइल में देखे गए व्यवहार को अपने SparseCore कॉन्फ़िगरेशन (सीमाओं वाली फ़ाइलों में सेटिंग, XLA फ़्लैग) से जोड़ें. उदाहरण के लिए, अगर
xla_sc_num_serialized_tables_to_optimize_hbmको ज़्यादा वैल्यू पर सेट किया जाता है, तो आपको एससी की परफ़ॉर्मेंस धीमी होने की उम्मीद हो सकती है. हालांकि, एचबीएम स्टैक का इस्तेमाल कम होगा.
- प्रोफ़ाइल में देखे गए व्यवहार को अपने SparseCore कॉन्फ़िगरेशन (सीमाओं वाली फ़ाइलों में सेटिंग, XLA फ़्लैग) से जोड़ें. उदाहरण के लिए, अगर
- बार-बार दोहराई जाने वाली प्रोसेस:
- प्रोफ़ाइलिंग, अक्सर बार-बार इस्तेमाल होने वाली रिफ़ाइनमेंट प्रोसेस होती है. कोई खास बदलाव करें (सीमा में बदलाव करें, किसी सुविधा को चालू या बंद करें), नई प्रोफ़ाइल कैप्चर करें. इसके बाद, बदलाव का असर देखने के लिए, इसकी तुलना पिछली प्रोफ़ाइल से करें.
12. डीबग करने के लिए सामान्य फ़्लैग
SparseCore के एक्ज़ीक्यूशन से जुड़ी समस्याओं को डीबग करने के लिए, कई फ़्लैग चालू किए जा सकते हैं. यह ध्यान रखना ज़रूरी है कि इन जांचों को चालू करने से, अक्सर परफ़ॉर्मेंस पर असर पड़ता है. इसलिए, आम तौर पर इन्हें प्रोडक्शन रन के लिए बंद कर देना चाहिए.
- आईडी की जांच (रेंज से बाहर):
- फ़्लैग:
xla_sparse_core_enable_id_bound_check = true - मकसद: यह कुकी, होस्ट सिस्टम पर जांच करने की सुविधा चालू करती है. इससे यह पता चलता है कि इनपुट डेटा में मौजूद कोई भी एम्बेडिंग आईडी, किसी एम्बेडिंग टेबल के लिए तय की गई मान्य शब्दावली की सीमा से बाहर तो नहीं है. इससे, गलत या खराब इनपुट डेटा से जुड़ी समस्याओं का पता लगाने में मदद मिलती है.
- फ़्लैग:
- NaN checker:
- फ़्लैग:
xla_sc_detect_nan = true - मकसद: यह कुकी, SparseCore पर प्रोसेस किए गए फ़्लोटिंग-पॉइंट डेटा में NaN (संख्या नहीं है) वैल्यू का पता लगाने में मदद करती है. अगर कंपाइलर के अलग-अलग पास के इनपुट या आउटपुट में NaN का पता चलता है, तो यह फ़्लैग गड़बड़ी की वजह बनेगा. इस तरह की गड़बड़ियों से आम तौर पर यह जानकारी मिलती है कि NaN कहां मिला.
- फ़्लैग:
- बाउंड्स चेकर (मेमोरी ऐक्सेस):
- फ़्लैग:
xla_sc_assert_level=bounds - मकसद: यह फ़्लैग, ASAN (AddressSanitizer) स्टाइल वाले टूल को चालू करता है. यह टूल, मेमोरी ऐक्सेस करने के निर्देशों (जैसे कि VMEM लोड/स्टोर और डीएमए ऑपरेशन) को फिर से लिखता है, ताकि उनमें डाइनैमिक जांच शामिल की जा सके. इन जांचों से यह पुष्टि होती है कि मेमोरी का ऐक्सेस, टारगेट मेमोरी क्षेत्र के तय किए गए दायरे में है या नहीं.
- व्यवहार: अगर मेमोरी ऐक्सेस करने पर कोई रोक नहीं लगाई जाती है, तो टास्क पूरा नहीं हो पाएगा.
- चेतावनी: ऐसा हो सकता है कि यह चेकर, गलत पॉज़िटिव नतीजे दे. उदाहरण के लिए, जटिल स्ट्राइड ऐक्सेस पैटर्न की वजह से, चेकर को पूरी तरह से समझ में नहीं आता. यह ट्रांसफ़ॉर्मेशन, बैकएंड कंपाइलेशन प्रोसेस के आखिरी चरण में लागू होता है.
- फ़्लैग:
- बफ़र चेकर (मेमोरी करप्शन):
- फ़्लैग:
xla_tpu_buffer_contents_sanitizer_config='cores_to_sanitize: [TC, SC_SCS, SC_TILE], sanitizer_mode: LOCAL_ONLY'xla_tpu_verify_launch_id_across_cores=true
- मकसद: इन फ़्लैग से यह पक्का करने में मदद मिलती है कि मेमोरी बफ़र को गलती से खराब न किया जाए या उन पर ऐसी कार्रवाइयां न की जाएं जो उनसे जुड़ी नहीं हैं. बफ़र सैनिटाइज़र, बफ़र के कॉन्टेंट की जांच करता है. इससे यह पुष्टि की जाती है कि उनमें अचानक कोई बदलाव नहीं हो रहा है.
- फ़्लैग:
13. क्वांटाइज़ेशन की सुविधा
SparseCore के SparseDenseMatmulOp को इस तरह से डिज़ाइन किया गया है कि यह 32-बिट फ़्लोटिंग-पॉइंट (FP32) और पूर्णांक, दोनों तरह के डेटा टाइप का इस्तेमाल करके एम्बेडिंग टेबल पर कार्रवाइयों को सपोर्ट कर सके. आम तौर पर, मॉडल ट्रेनिंग के दौरान एम्बेडिंग टेबल के लिए FP32 प्रेसिज़न का इस्तेमाल किया जाता है. हालांकि, ट्रेनिंग के बाद क्वांटाइज़ेशन (पीटीक्यू) लागू किया जा सकता है. पीटीक्यू, अनुमान के लिए कम सटीक डेटाटाइप (जैसे कि 8-बिट पूर्णांक) का इस्तेमाल करने की अनुमति देता है. इससे परफ़ॉर्मेंस बेहतर हो सकती है और मेमोरी का इस्तेमाल कम हो सकता है.
सिम्युलेटेड क्वांटाइज़ेशन:
SparseDenseMatmulOp को "सिम्युलेटेड क्वांटाइज़ेशन" करने के लिए कॉन्फ़िगर किया जा सकता है. इस ऑपरेशनल मोड में, एंबेड किए जा रहे वेक्टर को सबसे पहले कम सटीक वैल्यू में बदला जाता है. इसके बाद, उन्हें ज़्यादा सटीक वैल्यू (उदाहरण के लिए, FP32) में वापस बदला जाता है. ऐसा तब किया जाता है, जब उनका इस्तेमाल आगे की कैलकुलेशन में किया जाना हो. इस तकनीक की मदद से, मॉडल को क्वांटाइज़ेशन नॉइज़ के असर को ध्यान में रखते हुए ट्रेन किया जा सकता है. सिम्युलेटेड क्वांटाइज़ेशन के साथ ट्रेनिंग करने से, फ़ाइनल मॉडल की सटीकता को बेहतर बनाया जा सकता है. ऐसा तब होता है, जब अनुमान के लिए मॉडल को पूरी तरह से क्वांटाइज़ किया जाता है.
क्वांटाइज़ेशन के लिए, SparseDenseMatmulOp के कॉन्फ़िगरेशन एट्रिब्यूट:
quantization_config_num_buckets = 256- इस एट्रिब्यूट से, अलग-अलग बकेट या लेवल की संख्या के बारे में पता चलता है. इसमें यह जानकारी होती है कि 32-बिट फ़्लोटिंग-पॉइंट नंबर को कितने हिस्सों में बांटा जाएगा. उदाहरण के लिए, 8-बिट पूर्णांकों में बदलने के लिए, आम तौर पर 2^8 =256 बकेट तय किए जाते हैं.
quantization_config_low = -X.X- यह एट्रिब्यूट, क्वॉन्टाइज़ेशन रेंज में फ़्लोटिंग-पॉइंट की सबसे छोटी वैल्यू तय करता है. क्वांटाइज़ेशन के दौरान, इस तय की गई सबसे कम वैल्यू से कम की किसी भी इनपुट वैल्यू को इस सबसे कम वैल्यू पर क्लिप कर दिया जाएगा.
quantization_config_high = Y.Y- यह एट्रिब्यूट, क्वॉन्टाइज़ेशन रेंज में फ़्लोटिंग-पॉइंट की ज़्यादा से ज़्यादा वैल्यू तय करता है. क्वांटाइज़ेशन के दौरान, इस तय की गई ज़्यादा से ज़्यादा वैल्यू से ज़्यादा की किसी भी इनपुट वैल्यू को इस ज़्यादा से ज़्यादा वैल्यू पर क्लिप कर दिया जाएगा.
नंबर और पाइपलाइनिंग इंटरैक्शन:
मॉडल का संख्यात्मक व्यवहार, इस बात पर निर्भर करता है कि TensorCore और SparseCore के बीच पाइपलाइनिंग चालू है या नहीं. अगर पाइपलाइनिंग चालू है, तो SparseCore से प्रोसेस किए गए ग्रेडिएंट "पुराने" हो सकते हैं (पिछले इटरेशन से). यह क्वानटाइज़ेशन प्रोसेस के साथ इंटरैक्ट कर सकता है. इससे मॉडल ट्रेनिंग के डाइनैमिक या फ़ाइनल सटीकता पर असर पड़ सकता है.
14. आने वाली सुविधाएं और हाल ही में किए गए सुधार
SparseCore के नेटवर्क को लगातार डेवलप और बेहतर बनाया जा रहा है.
रोडमैप:
- सैंपल-डाइमेंशन मिनी-बैचिंग:
- इसे शब्दावली-डाइमेंशन के हिसाब से मिनी-बैचिंग की मौजूदा सुविधाओं के साथ काम करने वाली सुविधा के तौर पर डिज़ाइन किया गया है.
- इससे, सैंपल डाइमेंशन के साथ-साथ एंबेडिंग इनपुट को और भी ज़्यादा हिस्सों में बांटा जा सकेगा. इसके लिए, डिवाइस पर लूप की सुविधा शुरू की जाएगी. इससे एक बार में, सैंपल के सबसेट से लुकअप को फ़िल्टर और प्रोसेस किया जा सकेगा. इस तरह की सुविधा, हर सैंपल के आईडी की बहुत बड़ी संख्या को मैनेज करने या प्रोसेसिंग यूनिट के बीच लोड बैलेंसिंग को बेहतर बनाने के लिए फ़ायदेमंद हो सकती है.
- हर लाइन में आठ से कम पूर्णांक (छोटी सुविधा की चौड़ाई) वाले डेटा को एम्बेड करने की बेहतर सुविधा:
- मौजूदा डिज़ाइन में, एम्बेड की गई सुविधाओं की चौड़ाई के लिए अक्सर काफ़ी पैडिंग का इस्तेमाल किया जाता है. यह चौड़ाई आठ फ़्लोट (जो 32 बाइट के बराबर है) से कम होती है. इस पैडिंग की वजह से, एचबीएम का इस्तेमाल नहीं हो पाता. साथ ही, कंप्यूट संसाधनों का इस्तेमाल कम हो सकता है. आने वाले समय में, इस समस्या को ठीक करने के लिए सुधार किए जाएंगे. इससे कम फ़ीचर डाइमेंशन वाली टेबल के लिए, इस समस्या को कम किया जा सकेगा.
हाल ही में किए गए सुधार:
- एचबीएम में गैदर ऑपरेंड की स्टेजिंग:
- इस ऑप्टिमाइज़ेशन से, शेयर की गई स्क्रैचपैड मेमोरी (एसपीएमईएम) पर पड़ने वाले दबाव को कम करने में मदद मिलती है. ऐसा इसलिए होता है, क्योंकि यह कुछ इकट्ठा करने की कार्रवाई के इनपुट या आउटपुट को बड़े एचबीएम में स्टेज करने की अनुमति देता है.
- स्टैक मेमोरी के इस्तेमाल में कमी:
- स्पार्सकोर ऑपरेशंस के दौरान, एचबीएम स्टैक मेमोरी की खपत को कम करने के लिए सुधार किए गए हैं. इससे, परफ़ॉर्मेंस या थ्रूपुट पर कोई बुरा असर नहीं पड़ता.
इन सुधारों का मकसद, SparseCore की परफ़ॉर्मेंस, मेमोरी की क्षमता, और ऑपरेशनल फ़्लेक्सिबिलिटी को बेहतर बनाना है, ताकि स्पार्स वर्कलोड की ज़्यादा से ज़्यादा रेंज को हैंडल किया जा सके.