এই নির্দেশিকাটি ব্যবহারকারীদের XLA-এর কার্যকারিতা কার্যকরভাবে পরিচালনা ও ব্যবহারে সহায়তা করার জন্য নির্বাচিত কিছু গুরুত্বপূর্ণ XLA ফ্ল্যাগ উপস্থাপন করে। নিম্নলিখিত বিভাগগুলিতে এমন ফ্ল্যাগগুলির বিশদ বিবরণ দেওয়া হয়েছে যা রানটাইম পারফরম্যান্স এবং মেমরি ব্যবহারে উল্লেখযোগ্যভাবে প্রভাব ফেলতে পারে। কোনো ফ্ল্যাগ সক্রিয় করার পর যদি ক্র্যাশের মতো কোনো সমস্যা দেখা দেয়, তবে ডিফল্ট সেটিংসে ফিরে যাওয়ার এবং একটি GitHub ইস্যু তৈরি করার পরামর্শ দেওয়া হচ্ছে।
সঠিকতা ফ্ল্যাগ
| পতাকা | বর্ণনা | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
xla_mosaic_on_device_checks | এই ফ্ল্যাগটি মোজাইক কোডজেন-এর জন্য ডিভাইসে চেক চালু করে। বর্তমানে, সমর্থিত চেকগুলো হলো বাউন্ডস-ভিত্তিক; অর্থাৎ, যদি বাউন্ডসের বাইরের কোনো মেমরি স্পর্শ করা হয়, তাহলে কম্পাইলেশন বা এক্সিকিউশন তা ধরে ফেলবে। | xla_mosaic_on_device_checks=bounds | xla_mosaic_on_device_checks=bounds | xla_mosaic_on_device_checks=bounds |
পারফরম্যান্স ফ্ল্যাগ
নিম্নলিখিত ফ্ল্যাগগুলো রানটাইম পারফরম্যান্স উন্নত করতে সহায়ক। এই সেটিংগুলো নিয়ে পরীক্ষা-নিরীক্ষা করলে পারফরম্যান্সে উল্লেখযোগ্য উন্নতি হতে পারে।
| পতাকা | বর্ণনা | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
| পাইপলাইনিং 1. xla_should_allow_loop_variant_parameter_in_chain2. xla_should_add_loop_invariant_op_in_chain3. xla_tpu_enable_ici_ag_pipelining | ICI (ইন্টারচিপ-ইন্টারকানেক্ট) অল-গ্যাদার অপারেশনগুলোর সম্মিলিত পাইপলাইনিং সক্ষম করতে এই তিনটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত, যা ওভারল্যাপিং এক্সিকিউশনের জন্য আরও সুযোগ তৈরি করে। | 1. xla_should_allow_loop_variant_parameter_in_chain=kDisabled2. xla_should_add_loop_invariant_op_in_chain=kDisabled3. xla_tpu_enable_ici_ag_pipelining=false | 1. xla_should_allow_loop_variant_parameter_in_chain=kEnabled2. xla_should_add_loop_invariant_op_in_chain=kEnabled3. xla_tpu_enable_ici_ag_pipelining=true | 1. xla_should_allow_loop_variant_parameter_in_chain=kDisabled/kEnabled/kAuto2. xla_should_add_loop_invariant_op_in_chain=kDisabled/kEnabled/kAuto3. xla_tpu_enable_ici_ag_pipelining=true/false |
v5e/Asyncxla_enable_async_all_gatherxla_tpu_enable_async_collective_fusionxla_tpu_enable_async_collective_fusion_fuse_all_gather | v5e-তে অ্যাসিঙ্ক্রোনাস অল-গ্যাদার অপারেশন সক্রিয় করতে এই ৩টি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত। | xla_enable_async_all_gather=kAutoxla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_gather=true | xla_enable_async_all_gather=kAutoxla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_gather=true | xla_enable_async_all_gather=kDisabled/kEnabled/kAutoxla_tpu_enable_async_collective_fusion=true/falsexla_tpu_enable_async_collective_fusion_fuse_all_gather=true/false |
v5e/Asyncxla_tpu_enable_async_collective_fusionxla_tpu_enable_async_collective_fusion_fuse_all_reduce | v5e-তে অ্যাসিঙ্ক্রোনাস অল-রিডিউস অপারেশন সক্রিয় করতে এই দুটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত। | xla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_reduce=false | xla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_reduce=true | xla_tpu_enable_async_collective_fusion=true/falsexla_tpu_enable_async_collective_fusion_fuse_all_reduce=true/false |
অ্যাসিঙ্কxla_tpu_enable_async_all_to_all | এই ফ্ল্যাগটি অ্যাসিঙ্ক্রোনাস অল-টু-অল কমিউনিকেশন সক্ষম করে। | xla_tpu_enable_async_all_to_all=false | xla_tpu_enable_async_all_to_all=true | xla_tpu_enable_async_all_to_all=true/false |
লেটেন্সি-বাউন্ডxla_all_gather_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-গ্যাদারের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_gather_latency_bound_threshold_in_bytes=-1(যা সক্রিয় করা হয়নি) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
লেটেন্সি-বাউন্ডxla_all_reduce_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-রিডিউসের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_reduce_latency_bound_threshold_in_bytes=-1(যা সক্রিয় করা হয়নি) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
লেটেন্সি-বাউন্ডxla_collective_permute_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড কালেক্টিভ-পারমিউটের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_collective_permute_latency_bound_threshold_in_bytes=-1(যা সক্রিয় করা হয়নি) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
লেটেন্সি-বাউন্ডxla_all_to_all_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-টু-অল অপারেশনের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_to_all_latency_bound_threshold_in_bytes=-1(যা সক্রিয় করা হয়নি) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
xla_enable_async_collective_permute | সমস্ত কালেক্টিভ-পারমিউট অপারেশনকে তাদের অ্যাসিঙ্ক্রোনাস সংস্করণে পুনর্লিখন করে। যখন auto তে সেট করা থাকে, XLA অন্যান্য কনফিগারেশন বা শর্তের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অ্যাসিঙ্ক্রোনাস কালেক্টিভ চালু করতে পারে। | xla_enable_async_collective_permute=kAuto | xla_enable_async_collective_permute=kAuto | xla_enable_async_collective_permute=kAuto/kEnabled/kDisabled |
গণনা কেন্দ্রিকxla_tpu_enable_dot_strength_reduction | এই ফ্ল্যাগটি কম গণনা-নিবিড় ডট চিহ্নগুলোকে গুণ ও হ্রাস অপারেশনে রূপান্তরিত করে। | গণনা কেন্দ্রিকxla_tpu_enable_dot_strength_reduction=true | xla_tpu_enable_dot_strength_reduction=true | xla_tpu_enable_dot_strength_reduction=true/false |
গণনা কেন্দ্রিকxla_tpu_dot_dot_fusion | এই ফ্ল্যাগটি ডট-ডট ফিউশন সক্ষম করে, যা একটি প্রডিউসার-ডট অপারেশনকে একটি কনজিউমার-ডট অপারেশনের সাথে একীভূত করে। এর ফলে, প্রডিউসার-ডটের আউটপুট স্লো/মেইন মেমরিতে প্রদর্শিত হয় না, যা মেমরি ফুটপ্রিন্ট কমিয়ে আনে। | xla_tpu_dot_dot_fusion=true | xla_tpu_dot_dot_fusion=true | xla_tpu_dot_dot_fusion=true/false |
গণনা কেন্দ্রিকxla_jf_enable_multi_output_fusion | এই ফ্ল্যাগটি এমন ফিউশন সক্ষম করে যা একাধিক কনজিউমারকে ফিউজ করে (অর্থাৎ, ফলস্বরূপ ফিউশনটির একাধিক আউটপুট থাকবে)। | xla_jf_enable_multi_output_fusion=true | xla_jf_enable_multi_output_fusion=true | xla_jf_enable_multi_output_fusion=true/false |
গণনা কেন্দ্রিকxla_tpu_scoped_vmem_limit_kib | এই ফ্ল্যাগটি স্থানীয় ব্যবহারের জন্য প্রতি অপারেশনে উপলব্ধ স্ক্র্যাচপ্যাড ভিএমইএম-এর পরিমাণ কিলোবাইটে নির্ধারণ করে। ভিএমইএম-এর বাকি অংশ বাফার স্পেস হিসেবে ব্যবহৃত হয়। | xla_tpu_scoped_vmem_limit_kib=16384 | xla_tpu_scoped_vmem_limit_kib=16384 | xla_tpu_scoped_vmem_limit_kib=[4096, VMEM size of the architecture - 1024] |
গণনা কেন্দ্রিকxla_tpu_async_copy_bandwidth_scaling_factor | অ্যাসিঙ্ক কপির জন্য কার্যকর ব্যান্ডউইথ স্কেল করে। প্রিফেচ সিদ্ধান্ত নেওয়ার সময় এবং কোন টেনসরগুলো VMEM-এ থাকবে তা নির্ধারণ করার সময় এটি ব্যবহৃত হয়। | xla_tpu_async_copy_bandwidth_scaling_factor=1 | xla_tpu_async_copy_bandwidth_scaling_factor=1 | xla_tpu_async_copy_bandwidth_scaling_factor=(0, 1] |
গণনা কেন্দ্রিকxla_msa_enable_cross_program_prefetch_freeing | ক্রস-প্রোগ্রাম-প্রিফেচড বাফারগুলির জন্য অপ্টিমাইজেশন মুক্ত করা সক্ষম করে। | xla_msa_enable_cross_program_prefetch_freeing=enabled | xla_msa_enable_cross_program_prefetch_freeing=enabled | xla_msa_enable_cross_program_prefetch_freeing=enabled/disabled |
গণনা কেন্দ্রিকxla_tpu_msa_inefficient_use_to_copy_ratio | একটি নির্দিষ্ট অ্যালোকেশন সাইটের জন্য ইউজ বাইট এবং কপি বাইটের অনুপাত, যার নিচে সাইটটিকে অদক্ষ বলে বিবেচনা করা হয়। VMEM প্লেসমেন্টের সিদ্ধান্ত নেওয়ার সময় এটি ব্যবহৃত হয়। এর মান ০ হলে সমস্ত সাইটকে দক্ষ হিসেবে গণ্য করা হবে এবং মান ১ হলে সাইটটিতে ব্যবহৃত বাইটের পরিমাণ অবশ্যই অ্যাসিঙ্ক কপি বাইটের সমান বা তার চেয়ে বেশি হতে হবে। | xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 | xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 | xla_tpu_msa_inefficient_use_to_copy_ratio=[0, 1] |
সিপিইউ পারফরম্যান্স ফ্ল্যাগ
| পতাকা | বর্ণনা | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
xla_cpu_opt_preset | সিপিইউ অপটিমাইজেশন প্রিসেট নির্ধারণ করে। FAST_COMPILE কম্পাইলারের এমন কিছু পরিবর্তনকে একত্রিত করে, যা রানটাইম পারফরম্যান্সের সামান্য ত্যাগের বিনিময়ে কম্পাইল টাইমে বড় ধরনের সুবিধা প্রদান করে। FAST_RUNTIME হলো ডিফল্ট এবং এটি নির্দিষ্ট করার প্রয়োজন নেই। | FAST_RUNTIME | FAST_COMPILE (উন্নয়নের জন্য) | FAST_RUNTIME , FAST_COMPILE |
মেমরি ফ্ল্যাগ
নিচে তালিকাভুক্ত ফ্ল্যাগগুলো HBM-সম্পর্কিত সমস্যা সমাধানের জন্য দেওয়া হয়েছে। মডেল কম্পাইলেশনের সময় যদি আপনি HBM "আউট অফ মেমোরি" ত্রুটির সম্মুখীন হন, তবেই কেবল এগুলো পরিবর্তন করা উচিত। অন্য সব ক্ষেত্রে ডিফল্ট মান ব্যবহার করার পরামর্শ দেওয়া হয়, কারণ এগুলো পরিবর্তন করলে পারফরম্যান্সে নেতিবাচক প্রভাব পড়তে পারে।
| পতাকা | বর্ণনা | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
সময়সূচী নির্ধারকxla_latency_hiding_scheduler_rerun | এই সেটিংটি ল্যাটেন্সি-হাইডিং শিডিউলারের আচরণ নিয়ন্ত্রণ করে। এটি প্রসেসটির প্রতিটি "পুনরায় চালানোর" সাথে সাথে শিডিউলিংয়ের জন্য বরাদ্দ করা মেমরি সীমা ক্রমান্বয়ে কমিয়ে আনার মাধ্যমে কাজ করে। | xla_latency_hiding_scheduler_rerun=1 | xla_latency_hiding_scheduler_rerun=5 | 0~10(it doesn't make much sense beyond 10 reruns) |
ফিউশনxla_tpu_rwb_fusion | এই ফ্ল্যাগটি reduce+broadcast ধরনের ফিউশন সক্ষম করে এবং মেমরি ব্যবহার কমাতে পারে। | xla_tpu_rwb_fusion=true | xla_tpu_rwb_fusion=false | xla_tpu_rwb_fusion=true/false |
সময়সূচী নির্ধারকxla_memory_scheduler | এই ফ্ল্যাগটি সেই অ্যালগরিদম নির্দিষ্ট করে যা মেমরি শিডিউলার মেমরি ব্যবহার কমানোর জন্য ব্যবহার করবে। আরও উন্নত অ্যালগরিদম ব্যবহার করলে কম মেমরি-ব্যয়কারী একটি শিডিউল পাওয়া যেতে পারে, তবে এর জন্য কম্পাইলেশনে বেশি সময় লাগতে পারে। | xla_memory_scheduler=kDefault | xla_memory_scheduler=kBrkga | xla_memory_scheduler=kDefault/kList/kDfs/kPostOrder/kBrkga |
সময়সূচী নির্ধারকxla_tpu_enable_latency_hiding_scheduler | এই ফ্ল্যাগটি ল্যাটেন্সি-হাইডিং শিডিউলার সক্রিয় করে, যা আমাদের সিঙ্ক্রোনাস অপারেশনের পরিবর্তে অ্যাসিঙ্ক্রোনাস কালেক্টিভ অপারেশন সম্পাদন করতে দেয়। এটি নিষ্ক্রিয় করলে মেমরি ব্যবহার কমে, কিন্তু এর বিনিময়ে এই অ্যাসিঙ্ক্রোনাস অপারেশনগুলো থেকে প্রাপ্ত পারফরম্যান্সের সুবিধাগুলোও নষ্ট হয়ে যায়। | xla_tpu_enable_latency_hiding_scheduler=true | xla_tpu_enable_latency_hiding_scheduler=false | xla_tpu_enable_latency_hiding_scheduler=true/false |
এসপিএমডিxla_jf_spmd_threshold_for_windowed_einsum_mib | এই ফ্ল্যাগটি কালেক্টিভ ম্যাটমাল ট্রিগার করার জন্য ডটের সর্বনিম্ন আকারের নিম্নসীমা নির্ধারণ করে। এটিকে উচ্চতর মানে সেট করলে মেমরি সাশ্রয় হবে, কিন্তু তার বিনিময়ে কালেক্টিভ ম্যাটমাল করার সুযোগ নষ্ট হবে। | xla_jf_spmd_threshold_for_windowed_einsum_mib=-1 | 10Mb~1Gb (ie 10*1024*1024 ~ 1024*1024*1024) | [0, 9223372036854775807] |
সময়সূচী নির্ধারকxla_gpu_enable_analytical_sol_latency_estimator | এই ফ্ল্যাগটি সেই অ্যানালিটিক্যাল এস্টিমেটরকে সক্রিয় করে যা জিপিইউ-তে কম্পিউট-কমিউনিকেশন ওভারল্যাপকে সর্বাধিক করে তোলে। | xla_gpu_enable_analytical_sol_latency_estimator=true | xla_gpu_enable_analytical_sol_latency_estimator=false | true/false |
অন্যান্য সাধারণভাবে ব্যবহৃত পতাকা
| পতাকা | প্রকার | নোট |
|---|---|---|
xla_dump_to | স্ট্রিং (ফাইলের পথ) | যে ফোল্ডারে প্রি-অপ্টিমাইজেশন HLO ফাইল এবং অন্যান্য আর্টিফ্যাক্ট রাখা হবে ( XLA টুলস দেখুন)। |
টিপিইউ এক্সএলএ পতাকা
| পতাকা | প্রকার | নোট |
|---|---|---|
xla_tpu_enable_data_parallel_all_reduce_opt | বুলিয়ান (সত্য/মিথ্যা) | ডেটা প্যারালাল শার্ডিং-এর জন্য ব্যবহৃত ডিসিএন (ডেটা সেন্টার নেটওয়ার্কিং) অল-রিডিউস-এর ক্ষেত্রে ওভারল্যাপের সুযোগ বাড়ানোর জন্য অপটিমাইজেশন। |
xla_tpu_data_parallel_opt_different_sized_ops | বুলিয়ান (সত্য/মিথ্যা) | একাধিক ইটারেশন জুড়ে ডেটা প্যারালাল অপারেশনগুলোর পাইপলাইনিং সক্ষম করে, এমনকি যদি তাদের আউটপুট সাইজ স্ট্যাক করা ভেরিয়েবলগুলোতে সংরক্ষণযোগ্য আকারের সাথে না মেলে। এটি মেমোরির উপর চাপ বাড়াতে পারে। |
xla_tpu_spmd_rng_bit_generator_unsafe | বুলিয়ান (সত্য/মিথ্যা) | RngBitGenerator HLO-কে পার্টিশন করা পদ্ধতিতে চালানো হবে কিনা, যা অনিরাপদ যদি গণনার বিভিন্ন অংশে ভিন্ন ভিন্ন শার্ডিং ব্যবহার করে সুনির্দিষ্ট ফলাফল প্রত্যাশা করা হয়। |
xla_tpu_megacore_fusion_allow_ags | বুলিয়ান (সত্য/মিথ্যা) | অল-গ্যাদারকে কনভোলিউশন/অল-রিডিউসের সাথে ফিউজ করার অনুমতি দেয়। |
xla_tpu_enable_ag_backward_pipelining | বুলিয়ান (সত্য/মিথ্যা) | পাইপলাইনগুলো স্ক্যান লুপের মাধ্যমে সমস্ত সংগ্রহকে (বর্তমানে মেগাস্কেল সমস্ত সংগ্রহ) বিপরীত দিকে চালনা করে। |
GPU XLA ফ্ল্যাগ
-O1 অপটিমাইজেশন লেভেলটি উন্নত GPU পারফরম্যান্সের জন্য অ্যাডভান্সড কম্পাইলার পাস সক্ষম করে, যার মধ্যে নিচে উল্লেখিত বিভিন্ন ক্যাটাগরির ফ্ল্যাগ অন্তর্ভুক্ত রয়েছে: ডেটা-প্যারালাল কালেক্টিভের পাইপলাইনিং ( xla_gpu_enable_pipelined_all_gather , xla_gpu_enable_pipelined_all_reduce , xla_gpu_enable_pipelined_reduce_scatter ), while লুপ আনরোলিং ( xla_gpu_enable_while_loop_double_buffering ), ল্যাটেন্সি হাইডিং শিডিউলিং ( xla_gpu_enable_latency_hiding_scheduler ), এবং Hopper/Blackwell-এ SOL ল্যাটেন্সি এস্টিমেটর ( xla_gpu_enable_analytical_sol_latency_estimator )। বিস্তারিত জানতে GPU Effort Levels দেখুন।
| পতাকা | প্রকার | নোট |
|---|---|---|
xla_gpu_enable_latency_hiding_scheduler | বুলিয়ান (সত্য/মিথ্যা) | এই ফ্ল্যাগটি ল্যাটেন্সি হাইডিং শিডিউলারকে দক্ষতার সাথে কম্পিউটেশনের সাথে অ্যাসিঙ্ক্রোনাস কমিউনিকেশন ওভারল্যাপ করতে সক্ষম করে। এর ডিফল্ট মান হলো False। |
xla_gpu_enable_analytical_sol_latency_estimator | বুলিয়ান (সত্য/মিথ্যা) | প্ল্যাটফর্ম-নির্দিষ্ট সময়সূচী নির্ধারণের সিদ্ধান্ত গ্রহণে সক্ষম করে, যা ফলস্বরূপ গণনা ও যোগাযোগের ওভারল্যাপ উন্নত করে। এর ডিফল্ট মান হলো 'true'। |
xla_gpu_analytical_latency_estimator_options | কাঠামোগত স্ট্রিং | xla_gpu_enable_analytical_sol_latency_estimator এর জন্য প্যারামিটার কনফিগার করে। nic_speed_gbps=$NIC_SPEED,nccl_op_launch_us=$LAUNCH_OVERHEAD,chunk_prep_us=$CHUNK_PREP,rtt_us=$RTT,chunk_size_bytes=$CHUNK_SIZE,gpus_per_node=$GPUS_PER_NODE সেট করে এটি অ্যাডজাস্ট করুন। ডিফল্ট মান শনাক্তকৃত প্ল্যাটফর্মের উপর নির্ভর করে। |
xla_gpu_enable_triton_gemm | বুলিয়ান (সত্য/মিথ্যা) | ট্রাইটন-ভিত্তিক ম্যাট্রিক্স গুণন ব্যবহার করুন। |
xla_gpu_enable_command_buffer | CommandBufferCmdType-এর তালিকা | কমান্ড বাফারে কোন ধরনের কমান্ডগুলো ধারণ করা উচিত। |
xla_gpu_all_reduce_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | এই ফ্ল্যাগগুলো নির্ধারণ করে কখন একাধিক ছোট AllGather / ReduceScatter / AllReduce-কে একত্রিত করে একটি বড় AllGather / ReduceScatter / AllReduce তৈরি করতে হবে, যাতে বিভিন্ন ডিভাইসের মধ্যে যোগাযোগের জন্য ব্যয়িত সময় কমানো যায়। উদাহরণস্বরূপ, একটি Transformer-ভিত্তিক ওয়ার্কলোডের AllGather / ReduceScatter থ্রেশহোল্ডগুলো যথেষ্ট উঁচুতে টিউন করার কথা বিবেচনা করুন, যাতে অন্তত একটি Transformer Layer-এর ওয়েট AllGather / ReduceScatter-কে একত্রিত করা যায়। ডিফল্টরূপে, combine_threshold_bytes-এর মান 256 সেট করা থাকে। |
xla_gpu_all_gather_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন। |
xla_gpu_reduce_scatter_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন। |
xla_gpu_enable_pipelined_all_gather | বুলিয়ান (সত্য/মিথ্যা) | সমস্ত গ্যাদার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_pipelined_reduce_scatter | বুলিয়ান (সত্য/মিথ্যা) | reduce-scatter নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_pipelined_all_reduce | বুলিয়ান (সত্য/মিথ্যা) | সমস্ত রিডিউস নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_pipelined_host_offloading | বুলিয়ান (সত্য/মিথ্যা) | হোস্ট অফলোডিং নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_while_loop_double_buffering | বুলিয়ান (সত্য/মিথ্যা) | while লুপের জন্য ডাবল-বাফারিং সক্রিয় করুন। |
xla_gpu_enable_all_gather_combine_by_dim | বুলিয়ান (সত্য/মিথ্যা) | একই সংগ্রহ মাত্রা সহ অথবা মাত্রা নির্বিশেষে সমস্ত সংগ্রহ অপারেশন একত্রিত করুন। |
xla_gpu_enable_reduce_scatter_combine_by_dim | বুলিয়ান (সত্য/মিথ্যা) | একই ডাইমেনশনের অথবা ডাইমেনশন নির্বিশেষে রিডিউস-স্ক্যাটার অপারেশনগুলোকে একত্রিত করুন। |