XLA পতাকা নির্দেশিকা

এই নির্দেশিকাটি ব্যবহারকারীদের XLA-এর কার্যকারিতা কার্যকরভাবে পরিচালনা ও ব্যবহারে সহায়তা করার জন্য নির্বাচিত কিছু গুরুত্বপূর্ণ XLA ফ্ল্যাগ উপস্থাপন করে। নিম্নলিখিত বিভাগগুলিতে এমন ফ্ল্যাগগুলির বিশদ বিবরণ দেওয়া হয়েছে যা রানটাইম পারফরম্যান্স এবং মেমরি ব্যবহারে উল্লেখযোগ্যভাবে প্রভাব ফেলতে পারে। কোনো ফ্ল্যাগ সক্রিয় করার পর যদি ক্র্যাশের মতো কোনো সমস্যা দেখা দেয়, তবে ডিফল্ট সেটিংসে ফিরে যাওয়ার এবং একটি GitHub ইস্যু তৈরি করার পরামর্শ দেওয়া হচ্ছে।

সঠিকতা ফ্ল্যাগ

পতাকা বর্ণনা ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
xla_mosaic_on_device_checks এই ফ্ল্যাগটি মোজাইক কোডজেন-এর জন্য ডিভাইসে চেক চালু করে। বর্তমানে, সমর্থিত চেকগুলো হলো বাউন্ডস-ভিত্তিক; অর্থাৎ, যদি বাউন্ডসের বাইরের কোনো মেমরি স্পর্শ করা হয়, তাহলে কম্পাইলেশন বা এক্সিকিউশন তা ধরে ফেলবে। xla_mosaic_on_device_checks=bounds xla_mosaic_on_device_checks=bounds xla_mosaic_on_device_checks=bounds

পারফরম্যান্স ফ্ল্যাগ

নিম্নলিখিত ফ্ল্যাগগুলো রানটাইম পারফরম্যান্স উন্নত করতে সহায়ক। এই সেটিংগুলো নিয়ে পরীক্ষা-নিরীক্ষা করলে পারফরম্যান্সে উল্লেখযোগ্য উন্নতি হতে পারে।

পতাকা বর্ণনা ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
পাইপলাইনিং
1. xla_should_allow_loop_variant_parameter_in_chain
2. xla_should_add_loop_invariant_op_in_chain
3. xla_tpu_enable_ici_ag_pipelining
ICI (ইন্টারচিপ-ইন্টারকানেক্ট) অল-গ্যাদার অপারেশনগুলোর সম্মিলিত পাইপলাইনিং সক্ষম করতে এই তিনটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত, যা ওভারল্যাপিং এক্সিকিউশনের জন্য আরও সুযোগ তৈরি করে। 1. xla_should_allow_loop_variant_parameter_in_chain=kDisabled
2. xla_should_add_loop_invariant_op_in_chain=kDisabled
3. xla_tpu_enable_ici_ag_pipelining=false
1. xla_should_allow_loop_variant_parameter_in_chain=kEnabled
2. xla_should_add_loop_invariant_op_in_chain=kEnabled
3. xla_tpu_enable_ici_ag_pipelining=true
1. xla_should_allow_loop_variant_parameter_in_chain=kDisabled/kEnabled/kAuto
2. xla_should_add_loop_invariant_op_in_chain=kDisabled/kEnabled/kAuto
3. xla_tpu_enable_ici_ag_pipelining=true/false
v5e/Async
xla_enable_async_all_gather
xla_tpu_enable_async_collective_fusion
xla_tpu_enable_async_collective_fusion_fuse_all_gather
v5e-তে অ্যাসিঙ্ক্রোনাস অল-গ্যাদার অপারেশন সক্রিয় করতে এই ৩টি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত। xla_enable_async_all_gather=kAuto
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true
xla_enable_async_all_gather=kAuto
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true
xla_enable_async_all_gather=kDisabled/kEnabled/kAuto
xla_tpu_enable_async_collective_fusion=true/false
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true/false
v5e/Async
xla_tpu_enable_async_collective_fusion
xla_tpu_enable_async_collective_fusion_fuse_all_reduce
v5e-তে অ্যাসিঙ্ক্রোনাস অল-রিডিউস অপারেশন সক্রিয় করতে এই দুটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত। xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=false
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true
xla_tpu_enable_async_collective_fusion=true/false
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true/false
অ্যাসিঙ্ক
xla_tpu_enable_async_all_to_all
এই ফ্ল্যাগটি অ্যাসিঙ্ক্রোনাস অল-টু-অল কমিউনিকেশন সক্ষম করে। xla_tpu_enable_async_all_to_all=false xla_tpu_enable_async_all_to_all=true xla_tpu_enable_async_all_to_all=true/false
লেটেন্সি-বাউন্ড
xla_all_gather_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-গ্যাদারের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_gather_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় করা হয়নি)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
লেটেন্সি-বাউন্ড
xla_all_reduce_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-রিডিউসের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_reduce_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় করা হয়নি)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
লেটেন্সি-বাউন্ড
xla_collective_permute_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড কালেক্টিভ-পারমিউটের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_collective_permute_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় করা হয়নি)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
লেটেন্সি-বাউন্ড
xla_all_to_all_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-টু-অল অপারেশনের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_to_all_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় করা হয়নি)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
xla_enable_async_collective_permute সমস্ত কালেক্টিভ-পারমিউট অপারেশনকে তাদের অ্যাসিঙ্ক্রোনাস সংস্করণে পুনর্লিখন করে। যখন auto তে সেট করা থাকে, XLA অন্যান্য কনফিগারেশন বা শর্তের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অ্যাসিঙ্ক্রোনাস কালেক্টিভ চালু করতে পারে। xla_enable_async_collective_permute=kAuto xla_enable_async_collective_permute=kAuto xla_enable_async_collective_permute=kAuto/kEnabled/kDisabled
গণনা কেন্দ্রিক
xla_tpu_enable_dot_strength_reduction
এই ফ্ল্যাগটি কম গণনা-নিবিড় ডট চিহ্নগুলোকে গুণ ও হ্রাস অপারেশনে রূপান্তরিত করে। গণনা কেন্দ্রিক
xla_tpu_enable_dot_strength_reduction=true
xla_tpu_enable_dot_strength_reduction=true xla_tpu_enable_dot_strength_reduction=true/false
গণনা কেন্দ্রিক
xla_tpu_dot_dot_fusion
এই ফ্ল্যাগটি ডট-ডট ফিউশন সক্ষম করে, যা একটি প্রডিউসার-ডট অপারেশনকে একটি কনজিউমার-ডট অপারেশনের সাথে একীভূত করে। এর ফলে, প্রডিউসার-ডটের আউটপুট স্লো/মেইন মেমরিতে প্রদর্শিত হয় না, যা মেমরি ফুটপ্রিন্ট কমিয়ে আনে। xla_tpu_dot_dot_fusion=true xla_tpu_dot_dot_fusion=true xla_tpu_dot_dot_fusion=true/false
গণনা কেন্দ্রিক
xla_jf_enable_multi_output_fusion
এই ফ্ল্যাগটি এমন ফিউশন সক্ষম করে যা একাধিক কনজিউমারকে ফিউজ করে (অর্থাৎ, ফলস্বরূপ ফিউশনটির একাধিক আউটপুট থাকবে)। xla_jf_enable_multi_output_fusion=true xla_jf_enable_multi_output_fusion=true xla_jf_enable_multi_output_fusion=true/false
গণনা কেন্দ্রিক
xla_tpu_scoped_vmem_limit_kib
এই ফ্ল্যাগটি স্থানীয় ব্যবহারের জন্য প্রতি অপারেশনে উপলব্ধ স্ক্র্যাচপ্যাড ভিএমইএম-এর পরিমাণ কিলোবাইটে নির্ধারণ করে। ভিএমইএম-এর বাকি অংশ বাফার স্পেস হিসেবে ব্যবহৃত হয়। xla_tpu_scoped_vmem_limit_kib=16384 xla_tpu_scoped_vmem_limit_kib=16384 xla_tpu_scoped_vmem_limit_kib=[4096, VMEM size of the architecture - 1024]
গণনা কেন্দ্রিক
xla_tpu_async_copy_bandwidth_scaling_factor
অ্যাসিঙ্ক কপির জন্য কার্যকর ব্যান্ডউইথ স্কেল করে। প্রিফেচ সিদ্ধান্ত নেওয়ার সময় এবং কোন টেনসরগুলো VMEM-এ থাকবে তা নির্ধারণ করার সময় এটি ব্যবহৃত হয়। xla_tpu_async_copy_bandwidth_scaling_factor=1 xla_tpu_async_copy_bandwidth_scaling_factor=1 xla_tpu_async_copy_bandwidth_scaling_factor=(0, 1]
গণনা কেন্দ্রিক
xla_msa_enable_cross_program_prefetch_freeing
ক্রস-প্রোগ্রাম-প্রিফেচড বাফারগুলির জন্য অপ্টিমাইজেশন মুক্ত করা সক্ষম করে। xla_msa_enable_cross_program_prefetch_freeing=enabled xla_msa_enable_cross_program_prefetch_freeing=enabled xla_msa_enable_cross_program_prefetch_freeing=enabled/disabled
গণনা কেন্দ্রিক
xla_tpu_msa_inefficient_use_to_copy_ratio
একটি নির্দিষ্ট অ্যালোকেশন সাইটের জন্য ইউজ বাইট এবং কপি বাইটের অনুপাত, যার নিচে সাইটটিকে অদক্ষ বলে বিবেচনা করা হয়। VMEM প্লেসমেন্টের সিদ্ধান্ত নেওয়ার সময় এটি ব্যবহৃত হয়। এর মান ০ হলে সমস্ত সাইটকে দক্ষ হিসেবে গণ্য করা হবে এবং মান ১ হলে সাইটটিতে ব্যবহৃত বাইটের পরিমাণ অবশ্যই অ্যাসিঙ্ক কপি বাইটের সমান বা তার চেয়ে বেশি হতে হবে। xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 xla_tpu_msa_inefficient_use_to_copy_ratio=[0, 1]

সিপিইউ পারফরম্যান্স ফ্ল্যাগ

পতাকা বর্ণনা ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
xla_cpu_opt_preset সিপিইউ অপটিমাইজেশন প্রিসেট নির্ধারণ করে। FAST_COMPILE কম্পাইলারের এমন কিছু পরিবর্তনকে একত্রিত করে, যা রানটাইম পারফরম্যান্সের সামান্য ত্যাগের বিনিময়ে কম্পাইল টাইমে বড় ধরনের সুবিধা প্রদান করে। FAST_RUNTIME হলো ডিফল্ট এবং এটি নির্দিষ্ট করার প্রয়োজন নেই। FAST_RUNTIME FAST_COMPILE (উন্নয়নের জন্য) FAST_RUNTIME , FAST_COMPILE

মেমরি ফ্ল্যাগ

নিচে তালিকাভুক্ত ফ্ল্যাগগুলো HBM-সম্পর্কিত সমস্যা সমাধানের জন্য দেওয়া হয়েছে। মডেল কম্পাইলেশনের সময় যদি আপনি HBM "আউট অফ মেমোরি" ত্রুটির সম্মুখীন হন, তবেই কেবল এগুলো পরিবর্তন করা উচিত। অন্য সব ক্ষেত্রে ডিফল্ট মান ব্যবহার করার পরামর্শ দেওয়া হয়, কারণ এগুলো পরিবর্তন করলে পারফরম্যান্সে নেতিবাচক প্রভাব পড়তে পারে।

পতাকা বর্ণনা ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
সময়সূচী নির্ধারক
xla_latency_hiding_scheduler_rerun
এই সেটিংটি ল্যাটেন্সি-হাইডিং শিডিউলারের আচরণ নিয়ন্ত্রণ করে। এটি প্রসেসটির প্রতিটি "পুনরায় চালানোর" সাথে সাথে শিডিউলিংয়ের জন্য বরাদ্দ করা মেমরি সীমা ক্রমান্বয়ে কমিয়ে আনার মাধ্যমে কাজ করে। xla_latency_hiding_scheduler_rerun=1 xla_latency_hiding_scheduler_rerun=5 0~10(it doesn't make much sense beyond 10 reruns)
ফিউশন
xla_tpu_rwb_fusion
এই ফ্ল্যাগটি reduce+broadcast ধরনের ফিউশন সক্ষম করে এবং মেমরি ব্যবহার কমাতে পারে। xla_tpu_rwb_fusion=true xla_tpu_rwb_fusion=false xla_tpu_rwb_fusion=true/false
সময়সূচী নির্ধারক
xla_memory_scheduler
এই ফ্ল্যাগটি সেই অ্যালগরিদম নির্দিষ্ট করে যা মেমরি শিডিউলার মেমরি ব্যবহার কমানোর জন্য ব্যবহার করবে। আরও উন্নত অ্যালগরিদম ব্যবহার করলে কম মেমরি-ব্যয়কারী একটি শিডিউল পাওয়া যেতে পারে, তবে এর জন্য কম্পাইলেশনে বেশি সময় লাগতে পারে। xla_memory_scheduler=kDefault xla_memory_scheduler=kBrkga xla_memory_scheduler=kDefault/kList/kDfs/kPostOrder/kBrkga
সময়সূচী নির্ধারক
xla_tpu_enable_latency_hiding_scheduler
এই ফ্ল্যাগটি ল্যাটেন্সি-হাইডিং শিডিউলার সক্রিয় করে, যা আমাদের সিঙ্ক্রোনাস অপারেশনের পরিবর্তে অ্যাসিঙ্ক্রোনাস কালেক্টিভ অপারেশন সম্পাদন করতে দেয়। এটি নিষ্ক্রিয় করলে মেমরি ব্যবহার কমে, কিন্তু এর বিনিময়ে এই অ্যাসিঙ্ক্রোনাস অপারেশনগুলো থেকে প্রাপ্ত পারফরম্যান্সের সুবিধাগুলোও নষ্ট হয়ে যায়। xla_tpu_enable_latency_hiding_scheduler=true xla_tpu_enable_latency_hiding_scheduler=false xla_tpu_enable_latency_hiding_scheduler=true/false
এসপিএমডি
xla_jf_spmd_threshold_for_windowed_einsum_mib
এই ফ্ল্যাগটি কালেক্টিভ ম্যাটমাল ট্রিগার করার জন্য ডটের সর্বনিম্ন আকারের নিম্নসীমা নির্ধারণ করে। এটিকে উচ্চতর মানে সেট করলে মেমরি সাশ্রয় হবে, কিন্তু তার বিনিময়ে কালেক্টিভ ম্যাটমাল করার সুযোগ নষ্ট হবে। xla_jf_spmd_threshold_for_windowed_einsum_mib=-1 10Mb~1Gb (ie 10*1024*1024 ~ 1024*1024*1024) [0, 9223372036854775807]
সময়সূচী নির্ধারক
xla_gpu_enable_analytical_sol_latency_estimator
এই ফ্ল্যাগটি সেই অ্যানালিটিক্যাল এস্টিমেটরকে সক্রিয় করে যা জিপিইউ-তে কম্পিউট-কমিউনিকেশন ওভারল্যাপকে সর্বাধিক করে তোলে। xla_gpu_enable_analytical_sol_latency_estimator=true xla_gpu_enable_analytical_sol_latency_estimator=false true/false

অন্যান্য সাধারণভাবে ব্যবহৃত পতাকা

পতাকা প্রকার নোট
xla_dump_to স্ট্রিং (ফাইলের পথ) যে ফোল্ডারে প্রি-অপ্টিমাইজেশন HLO ফাইল এবং অন্যান্য আর্টিফ্যাক্ট রাখা হবে ( XLA টুলস দেখুন)।

টিপিইউ এক্সএলএ পতাকা

পতাকা প্রকার নোট
xla_tpu_enable_data_parallel_all_reduce_opt বুলিয়ান (সত্য/মিথ্যা) ডেটা প্যারালাল শার্ডিং-এর জন্য ব্যবহৃত ডিসিএন (ডেটা সেন্টার নেটওয়ার্কিং) অল-রিডিউস-এর ক্ষেত্রে ওভারল্যাপের সুযোগ বাড়ানোর জন্য অপটিমাইজেশন।
xla_tpu_data_parallel_opt_different_sized_ops বুলিয়ান (সত্য/মিথ্যা) একাধিক ইটারেশন জুড়ে ডেটা প্যারালাল অপারেশনগুলোর পাইপলাইনিং সক্ষম করে, এমনকি যদি তাদের আউটপুট সাইজ স্ট্যাক করা ভেরিয়েবলগুলোতে সংরক্ষণযোগ্য আকারের সাথে না মেলে। এটি মেমোরির উপর চাপ বাড়াতে পারে।
xla_tpu_spmd_rng_bit_generator_unsafe বুলিয়ান (সত্য/মিথ্যা) RngBitGenerator HLO-কে পার্টিশন করা পদ্ধতিতে চালানো হবে কিনা, যা অনিরাপদ যদি গণনার বিভিন্ন অংশে ভিন্ন ভিন্ন শার্ডিং ব্যবহার করে সুনির্দিষ্ট ফলাফল প্রত্যাশা করা হয়।
xla_tpu_megacore_fusion_allow_ags বুলিয়ান (সত্য/মিথ্যা) অল-গ্যাদারকে কনভোলিউশন/অল-রিডিউসের সাথে ফিউজ করার অনুমতি দেয়।
xla_tpu_enable_ag_backward_pipelining বুলিয়ান (সত্য/মিথ্যা) পাইপলাইনগুলো স্ক্যান লুপের মাধ্যমে সমস্ত সংগ্রহকে (বর্তমানে মেগাস্কেল সমস্ত সংগ্রহ) বিপরীত দিকে চালনা করে।

GPU XLA ফ্ল্যাগ

-O1 অপটিমাইজেশন লেভেলটি উন্নত GPU পারফরম্যান্সের জন্য অ্যাডভান্সড কম্পাইলার পাস সক্ষম করে, যার মধ্যে নিচে উল্লেখিত বিভিন্ন ক্যাটাগরির ফ্ল্যাগ অন্তর্ভুক্ত রয়েছে: ডেটা-প্যারালাল কালেক্টিভের পাইপলাইনিং ( xla_gpu_enable_pipelined_all_gather , xla_gpu_enable_pipelined_all_reduce , xla_gpu_enable_pipelined_reduce_scatter ), while লুপ আনরোলিং ( xla_gpu_enable_while_loop_double_buffering ), ল্যাটেন্সি হাইডিং শিডিউলিং ( xla_gpu_enable_latency_hiding_scheduler ), এবং Hopper/Blackwell-এ SOL ল্যাটেন্সি এস্টিমেটর ( xla_gpu_enable_analytical_sol_latency_estimator )। বিস্তারিত জানতে GPU Effort Levels দেখুন।

পতাকা প্রকার নোট
xla_gpu_enable_latency_hiding_scheduler বুলিয়ান (সত্য/মিথ্যা) এই ফ্ল্যাগটি ল্যাটেন্সি হাইডিং শিডিউলারকে দক্ষতার সাথে কম্পিউটেশনের সাথে অ্যাসিঙ্ক্রোনাস কমিউনিকেশন ওভারল্যাপ করতে সক্ষম করে। এর ডিফল্ট মান হলো False।
xla_gpu_enable_analytical_sol_latency_estimator বুলিয়ান (সত্য/মিথ্যা) প্ল্যাটফর্ম-নির্দিষ্ট সময়সূচী নির্ধারণের সিদ্ধান্ত গ্রহণে সক্ষম করে, যা ফলস্বরূপ গণনা ও যোগাযোগের ওভারল্যাপ উন্নত করে। এর ডিফল্ট মান হলো 'true'।
xla_gpu_analytical_latency_estimator_options কাঠামোগত স্ট্রিং xla_gpu_enable_analytical_sol_latency_estimator এর জন্য প্যারামিটার কনফিগার করে। nic_speed_gbps=$NIC_SPEED,nccl_op_launch_us=$LAUNCH_OVERHEAD,chunk_prep_us=$CHUNK_PREP,rtt_us=$RTT,chunk_size_bytes=$CHUNK_SIZE,gpus_per_node=$GPUS_PER_NODE সেট করে এটি অ্যাডজাস্ট করুন। ডিফল্ট মান শনাক্তকৃত প্ল্যাটফর্মের উপর নির্ভর করে।
xla_gpu_enable_triton_gemm বুলিয়ান (সত্য/মিথ্যা) ট্রাইটন-ভিত্তিক ম্যাট্রিক্স গুণন ব্যবহার করুন।
xla_gpu_enable_command_buffer CommandBufferCmdType-এর তালিকা কমান্ড বাফারে কোন ধরনের কমান্ডগুলো ধারণ করা উচিত।
xla_gpu_all_reduce_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) এই ফ্ল্যাগগুলো নির্ধারণ করে কখন একাধিক ছোট AllGather / ReduceScatter / AllReduce-কে একত্রিত করে একটি বড় AllGather / ReduceScatter / AllReduce তৈরি করতে হবে, যাতে বিভিন্ন ডিভাইসের মধ্যে যোগাযোগের জন্য ব্যয়িত সময় কমানো যায়। উদাহরণস্বরূপ, একটি Transformer-ভিত্তিক ওয়ার্কলোডের AllGather / ReduceScatter থ্রেশহোল্ডগুলো যথেষ্ট উঁচুতে টিউন করার কথা বিবেচনা করুন, যাতে অন্তত একটি Transformer Layer-এর ওয়েট AllGather / ReduceScatter-কে একত্রিত করা যায়। ডিফল্টরূপে, combine_threshold_bytes-এর মান 256 সেট করা থাকে।
xla_gpu_all_gather_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
xla_gpu_reduce_scatter_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
xla_gpu_enable_pipelined_all_gather বুলিয়ান (সত্য/মিথ্যা) সমস্ত গ্যাদার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_pipelined_reduce_scatter বুলিয়ান (সত্য/মিথ্যা) reduce-scatter নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_pipelined_all_reduce বুলিয়ান (সত্য/মিথ্যা) সমস্ত রিডিউস নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_pipelined_host_offloading বুলিয়ান (সত্য/মিথ্যা) হোস্ট অফলোডিং নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_while_loop_double_buffering বুলিয়ান (সত্য/মিথ্যা) while লুপের জন্য ডাবল-বাফারিং সক্রিয় করুন।
xla_gpu_enable_all_gather_combine_by_dim বুলিয়ান (সত্য/মিথ্যা) একই সংগ্রহ মাত্রা সহ অথবা মাত্রা নির্বিশেষে সমস্ত সংগ্রহ অপারেশন একত্রিত করুন।
xla_gpu_enable_reduce_scatter_combine_by_dim বুলিয়ান (সত্য/মিথ্যা) একই ডাইমেনশনের অথবা ডাইমেনশন নির্বিশেষে রিডিউস-স্ক্যাটার অপারেশনগুলোকে একত্রিত করুন।