XLA পতাকা নির্দেশিকা

এই নির্দেশিকাটি ব্যবহারকারীদের XLA এর ক্ষমতাগুলি কার্যকরভাবে নেভিগেট এবং ব্যবহার করতে সহায়তা করার জন্য গুরুত্বপূর্ণ XLA পতাকাগুলির একটি সংকলিত নির্বাচন অফার করে। নিম্নলিখিত বিভাগগুলিতে রানটাইম কর্মক্ষমতা এবং মেমরি ব্যবহারকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে এমন পতাকাগুলির বিশদ বিবরণ দেওয়া হয়েছে। একটি পতাকা সক্ষম করার পরে যদি ক্র্যাশের মতো কোনও সমস্যা দেখা দেয়, তবে ডিফল্ট সেটিংসে ফিরে যাওয়ার এবং একটি GitHub সমস্যা তৈরি করার পরামর্শ দেওয়া হচ্ছে।

সঠিকতা পতাকা

পতাকা বিবরণ ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
xla_mosaic_on_device_checks এই ফ্ল্যাগটি মোজাইক কোডজেনের জন্য ডিভাইসে চেক সক্ষম করে। বর্তমানে, সমর্থিত চেকগুলি অন-বাউন্ডে রয়েছে, অর্থাৎ, যদি কোনও আউট-অফ-বাউন্ড মেমরি স্পর্শ করা হয়, তাহলে সংকলন/এক্সিকিউশন এটি ধরে ফেলবে। xla_mosaic_on_device_checks=bounds xla_mosaic_on_device_checks=bounds xla_mosaic_on_device_checks=bounds

পারফরম্যান্স পতাকা

রানটাইম কর্মক্ষমতা বৃদ্ধিতে নিম্নলিখিত ফ্ল্যাগগুলি গুরুত্বপূর্ণ ভূমিকা পালন করে। এই সেটিংসগুলি নিয়ে পরীক্ষা-নিরীক্ষা করলে কর্মক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি পেতে পারে।

পতাকা বিবরণ ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
পাইপলাইনিং
১. xla_should_allow_loop_variant_parameter_in_chain
২. xla_should_add_loop_invariant_op_in_chain
৩. xla_tpu_enable_ici_ag_pipelining
ICI(Interchip-Interconnect) অল-গ্যাদার অপারেশনের যৌথ পাইপলাইনিং সক্ষম করার জন্য এই 3টি পতাকা একসাথে ব্যবহার করা উচিত, যা ওভারল্যাপিং সম্পাদনের জন্য আরও সুযোগ তৈরি করে। ১. xla_should_allow_loop_variant_parameter_in_chain=kDisabled
২. xla_should_add_loop_invariant_op_in_chain=kDisabled
৩. xla_tpu_enable_ici_ag_pipelining=false
১. xla_should_allow_loop_variant_parameter_in_chain=kEnabled
২. xla_should_add_loop_invariant_op_in_chain=kEnabled
৩. xla_tpu_enable_ici_ag_pipelining=true
১. xla_should_allow_loop_variant_parameter_in_chain=kDisabled/kEnabled/kAuto
২. xla_should_add_loop_invariant_op_in_chain=kDisabled/kEnabled/kAuto
৩. xla_tpu_enable_ici_ag_pipelining=true/false
v5e/অ্যাসিঙ্ক
xla_enable_async_all_gather
xla_tpu_enable_async_collective_fusion
xla_tpu_enable_async_collective_fusion_fuse_all_gather
v5e-তে অ্যাসিঙ্ক্রোনাস অল-গ্যাদার অপারেশন সক্রিয় করার জন্য এই 3টি পতাকা একসাথে ব্যবহার করা উচিত। xla_enable_async_all_gather=kAuto
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true
xla_enable_async_all_gather=kAuto
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true
xla_enable_async_all_gather=kDisabled/kEnabled/kAuto
xla_tpu_enable_async_collective_fusion=true/false
xla_tpu_enable_async_collective_fusion_fuse_all_gather=true/false
v5e/অ্যাসিঙ্ক
xla_tpu_enable_async_collective_fusion
xla_tpu_enable_async_collective_fusion_fuse_all_reduce
v5e-তে অ্যাসিঙ্ক্রোনাস অল-রিডুস অপারেশন সক্রিয় করার জন্য এই 2টি পতাকা একসাথে ব্যবহার করা উচিত। xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=false
xla_tpu_enable_async_collective_fusion=true
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true
xla_tpu_enable_async_collective_fusion=true/false
xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true/false
অ্যাসিঙ্ক
xla_tpu_enable_async_all_to_all
এই পতাকাটি অসিঙ্ক্রোনাস অল-টু-অল যোগাযোগ সক্ষম করে। xla_tpu_enable_async_all_to_all=false xla_tpu_enable_async_all_to_all=true xla_tpu_enable_async_all_to_all=true/false
বিলম্ব-আবদ্ধ
xla_all_gather_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-গ্যাদারের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_gather_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় নয়)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
বিলম্ব-আবদ্ধ
xla_all_reduce_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-রিডুসের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_reduce_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় নয়)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
বিলম্ব-আবদ্ধ
xla_collective_permute_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড কালেকটিভ-পারমিউটের জন্য এক্সিকিউশন সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_collective_permute_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় নয়)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
বিলম্ব-আবদ্ধ
xla_all_to_all_latency_bound_threshold_in_bytes
এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-টু-অলের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। xla_all_to_all_latency_bound_threshold_in_bytes=-1
(যা সক্রিয় নয়)
4~16Mb(ie 4~16 * 1024 * 1024) [0, 9223372036854775807]
xla_enable_async_collective_permute সমস্ত কালেকটিভ-পারমিউট অপারেশনগুলিকে তাদের অ্যাসিঙ্ক্রোনাস ভেরিয়েন্টে পুনর্লিখন করে। auto তে সেট করা হলে, XLA অন্যান্য কনফিগারেশন বা অবস্থার উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অ্যাসিঙ্ক কালেকটিভ চালু করতে পারে। xla_enable_async_collective_permute=kAuto xla_enable_async_collective_permute=kAuto xla_enable_async_collective_permute=kAuto/kEnabled/kDisabled
কম্পিউট কেন্দ্রিক
xla_tpu_enable_dot_strength_reduction
এই পতাকাটি নন-কম্পিউট ইনটেনসিভ ডটগুলিকে গুণ + হ্রাস ক্রিয়াকলাপ হিসাবে পুনর্লিখন করে। কম্পিউট কেন্দ্রিক
xla_tpu_enable_dot_strength_reduction=true
xla_tpu_enable_dot_strength_reduction=true xla_tpu_enable_dot_strength_reduction=true/false
কম্পিউট কেন্দ্রিক
xla_tpu_dot_dot_fusion
এই পতাকাটি ডট-ডট ফিউশন সক্ষম করে, যা একটি প্রযোজক-ডট অপারেশনকে একটি ভোক্তা-ডট অপারেশনের সাথে সংযুক্ত করে। এটি করার সময়, প্রযোজক-ডটের আউটপুট ধীর/প্রধান মেমোরিতে প্রদর্শিত হয় না যা মেমোরি ফুটপ্রিন্টকে ডাউন করে। xla_tpu_dot_dot_fusion=true xla_tpu_dot_dot_fusion=true xla_tpu_dot_dot_fusion=true/false
কম্পিউট কেন্দ্রিক
xla_jf_enable_multi_output_fusion
এই পতাকাটি এমন ফিউশনগুলিকে সক্ষম করে যা একাধিক গ্রাহককে ফিউজ করে (অর্থাৎ ফলস্বরূপ ফিউশনের একাধিক আউটপুট থাকবে) xla_jf_enable_multi_output_fusion=true xla_jf_enable_multi_output_fusion=true xla_jf_enable_multi_output_fusion=true/false
কম্পিউট কেন্দ্রিক
xla_tpu_scoped_vmem_limit_kib
এই ফ্ল্যাগটি কিলোবাইটে স্থানীয় ব্যবহারের জন্য প্রতি অপশনে উপলব্ধ স্ক্র্যাচপ্যাড VMEM এর পরিমাণ নির্ধারণ করে। বাকি VMEM বাফার স্পেস হিসেবে ব্যবহৃত হয়। xla_tpu_scoped_vmem_limit_kib=16384 xla_tpu_scoped_vmem_limit_kib=16384 xla_tpu_scoped_vmem_limit_kib=[4096, VMEM size of the architecture - 1024]
কম্পিউট কেন্দ্রিক
xla_tpu_async_copy_bandwidth_scaling_factor
অ্যাসিঙ্ক কপির জন্য কার্যকর ব্যান্ডউইথ স্কেল করে। প্রিফেচ সিদ্ধান্ত নেওয়ার সময় এবং VMEM-এ কোন টেনসর থাকা উচিত তা নির্ধারণ করার সময় এটি ব্যবহার করা হয়। xla_tpu_async_copy_bandwidth_scaling_factor=1 xla_tpu_async_copy_bandwidth_scaling_factor=1 xla_tpu_async_copy_bandwidth_scaling_factor=(0, 1]
কম্পিউট কেন্দ্রিক
xla_msa_enable_cross_program_prefetch_freeing
ক্রস-প্রোগ্রাম-প্রিফেটচড বাফারগুলির জন্য ফ্রিিং অপ্টিমাইজেশন সক্ষম করে। xla_msa_enable_cross_program_prefetch_freeing=enabled xla_msa_enable_cross_program_prefetch_freeing=enabled xla_msa_enable_cross_program_prefetch_freeing=enabled/disabled
কম্পিউট কেন্দ্রিক
xla_tpu_msa_inefficient_use_to_copy_ratio
আমরা যে সাইটটিকে অদক্ষ বলে মনে করি তার নিচে বাইট কপি করার জন্য বাইট ব্যবহারের অনুপাত। VMEM প্লেসমেন্টের সিদ্ধান্ত নেওয়ার সময় এটি ব্যবহার করা হয়। 0 এর মান সমস্ত সাইটকে দক্ষ হিসাবে বিবেচনা করবে এবং 1 এর মানের জন্য সাইটে ব্যবহৃত বাইটের পরিমাণ কমপক্ষে অ্যাসিঙ্ক কপি বাইটের সমান হতে হবে। xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 xla_tpu_msa_inefficient_use_to_copy_ratio=[0, 1]

স্মৃতি পতাকা

নীচে তালিকাভুক্ত ফ্ল্যাগগুলি HBM-সম্পর্কিত সমস্যাগুলি সমাধানের জন্য সরবরাহ করা হয়েছে। মডেল সংকলনের সময় যদি আপনি HBM "মেমরির বাইরে" ত্রুটির সম্মুখীন হন তবেই এগুলি সামঞ্জস্য করা উচিত। অন্যান্য সমস্ত পরিস্থিতিতে, ডিফল্ট মানগুলি সুপারিশ করা হয়, কারণ সেগুলি পরিবর্তন করলে কর্মক্ষমতা বিরূপভাবে প্রভাবিত হতে পারে।

পতাকা বিবরণ ডিফল্ট মান প্রস্তাবিত মান প্রার্থীর মূল্যবোধ
সময়সূচীকারী
xla_latency_hiding_scheduler_rerun
এই সেটিংটি ল্যাটেন্সি-লুকানোর সময়সূচীর আচরণ সামঞ্জস্য করে। এটি প্রক্রিয়াটির প্রতিটি "পুনরায় চালানোর" সাথে সময়সূচীর জন্য বরাদ্দকৃত মেমরি সীমা ক্রমবর্ধমানভাবে হ্রাস করে কাজ করে। xla_latency_hiding_scheduler_rerun=1 xla_latency_hiding_scheduler_rerun=5 0~10(it doesn't make much sense beyond 10 reruns)
ফিউশন
xla_tpu_rwb_fusion
এই ফ্ল্যাগটি রিডুস+ব্রডকাস্ট ধরণের ফিউশন সক্ষম করে এবং মেমরির ব্যবহার কমাতে পারে। xla_tpu_rwb_fusion=true xla_tpu_rwb_fusion=false xla_tpu_rwb_fusion=true/false
সময়সূচীকারী
xla_memory_scheduler
এই পতাকাটি মেমোরি শিডিউলার মেমোরি খরচ কমাতে যে অ্যালগরিদম ব্যবহার করবে তা নির্দিষ্ট করে। আরও উন্নত অ্যালগরিদম ব্যবহার করলে কম মেমোরি খরচের সময়সূচী পাওয়া যেতে পারে, যার ফলে দীর্ঘ সংকলন সময় ব্যয় হতে পারে। xla_memory_scheduler=kDefault xla_memory_scheduler=kBrkga xla_memory_scheduler=kDefault/kList/kDfs/kPostOrder/kBrkga
সময়সূচীকারী
xla_tpu_enable_latency_hiding_scheduler
এই ফ্ল্যাগটি ল্যাটেন্সি-লুকানোর সময়সূচী সক্ষম করে, যা আমাদের সিঙ্ক্রোনাসগুলির পরিবর্তে অ্যাসিঙ্ক্রোনাস কালেকটিভ সম্পাদন করতে দেয়। এটি অক্ষম করলে মেমরির ব্যবহার হ্রাস পায় এবং এই অ্যাসিঙ্ক্রোনাস ক্রিয়াকলাপগুলি থেকে কর্মক্ষমতা লাভ হারাতে হয়। xla_tpu_enable_latency_hiding_scheduler=true xla_tpu_enable_latency_hiding_scheduler=false xla_tpu_enable_latency_hiding_scheduler=true/false
এসপিএমডি
xla_jf_spmd_threshold_for_windowed_einsum_mib
এই পতাকাটি যৌথ ম্যাটমুল ট্রিগার করার জন্য ডটের সর্বনিম্ন আকারের নিম্নতম থ্রেশহোল্ড সেট করে। এটিকে উচ্চতর মানের সেট করলে যৌথ ম্যাটমুল সম্পাদনের সুযোগ হারানোর বিনিময়ে মেমরি সাশ্রয় হবে। xla_jf_spmd_threshold_for_windowed_einsum_mib=-1 10Mb~1Gb (ie 10*1024*1024 ~ 1024*1024*1024) [0, 9223372036854775807]
সময়সূচীকারী
xla_gpu_enable_analytical_sol_latency_estimator
এই পতাকাটি বিশ্লেষণাত্মক অনুমানকারীকে সক্ষম করে যা GPU-তে কম্পিউট-যোগাযোগ ওভারল্যাপ সর্বাধিক করে। xla_gpu_enable_analytical_sol_latency_estimator=true xla_gpu_enable_analytical_sol_latency_estimator=false true/false

অন্যান্য সাধারণভাবে ব্যবহৃত পতাকা

পতাকা আদর্শ মন্তব্য
xla_dump_to স্ট্রিং (ফাইলপথ) যে ফোল্ডারে প্রি-অপ্টিমাইজেশন HLO ফাইল এবং অন্যান্য আর্টিফ্যাক্ট রাখা হবে ( XLA টুলস দেখুন)।

TPU XLA পতাকা

পতাকা আদর্শ মন্তব্য
xla_tpu_enable_data_parallel_all_reduce_opt বুলিয়ান (সত্য/মিথ্যা) ডেটা প্যারালাল শারডিংয়ের জন্য ব্যবহৃত DCN (ডেটা সেন্টার নেটওয়ার্কিং) অল-রিডুসের জন্য ওভারল্যাপ সুযোগ বাড়ানোর জন্য অপ্টিমাইজেশন।
xla_tpu_data_parallel_opt_different_sized_ops বুলিয়ান (সত্য/মিথ্যা) একাধিক পুনরাবৃত্তি জুড়ে ডেটা সমান্তরাল অপারেশনের পাইপলাইনিং সক্ষম করে, এমনকি যদি তাদের আউটপুট আকার স্ট্যাক করা ভেরিয়েবলগুলিতে সংরক্ষণ করা যেতে পারে তার সাথে মেলে না। মেমরি চাপ বৃদ্ধি করতে পারে।
xla_tpu_spmd_rng_bit_generator_unsafe বুলিয়ান (সত্য/মিথ্যা) RngBitGenerator HLO কে পার্টিশন করা পদ্ধতিতে চালানো হবে কিনা, যা অনিরাপদ যদি গণনার বিভিন্ন অংশে বিভিন্ন শারডিং সহ নির্ধারক ফলাফল প্রত্যাশিত হয়।
xla_tpu_megacore_fusion_allow_ags বুলিয়ান (সত্য/মিথ্যা) অল-গ্যাদারকে কনভলিউশন/অল-রিডিউসের সাথে ফিউজ করার অনুমতি দেয়।
xla_tpu_enable_ag_backward_pipelining বুলিয়ান (সত্য/মিথ্যা) স্ক্যান লুপের মাধ্যমে অল-গ্যাদার (বর্তমানে মেগাস্কেল অল-গ্যাদার) পাইপলাইনগুলি পিছনের দিকে প্রেরণ করা হয়।

GPU XLA ফ্ল্যাগ

-O1 অপ্টিমাইজেশন লেভেল উন্নত GPU কর্মক্ষমতা প্রদানের জন্য উন্নত কম্পাইলার পাস সক্ষম করে, যার মধ্যে রয়েছে নীচের কয়েকটি বিভাগের ফ্ল্যাগ: ডেটা-প্যারালাল কালেক্টিভের পাইপলাইনিং ( xla_gpu_enable_pipelined_all_gather , xla_gpu_enable_pipelined_all_reduce , xla_gpu_enable_pipelined_reduce_scatter ), while loop unrolling ( xla_gpu_enable_while_loop_double_buffering ), latency hiding scheduling ( xla_gpu_enable_latency_hiding_scheduler ), এবং Hopper/Blackwell ( xla_gpu_enable_analytical_sol_latency_estimator ) এ SOL latency estimator। বিস্তারিত জানার জন্য GPU Effort লেভেল দেখুন।

পতাকা আদর্শ মন্তব্য
xla_gpu_enable_latency_hiding_scheduler বুলিয়ান (সত্য/মিথ্যা) এই ফ্ল্যাগটি ল্যাটেন্সি লুকানোর সময়সূচীগুলিকে অ্যাসিঙ্ক্রোনাস যোগাযোগকে দক্ষতার সাথে গণনার সাথে ওভারল্যাপ করতে সক্ষম করে। ডিফল্ট মান হল False।
xla_gpu_enable_analytical_sol_latency_estimator বুলিয়ান (সত্য/মিথ্যা) প্ল্যাটফর্ম-নির্দিষ্ট সময়সূচী সিদ্ধান্তগুলি সক্ষম করে, যা ফলস্বরূপ কম্পিউট-যোগাযোগ ওভারল্যাপ উন্নত করে। ডিফল্ট মান সত্য।
xla_gpu_analytical_latency_estimator_options স্ট্রাকচার্ড স্ট্রিং xla_gpu_enable_analytical_sol_latency_estimator এর জন্য প্যারামিটার কনফিগার করে। nic_speed_gbps=$NIC_SPEED,nccl_op_launch_us=$LAUNCH_OVERHEAD,chunk_prep_us=$CHUNK_PREP,rtt_us=$RTT,chunk_size_bytes=$CHUNK_SIZE,gpus_per_node=$GPUS_PER_NODE সেট করে সামঞ্জস্য করুন। ডিফল্ট মান একটি সনাক্ত করা প্ল্যাটফর্মের উপর নির্ভর করে।
xla_gpu_enable_triton_gemm বুলিয়ান (সত্য/মিথ্যা) ট্রাইটন-ভিত্তিক ম্যাট্রিক্স গুণ ব্যবহার করুন।
xla_gpu_enable_command_buffer কমান্ডবাফারসিএমডিটাইপের তালিকা কমান্ড বাফারে কোন ধরণের কমান্ড ক্যাপচার করা উচিত।
xla_gpu_all_reduce_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) এই ফ্ল্যাগগুলি একাধিক ছোট AllGather / ReduceScatter / AllReduce কে একটি বড় AllGather / ReduceScatter / AllReduce এ একত্রিত করার সময় টিউন করে যাতে ক্রস-ডিভাইস যোগাযোগে ব্যয় করা সময় কমানো যায়। উদাহরণস্বরূপ, ট্রান্সফরমার-ভিত্তিক ওয়ার্কলোডে AllGather / ReduceScatter থ্রেশহোল্ডের জন্য, এগুলিকে যথেষ্ট উচ্চ টিউন করার কথা বিবেচনা করুন যাতে কমপক্ষে একটি ট্রান্সফরমার স্তরের ওজন AllGather / ReduceScatter একত্রিত করা যায়। ডিফল্টরূপে, combine_threshold_bytes 256 এ সেট করা থাকে।
xla_gpu_all_gather_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
xla_gpu_reduce_scatter_combine_threshold_bytes পূর্ণসংখ্যা (বাইট) উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
xla_gpu_enable_pipelined_all_gather বুলিয়ান (সত্য/মিথ্যা) অল-গেদার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_pipelined_reduce_scatter বুলিয়ান (সত্য/মিথ্যা) রিডুস-স্ক্যাটার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_pipelined_all_reduce বুলিয়ান (সত্য/মিথ্যা) অল-রিডিউস নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
xla_gpu_enable_while_loop_double_buffering বুলিয়ান (সত্য/মিথ্যা) while লুপের জন্য ডাবল-বাফারিং সক্ষম করুন।
xla_gpu_enable_all_gather_combine_by_dim বুলিয়ান (সত্য/মিথ্যা) একই সংগ্রহের মাত্রা সহ অথবা তাদের মাত্রা নির্বিশেষে অল-গ্যাদার অপারেশনগুলিকে একত্রিত করুন।
xla_gpu_enable_reduce_scatter_combine_by_dim বুলিয়ান (সত্য/মিথ্যা) একই মাত্রার সাথে অথবা তাদের মাত্রা নির্বিশেষে রিডুস-স্ক্যাটার অপশনগুলিকে একত্রিত করুন।