এই নির্দেশিকাটি ব্যবহারকারীদের XLA এর ক্ষমতাগুলি কার্যকরভাবে নেভিগেট এবং ব্যবহার করতে সহায়তা করার জন্য গুরুত্বপূর্ণ XLA পতাকাগুলির একটি সংকলিত নির্বাচন অফার করে। নিম্নলিখিত বিভাগগুলিতে রানটাইম কর্মক্ষমতা এবং মেমরি ব্যবহারকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে এমন পতাকাগুলির বিশদ বিবরণ দেওয়া হয়েছে। একটি পতাকা সক্ষম করার পরে যদি ক্র্যাশের মতো কোনও সমস্যা দেখা দেয়, তবে ডিফল্ট সেটিংসে ফিরে যাওয়ার এবং একটি GitHub সমস্যা তৈরি করার পরামর্শ দেওয়া হচ্ছে।
সঠিকতা পতাকা
| পতাকা | বিবরণ | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
xla_mosaic_on_device_checks | এই ফ্ল্যাগটি মোজাইক কোডজেনের জন্য ডিভাইসে চেক সক্ষম করে। বর্তমানে, সমর্থিত চেকগুলি অন-বাউন্ডে রয়েছে, অর্থাৎ, যদি কোনও আউট-অফ-বাউন্ড মেমরি স্পর্শ করা হয়, তাহলে সংকলন/এক্সিকিউশন এটি ধরে ফেলবে। | xla_mosaic_on_device_checks=bounds | xla_mosaic_on_device_checks=bounds | xla_mosaic_on_device_checks=bounds |
পারফরম্যান্স পতাকা
রানটাইম কর্মক্ষমতা বৃদ্ধিতে নিম্নলিখিত ফ্ল্যাগগুলি গুরুত্বপূর্ণ ভূমিকা পালন করে। এই সেটিংসগুলি নিয়ে পরীক্ষা-নিরীক্ষা করলে কর্মক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি পেতে পারে।
| পতাকা | বিবরণ | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
| পাইপলাইনিং ১. xla_should_allow_loop_variant_parameter_in_chain২. xla_should_add_loop_invariant_op_in_chain৩. xla_tpu_enable_ici_ag_pipelining | ICI(Interchip-Interconnect) অল-গ্যাদার অপারেশনের যৌথ পাইপলাইনিং সক্ষম করার জন্য এই 3টি পতাকা একসাথে ব্যবহার করা উচিত, যা ওভারল্যাপিং সম্পাদনের জন্য আরও সুযোগ তৈরি করে। | ১. xla_should_allow_loop_variant_parameter_in_chain=kDisabled২. xla_should_add_loop_invariant_op_in_chain=kDisabled৩. xla_tpu_enable_ici_ag_pipelining=false | ১. xla_should_allow_loop_variant_parameter_in_chain=kEnabled২. xla_should_add_loop_invariant_op_in_chain=kEnabled৩. xla_tpu_enable_ici_ag_pipelining=true | ১. xla_should_allow_loop_variant_parameter_in_chain=kDisabled/kEnabled/kAuto২. xla_should_add_loop_invariant_op_in_chain=kDisabled/kEnabled/kAuto৩. xla_tpu_enable_ici_ag_pipelining=true/false |
v5e/অ্যাসিঙ্কxla_enable_async_all_gatherxla_tpu_enable_async_collective_fusionxla_tpu_enable_async_collective_fusion_fuse_all_gather | v5e-তে অ্যাসিঙ্ক্রোনাস অল-গ্যাদার অপারেশন সক্রিয় করার জন্য এই 3টি পতাকা একসাথে ব্যবহার করা উচিত। | xla_enable_async_all_gather=kAutoxla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_gather=true | xla_enable_async_all_gather=kAutoxla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_gather=true | xla_enable_async_all_gather=kDisabled/kEnabled/kAutoxla_tpu_enable_async_collective_fusion=true/falsexla_tpu_enable_async_collective_fusion_fuse_all_gather=true/false |
v5e/অ্যাসিঙ্কxla_tpu_enable_async_collective_fusionxla_tpu_enable_async_collective_fusion_fuse_all_reduce | v5e-তে অ্যাসিঙ্ক্রোনাস অল-রিডুস অপারেশন সক্রিয় করার জন্য এই 2টি পতাকা একসাথে ব্যবহার করা উচিত। | xla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_reduce=false | xla_tpu_enable_async_collective_fusion=truexla_tpu_enable_async_collective_fusion_fuse_all_reduce=true | xla_tpu_enable_async_collective_fusion=true/falsexla_tpu_enable_async_collective_fusion_fuse_all_reduce=true/false |
অ্যাসিঙ্কxla_tpu_enable_async_all_to_all | এই পতাকাটি অসিঙ্ক্রোনাস অল-টু-অল যোগাযোগ সক্ষম করে। | xla_tpu_enable_async_all_to_all=false | xla_tpu_enable_async_all_to_all=true | xla_tpu_enable_async_all_to_all=true/false |
বিলম্ব-আবদ্ধxla_all_gather_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-গ্যাদারের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_gather_latency_bound_threshold_in_bytes=-1(যা সক্রিয় নয়) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
বিলম্ব-আবদ্ধxla_all_reduce_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-রিডুসের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_reduce_latency_bound_threshold_in_bytes=-1(যা সক্রিয় নয়) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
বিলম্ব-আবদ্ধxla_collective_permute_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড কালেকটিভ-পারমিউটের জন্য এক্সিকিউশন সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_collective_permute_latency_bound_threshold_in_bytes=-1(যা সক্রিয় নয়) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
বিলম্ব-আবদ্ধxla_all_to_all_latency_bound_threshold_in_bytes | এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য তৈরি। এটি সক্ষম করলে নির্দিষ্ট অপ্টিমাইজেশন ট্রিগার হয় যা ল্যাটেন্সি-বাউন্ড অল-টু-অলের জন্য কার্যকর করার সময় কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়। | xla_all_to_all_latency_bound_threshold_in_bytes=-1(যা সক্রিয় নয়) | 4~16Mb(ie 4~16 * 1024 * 1024) | [0, 9223372036854775807] |
xla_enable_async_collective_permute | সমস্ত কালেকটিভ-পারমিউট অপারেশনগুলিকে তাদের অ্যাসিঙ্ক্রোনাস ভেরিয়েন্টে পুনর্লিখন করে। auto তে সেট করা হলে, XLA অন্যান্য কনফিগারেশন বা অবস্থার উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অ্যাসিঙ্ক কালেকটিভ চালু করতে পারে। | xla_enable_async_collective_permute=kAuto | xla_enable_async_collective_permute=kAuto | xla_enable_async_collective_permute=kAuto/kEnabled/kDisabled |
কম্পিউট কেন্দ্রিকxla_tpu_enable_dot_strength_reduction | এই পতাকাটি নন-কম্পিউট ইনটেনসিভ ডটগুলিকে গুণ + হ্রাস ক্রিয়াকলাপ হিসাবে পুনর্লিখন করে। | কম্পিউট কেন্দ্রিকxla_tpu_enable_dot_strength_reduction=true | xla_tpu_enable_dot_strength_reduction=true | xla_tpu_enable_dot_strength_reduction=true/false |
কম্পিউট কেন্দ্রিকxla_tpu_dot_dot_fusion | এই পতাকাটি ডট-ডট ফিউশন সক্ষম করে, যা একটি প্রযোজক-ডট অপারেশনকে একটি ভোক্তা-ডট অপারেশনের সাথে সংযুক্ত করে। এটি করার সময়, প্রযোজক-ডটের আউটপুট ধীর/প্রধান মেমোরিতে প্রদর্শিত হয় না যা মেমোরি ফুটপ্রিন্টকে ডাউন করে। | xla_tpu_dot_dot_fusion=true | xla_tpu_dot_dot_fusion=true | xla_tpu_dot_dot_fusion=true/false |
কম্পিউট কেন্দ্রিকxla_jf_enable_multi_output_fusion | এই পতাকাটি এমন ফিউশনগুলিকে সক্ষম করে যা একাধিক গ্রাহককে ফিউজ করে (অর্থাৎ ফলস্বরূপ ফিউশনের একাধিক আউটপুট থাকবে) | xla_jf_enable_multi_output_fusion=true | xla_jf_enable_multi_output_fusion=true | xla_jf_enable_multi_output_fusion=true/false |
কম্পিউট কেন্দ্রিকxla_tpu_scoped_vmem_limit_kib | এই ফ্ল্যাগটি কিলোবাইটে স্থানীয় ব্যবহারের জন্য প্রতি অপশনে উপলব্ধ স্ক্র্যাচপ্যাড VMEM এর পরিমাণ নির্ধারণ করে। বাকি VMEM বাফার স্পেস হিসেবে ব্যবহৃত হয়। | xla_tpu_scoped_vmem_limit_kib=16384 | xla_tpu_scoped_vmem_limit_kib=16384 | xla_tpu_scoped_vmem_limit_kib=[4096, VMEM size of the architecture - 1024] |
কম্পিউট কেন্দ্রিকxla_tpu_async_copy_bandwidth_scaling_factor | অ্যাসিঙ্ক কপির জন্য কার্যকর ব্যান্ডউইথ স্কেল করে। প্রিফেচ সিদ্ধান্ত নেওয়ার সময় এবং VMEM-এ কোন টেনসর থাকা উচিত তা নির্ধারণ করার সময় এটি ব্যবহার করা হয়। | xla_tpu_async_copy_bandwidth_scaling_factor=1 | xla_tpu_async_copy_bandwidth_scaling_factor=1 | xla_tpu_async_copy_bandwidth_scaling_factor=(0, 1] |
কম্পিউট কেন্দ্রিকxla_msa_enable_cross_program_prefetch_freeing | ক্রস-প্রোগ্রাম-প্রিফেটচড বাফারগুলির জন্য ফ্রিিং অপ্টিমাইজেশন সক্ষম করে। | xla_msa_enable_cross_program_prefetch_freeing=enabled | xla_msa_enable_cross_program_prefetch_freeing=enabled | xla_msa_enable_cross_program_prefetch_freeing=enabled/disabled |
কম্পিউট কেন্দ্রিকxla_tpu_msa_inefficient_use_to_copy_ratio | আমরা যে সাইটটিকে অদক্ষ বলে মনে করি তার নিচে বাইট কপি করার জন্য বাইট ব্যবহারের অনুপাত। VMEM প্লেসমেন্টের সিদ্ধান্ত নেওয়ার সময় এটি ব্যবহার করা হয়। 0 এর মান সমস্ত সাইটকে দক্ষ হিসাবে বিবেচনা করবে এবং 1 এর মানের জন্য সাইটে ব্যবহৃত বাইটের পরিমাণ কমপক্ষে অ্যাসিঙ্ক কপি বাইটের সমান হতে হবে। | xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 | xla_tpu_msa_inefficient_use_to_copy_ratio=0.5 | xla_tpu_msa_inefficient_use_to_copy_ratio=[0, 1] |
স্মৃতি পতাকা
নীচে তালিকাভুক্ত ফ্ল্যাগগুলি HBM-সম্পর্কিত সমস্যাগুলি সমাধানের জন্য সরবরাহ করা হয়েছে। মডেল সংকলনের সময় যদি আপনি HBM "মেমরির বাইরে" ত্রুটির সম্মুখীন হন তবেই এগুলি সামঞ্জস্য করা উচিত। অন্যান্য সমস্ত পরিস্থিতিতে, ডিফল্ট মানগুলি সুপারিশ করা হয়, কারণ সেগুলি পরিবর্তন করলে কর্মক্ষমতা বিরূপভাবে প্রভাবিত হতে পারে।
| পতাকা | বিবরণ | ডিফল্ট মান | প্রস্তাবিত মান | প্রার্থীর মূল্যবোধ |
|---|---|---|---|---|
সময়সূচীকারীxla_latency_hiding_scheduler_rerun | এই সেটিংটি ল্যাটেন্সি-লুকানোর সময়সূচীর আচরণ সামঞ্জস্য করে। এটি প্রক্রিয়াটির প্রতিটি "পুনরায় চালানোর" সাথে সময়সূচীর জন্য বরাদ্দকৃত মেমরি সীমা ক্রমবর্ধমানভাবে হ্রাস করে কাজ করে। | xla_latency_hiding_scheduler_rerun=1 | xla_latency_hiding_scheduler_rerun=5 | 0~10(it doesn't make much sense beyond 10 reruns) |
ফিউশনxla_tpu_rwb_fusion | এই ফ্ল্যাগটি রিডুস+ব্রডকাস্ট ধরণের ফিউশন সক্ষম করে এবং মেমরির ব্যবহার কমাতে পারে। | xla_tpu_rwb_fusion=true | xla_tpu_rwb_fusion=false | xla_tpu_rwb_fusion=true/false |
সময়সূচীকারীxla_memory_scheduler | এই পতাকাটি মেমোরি শিডিউলার মেমোরি খরচ কমাতে যে অ্যালগরিদম ব্যবহার করবে তা নির্দিষ্ট করে। আরও উন্নত অ্যালগরিদম ব্যবহার করলে কম মেমোরি খরচের সময়সূচী পাওয়া যেতে পারে, যার ফলে দীর্ঘ সংকলন সময় ব্যয় হতে পারে। | xla_memory_scheduler=kDefault | xla_memory_scheduler=kBrkga | xla_memory_scheduler=kDefault/kList/kDfs/kPostOrder/kBrkga |
সময়সূচীকারীxla_tpu_enable_latency_hiding_scheduler | এই ফ্ল্যাগটি ল্যাটেন্সি-লুকানোর সময়সূচী সক্ষম করে, যা আমাদের সিঙ্ক্রোনাসগুলির পরিবর্তে অ্যাসিঙ্ক্রোনাস কালেকটিভ সম্পাদন করতে দেয়। এটি অক্ষম করলে মেমরির ব্যবহার হ্রাস পায় এবং এই অ্যাসিঙ্ক্রোনাস ক্রিয়াকলাপগুলি থেকে কর্মক্ষমতা লাভ হারাতে হয়। | xla_tpu_enable_latency_hiding_scheduler=true | xla_tpu_enable_latency_hiding_scheduler=false | xla_tpu_enable_latency_hiding_scheduler=true/false |
এসপিএমডিxla_jf_spmd_threshold_for_windowed_einsum_mib | এই পতাকাটি যৌথ ম্যাটমুল ট্রিগার করার জন্য ডটের সর্বনিম্ন আকারের নিম্নতম থ্রেশহোল্ড সেট করে। এটিকে উচ্চতর মানের সেট করলে যৌথ ম্যাটমুল সম্পাদনের সুযোগ হারানোর বিনিময়ে মেমরি সাশ্রয় হবে। | xla_jf_spmd_threshold_for_windowed_einsum_mib=-1 | 10Mb~1Gb (ie 10*1024*1024 ~ 1024*1024*1024) | [0, 9223372036854775807] |
সময়সূচীকারীxla_gpu_enable_analytical_sol_latency_estimator | এই পতাকাটি বিশ্লেষণাত্মক অনুমানকারীকে সক্ষম করে যা GPU-তে কম্পিউট-যোগাযোগ ওভারল্যাপ সর্বাধিক করে। | xla_gpu_enable_analytical_sol_latency_estimator=true | xla_gpu_enable_analytical_sol_latency_estimator=false | true/false |
অন্যান্য সাধারণভাবে ব্যবহৃত পতাকা
| পতাকা | আদর্শ | মন্তব্য |
|---|---|---|
xla_dump_to | স্ট্রিং (ফাইলপথ) | যে ফোল্ডারে প্রি-অপ্টিমাইজেশন HLO ফাইল এবং অন্যান্য আর্টিফ্যাক্ট রাখা হবে ( XLA টুলস দেখুন)। |
TPU XLA পতাকা
| পতাকা | আদর্শ | মন্তব্য |
|---|---|---|
xla_tpu_enable_data_parallel_all_reduce_opt | বুলিয়ান (সত্য/মিথ্যা) | ডেটা প্যারালাল শারডিংয়ের জন্য ব্যবহৃত DCN (ডেটা সেন্টার নেটওয়ার্কিং) অল-রিডুসের জন্য ওভারল্যাপ সুযোগ বাড়ানোর জন্য অপ্টিমাইজেশন। |
xla_tpu_data_parallel_opt_different_sized_ops | বুলিয়ান (সত্য/মিথ্যা) | একাধিক পুনরাবৃত্তি জুড়ে ডেটা সমান্তরাল অপারেশনের পাইপলাইনিং সক্ষম করে, এমনকি যদি তাদের আউটপুট আকার স্ট্যাক করা ভেরিয়েবলগুলিতে সংরক্ষণ করা যেতে পারে তার সাথে মেলে না। মেমরি চাপ বৃদ্ধি করতে পারে। |
xla_tpu_spmd_rng_bit_generator_unsafe | বুলিয়ান (সত্য/মিথ্যা) | RngBitGenerator HLO কে পার্টিশন করা পদ্ধতিতে চালানো হবে কিনা, যা অনিরাপদ যদি গণনার বিভিন্ন অংশে বিভিন্ন শারডিং সহ নির্ধারক ফলাফল প্রত্যাশিত হয়। |
xla_tpu_megacore_fusion_allow_ags | বুলিয়ান (সত্য/মিথ্যা) | অল-গ্যাদারকে কনভলিউশন/অল-রিডিউসের সাথে ফিউজ করার অনুমতি দেয়। |
xla_tpu_enable_ag_backward_pipelining | বুলিয়ান (সত্য/মিথ্যা) | স্ক্যান লুপের মাধ্যমে অল-গ্যাদার (বর্তমানে মেগাস্কেল অল-গ্যাদার) পাইপলাইনগুলি পিছনের দিকে প্রেরণ করা হয়। |
GPU XLA ফ্ল্যাগ
-O1 অপ্টিমাইজেশন লেভেল উন্নত GPU কর্মক্ষমতা প্রদানের জন্য উন্নত কম্পাইলার পাস সক্ষম করে, যার মধ্যে রয়েছে নীচের কয়েকটি বিভাগের ফ্ল্যাগ: ডেটা-প্যারালাল কালেক্টিভের পাইপলাইনিং ( xla_gpu_enable_pipelined_all_gather , xla_gpu_enable_pipelined_all_reduce , xla_gpu_enable_pipelined_reduce_scatter ), while loop unrolling ( xla_gpu_enable_while_loop_double_buffering ), latency hiding scheduling ( xla_gpu_enable_latency_hiding_scheduler ), এবং Hopper/Blackwell ( xla_gpu_enable_analytical_sol_latency_estimator ) এ SOL latency estimator। বিস্তারিত জানার জন্য GPU Effort লেভেল দেখুন।
| পতাকা | আদর্শ | মন্তব্য |
|---|---|---|
xla_gpu_enable_latency_hiding_scheduler | বুলিয়ান (সত্য/মিথ্যা) | এই ফ্ল্যাগটি ল্যাটেন্সি লুকানোর সময়সূচীগুলিকে অ্যাসিঙ্ক্রোনাস যোগাযোগকে দক্ষতার সাথে গণনার সাথে ওভারল্যাপ করতে সক্ষম করে। ডিফল্ট মান হল False। |
xla_gpu_enable_analytical_sol_latency_estimator | বুলিয়ান (সত্য/মিথ্যা) | প্ল্যাটফর্ম-নির্দিষ্ট সময়সূচী সিদ্ধান্তগুলি সক্ষম করে, যা ফলস্বরূপ কম্পিউট-যোগাযোগ ওভারল্যাপ উন্নত করে। ডিফল্ট মান সত্য। |
xla_gpu_analytical_latency_estimator_options | স্ট্রাকচার্ড স্ট্রিং | xla_gpu_enable_analytical_sol_latency_estimator এর জন্য প্যারামিটার কনফিগার করে। nic_speed_gbps=$NIC_SPEED,nccl_op_launch_us=$LAUNCH_OVERHEAD,chunk_prep_us=$CHUNK_PREP,rtt_us=$RTT,chunk_size_bytes=$CHUNK_SIZE,gpus_per_node=$GPUS_PER_NODE সেট করে সামঞ্জস্য করুন। ডিফল্ট মান একটি সনাক্ত করা প্ল্যাটফর্মের উপর নির্ভর করে। |
xla_gpu_enable_triton_gemm | বুলিয়ান (সত্য/মিথ্যা) | ট্রাইটন-ভিত্তিক ম্যাট্রিক্স গুণ ব্যবহার করুন। |
xla_gpu_enable_command_buffer | কমান্ডবাফারসিএমডিটাইপের তালিকা | কমান্ড বাফারে কোন ধরণের কমান্ড ক্যাপচার করা উচিত। |
xla_gpu_all_reduce_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | এই ফ্ল্যাগগুলি একাধিক ছোট AllGather / ReduceScatter / AllReduce কে একটি বড় AllGather / ReduceScatter / AllReduce এ একত্রিত করার সময় টিউন করে যাতে ক্রস-ডিভাইস যোগাযোগে ব্যয় করা সময় কমানো যায়। উদাহরণস্বরূপ, ট্রান্সফরমার-ভিত্তিক ওয়ার্কলোডে AllGather / ReduceScatter থ্রেশহোল্ডের জন্য, এগুলিকে যথেষ্ট উচ্চ টিউন করার কথা বিবেচনা করুন যাতে কমপক্ষে একটি ট্রান্সফরমার স্তরের ওজন AllGather / ReduceScatter একত্রিত করা যায়। ডিফল্টরূপে, combine_threshold_bytes 256 এ সেট করা থাকে। |
xla_gpu_all_gather_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন। |
xla_gpu_reduce_scatter_combine_threshold_bytes | পূর্ণসংখ্যা (বাইট) | উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন। |
xla_gpu_enable_pipelined_all_gather | বুলিয়ান (সত্য/মিথ্যা) | অল-গেদার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_pipelined_reduce_scatter | বুলিয়ান (সত্য/মিথ্যা) | রিডুস-স্ক্যাটার নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_pipelined_all_reduce | বুলিয়ান (সত্য/মিথ্যা) | অল-রিডিউস নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন। |
xla_gpu_enable_while_loop_double_buffering | বুলিয়ান (সত্য/মিথ্যা) | while লুপের জন্য ডাবল-বাফারিং সক্ষম করুন। |
xla_gpu_enable_all_gather_combine_by_dim | বুলিয়ান (সত্য/মিথ্যা) | একই সংগ্রহের মাত্রা সহ অথবা তাদের মাত্রা নির্বিশেষে অল-গ্যাদার অপারেশনগুলিকে একত্রিত করুন। |
xla_gpu_enable_reduce_scatter_combine_by_dim | বুলিয়ান (সত্য/মিথ্যা) | একই মাত্রার সাথে অথবা তাদের মাত্রা নির্বিশেষে রিডুস-স্ক্যাটার অপশনগুলিকে একত্রিত করুন। |