এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

XLA পতাকা নির্দেশিকা

এই নির্দেশিকাটি ব্যবহারকারীদের XLA-এর কার্যকারিতা কার্যকরভাবে পরিচালনা ও ব্যবহারে সহায়তা করার জন্য নির্বাচিত কিছু গুরুত্বপূর্ণ XLA ফ্ল্যাগ উপস্থাপন করে। নিম্নলিখিত বিভাগগুলিতে এমন ফ্ল্যাগগুলির বিশদ বিবরণ দেওয়া হয়েছে যা রানটাইম পারফরম্যান্স এবং মেমরি ব্যবহারে উল্লেখযোগ্যভাবে প্রভাব ফেলতে পারে। কোনো ফ্ল্যাগ সক্রিয় করার পর যদি ক্র্যাশের মতো কোনো সমস্যা দেখা দেয়, তবে ডিফল্ট সেটিংসে ফিরে যাওয়ার এবং একটি GitHub ইস্যু তৈরি করার পরামর্শ দেওয়া হচ্ছে।

সঠিকতা ফ্ল্যাগ

পতাকা	বর্ণনা	ডিফল্ট মান	প্রস্তাবিত মান	প্রার্থীর মূল্যবোধ
`xla_mosaic_on_device_checks`	এই ফ্ল্যাগটি মোজাইক কোডজেন-এর জন্য ডিভাইসে চেক চালু করে। বর্তমানে, সমর্থিত চেকগুলো হলো বাউন্ডস-ভিত্তিক; অর্থাৎ, যদি বাউন্ডসের বাইরের কোনো মেমরি স্পর্শ করা হয়, তাহলে কম্পাইলেশন বা এক্সিকিউশন তা ধরে ফেলবে।	`xla_mosaic_on_device_checks=bounds`	`xla_mosaic_on_device_checks=bounds`	`xla_mosaic_on_device_checks=bounds`

পারফরম্যান্স ফ্ল্যাগ

নিম্নলিখিত ফ্ল্যাগগুলো রানটাইম পারফরম্যান্স উন্নত করতে সহায়ক। এই সেটিংগুলো নিয়ে পরীক্ষা-নিরীক্ষা করলে পারফরম্যান্সে উল্লেখযোগ্য উন্নতি হতে পারে।

সিপিইউ পারফরম্যান্স ফ্ল্যাগ

পতাকা	বর্ণনা	ডিফল্ট মান	প্রস্তাবিত মান	প্রার্থীর মূল্যবোধ
`xla_cpu_opt_preset`	সিপিইউ অপটিমাইজেশন প্রিসেট নির্ধারণ করে। `FAST_COMPILE` কম্পাইলারের এমন কিছু পরিবর্তনকে একত্রিত করে, যা রানটাইম পারফরম্যান্সের সামান্য ত্যাগের বিনিময়ে কম্পাইল টাইমে বড় ধরনের সুবিধা প্রদান করে। `FAST_RUNTIME` হলো ডিফল্ট এবং এটি নির্দিষ্ট করার প্রয়োজন নেই।	`FAST_RUNTIME`	`FAST_COMPILE` (উন্নয়নের জন্য)	`FAST_RUNTIME` , `FAST_COMPILE`

মেমরি ফ্ল্যাগ

নিচে তালিকাভুক্ত ফ্ল্যাগগুলো HBM-সম্পর্কিত সমস্যা সমাধানের জন্য দেওয়া হয়েছে। মডেল কম্পাইলেশনের সময় যদি আপনি HBM "আউট অফ মেমোরি" ত্রুটির সম্মুখীন হন, তবেই কেবল এগুলো পরিবর্তন করা উচিত। অন্য সব ক্ষেত্রে ডিফল্ট মান ব্যবহার করার পরামর্শ দেওয়া হয়, কারণ এগুলো পরিবর্তন করলে পারফরম্যান্সে নেতিবাচক প্রভাব পড়তে পারে।

পতাকা	বর্ণনা	ডিফল্ট মান	প্রস্তাবিত মান	প্রার্থীর মূল্যবোধ
সময়সূচী নির্ধারক `xla_latency_hiding_scheduler_rerun`	এই সেটিংটি ল্যাটেন্সি-হাইডিং শিডিউলারের আচরণ নিয়ন্ত্রণ করে। এটি প্রসেসটির প্রতিটি "পুনরায় চালানোর" সাথে সাথে শিডিউলিংয়ের জন্য বরাদ্দ করা মেমরি সীমা ক্রমান্বয়ে কমিয়ে আনার মাধ্যমে কাজ করে।	`xla_latency_hiding_scheduler_rerun=1`	`xla_latency_hiding_scheduler_rerun=5`	`0~10(it doesn't make much sense beyond 10 reruns)`
ফিউশন `xla_tpu_rwb_fusion`	এই ফ্ল্যাগটি reduce+broadcast ধরনের ফিউশন সক্ষম করে এবং মেমরি ব্যবহার কমাতে পারে।	`xla_tpu_rwb_fusion=true`	`xla_tpu_rwb_fusion=false`	`xla_tpu_rwb_fusion=true/false`
সময়সূচী নির্ধারক `xla_memory_scheduler`	এই ফ্ল্যাগটি সেই অ্যালগরিদম নির্দিষ্ট করে যা মেমরি শিডিউলার মেমরি ব্যবহার কমানোর জন্য ব্যবহার করবে। আরও উন্নত অ্যালগরিদম ব্যবহার করলে কম মেমরি-ব্যয়কারী একটি শিডিউল পাওয়া যেতে পারে, তবে এর জন্য কম্পাইলেশনে বেশি সময় লাগতে পারে।	`xla_memory_scheduler=kDefault`	`xla_memory_scheduler=kBrkga`	`xla_memory_scheduler=kDefault/kList/kDfs/kPostOrder/kBrkga`
সময়সূচী নির্ধারক `xla_tpu_enable_latency_hiding_scheduler`	এই ফ্ল্যাগটি ল্যাটেন্সি-হাইডিং শিডিউলার সক্রিয় করে, যা আমাদের সিঙ্ক্রোনাস অপারেশনের পরিবর্তে অ্যাসিঙ্ক্রোনাস কালেক্টিভ অপারেশন সম্পাদন করতে দেয়। এটি নিষ্ক্রিয় করলে মেমরি ব্যবহার কমে, কিন্তু এর বিনিময়ে এই অ্যাসিঙ্ক্রোনাস অপারেশনগুলো থেকে প্রাপ্ত পারফরম্যান্সের সুবিধাগুলোও নষ্ট হয়ে যায়।	`xla_tpu_enable_latency_hiding_scheduler=true`	`xla_tpu_enable_latency_hiding_scheduler=false`	`xla_tpu_enable_latency_hiding_scheduler=true/false`
এসপিএমডি `xla_jf_spmd_threshold_for_windowed_einsum_mib`	এই ফ্ল্যাগটি কালেক্টিভ ম্যাটমাল ট্রিগার করার জন্য ডটের সর্বনিম্ন আকারের নিম্নসীমা নির্ধারণ করে। এটিকে উচ্চতর মানে সেট করলে মেমরি সাশ্রয় হবে, কিন্তু তার বিনিময়ে কালেক্টিভ ম্যাটমাল করার সুযোগ নষ্ট হবে।	`xla_jf_spmd_threshold_for_windowed_einsum_mib=-1`	`10Mb~1Gb (ie 1010241024 ~ 102410241024)`	`[0, 9223372036854775807]`
সময়সূচী নির্ধারক `xla_gpu_enable_analytical_sol_latency_estimator`	এই ফ্ল্যাগটি সেই অ্যানালিটিক্যাল এস্টিমেটরকে সক্রিয় করে যা জিপিইউ-তে কম্পিউট-কমিউনিকেশন ওভারল্যাপকে সর্বাধিক করে তোলে।	`xla_gpu_enable_analytical_sol_latency_estimator=true`	`xla_gpu_enable_analytical_sol_latency_estimator=false`	`true/false`

অন্যান্য সাধারণভাবে ব্যবহৃত পতাকা

পতাকা	প্রকার	নোট
`xla_dump_to`	স্ট্রিং (ফাইলের পথ)	যে ফোল্ডারে প্রি-অপ্টিমাইজেশন HLO ফাইল এবং অন্যান্য আর্টিফ্যাক্ট রাখা হবে ( XLA টুলস দেখুন)।

টিপিইউ এক্সএলএ পতাকা

পতাকা	প্রকার	নোট
`xla_tpu_enable_data_parallel_all_reduce_opt`	বুলিয়ান (সত্য/মিথ্যা)	ডেটা প্যারালাল শার্ডিং-এর জন্য ব্যবহৃত ডিসিএন (ডেটা সেন্টার নেটওয়ার্কিং) অল-রিডিউস-এর ক্ষেত্রে ওভারল্যাপের সুযোগ বাড়ানোর জন্য অপটিমাইজেশন।
`xla_tpu_data_parallel_opt_different_sized_ops`	বুলিয়ান (সত্য/মিথ্যা)	একাধিক ইটারেশন জুড়ে ডেটা প্যারালাল অপারেশনগুলোর পাইপলাইনিং সক্ষম করে, এমনকি যদি তাদের আউটপুট সাইজ স্ট্যাক করা ভেরিয়েবলগুলোতে সংরক্ষণযোগ্য আকারের সাথে না মেলে। এটি মেমোরির উপর চাপ বাড়াতে পারে।
`xla_tpu_spmd_rng_bit_generator_unsafe`	বুলিয়ান (সত্য/মিথ্যা)	RngBitGenerator HLO-কে পার্টিশন করা পদ্ধতিতে চালানো হবে কিনা, যা অনিরাপদ যদি গণনার বিভিন্ন অংশে ভিন্ন ভিন্ন শার্ডিং ব্যবহার করে সুনির্দিষ্ট ফলাফল প্রত্যাশা করা হয়।
`xla_tpu_megacore_fusion_allow_ags`	বুলিয়ান (সত্য/মিথ্যা)	অল-গ্যাদারকে কনভোলিউশন/অল-রিডিউসের সাথে ফিউজ করার অনুমতি দেয়।
`xla_tpu_enable_ag_backward_pipelining`	বুলিয়ান (সত্য/মিথ্যা)	পাইপলাইনগুলো স্ক্যান লুপের মাধ্যমে সমস্ত সংগ্রহকে (বর্তমানে মেগাস্কেল সমস্ত সংগ্রহ) বিপরীত দিকে চালনা করে।

GPU XLA ফ্ল্যাগ

-O1 অপ্টিমাইজেশন লেভেলটি উন্নত GPU পারফরম্যান্সের জন্য অ্যাডভান্সড কম্পাইলার পাস সক্ষম করে, যার মধ্যে রয়েছে ডেটা-প্যারালাল কালেক্টিভ পাইপলাইনিং ( xla_gpu_pipeline_all_gather , xla_gpu_pipeline_all_reduce , এবং xla_gpu_pipeline_reduce_scatter ), while লুপ আনরোলিং ( xla_gpu_enable_while_loop_double_buffering ), ল্যাটেন্সি হাইডিং শিডিউলিং ( xla_gpu_enable_latency_hiding_scheduler ), এবং Hopper/Blackwell-এ SOL ল্যাটেন্সি এস্টিমেশন ( xla_gpu_enable_analytical_sol_latency_estimator )। বিস্তারিত জানতে GPU Effort Levels দেখুন।

পতাকা	প্রকার	নোট
`xla_gpu_enable_latency_hiding_scheduler`	বুলিয়ান (সত্য/মিথ্যা)	এই ফ্ল্যাগটি ল্যাটেন্সি হাইডিং শিডিউলারকে দক্ষতার সাথে কম্পিউটেশনের সাথে অ্যাসিঙ্ক্রোনাস কমিউনিকেশন ওভারল্যাপ করতে সক্ষম করে। এর ডিফল্ট মান হলো False।
`xla_gpu_enable_analytical_sol_latency_estimator`	বুলিয়ান (সত্য/মিথ্যা)	প্ল্যাটফর্ম-নির্দিষ্ট সময়সূচী নির্ধারণের সিদ্ধান্ত গ্রহণে সক্ষম করে, যা ফলস্বরূপ গণনা ও যোগাযোগের ওভারল্যাপ উন্নত করে। এর ডিফল্ট মান হলো 'true'।
`xla_gpu_analytical_latency_estimator_options`	কাঠামোগত স্ট্রিং	`xla_gpu_enable_analytical_sol_latency_estimator` এর জন্য প্যারামিটার কনফিগার করে। `nic_speed_gbps=$NIC_SPEED,nccl_op_launch_us=$LAUNCH_OVERHEAD,chunk_prep_us=$CHUNK_PREP,rtt_us=$RTT,chunk_size_bytes=$CHUNK_SIZE,gpus_per_node=$GPUS_PER_NODE` সেট করে এটি অ্যাডজাস্ট করুন। ডিফল্ট মান শনাক্তকৃত প্ল্যাটফর্মের উপর নির্ভর করে।
`xla_gpu_enable_triton_gemm`	বুলিয়ান (সত্য/মিথ্যা)	ট্রাইটন-ভিত্তিক ম্যাট্রিক্স গুণন ব্যবহার করুন।
`xla_gpu_enable_command_buffer`	CommandBufferCmdType-এর তালিকা	কমান্ড বাফারে কোন ধরনের কমান্ডগুলো ধারণ করা উচিত।
`xla_gpu_all_reduce_combine_threshold_bytes`	পূর্ণসংখ্যা (বাইট)	এই ফ্ল্যাগগুলো নির্ধারণ করে কখন একাধিক ছোট AllGather / ReduceScatter / AllReduce-কে একত্রিত করে একটি বড় AllGather / ReduceScatter / AllReduce তৈরি করতে হবে, যাতে বিভিন্ন ডিভাইসের মধ্যে যোগাযোগের জন্য ব্যয়িত সময় কমানো যায়। উদাহরণস্বরূপ, একটি Transformer-ভিত্তিক ওয়ার্কলোডের AllGather / ReduceScatter থ্রেশহোল্ডগুলোর জন্য, সেগুলোকে যথেষ্ট উচ্চ মানে টিউন করার কথা বিবেচনা করুন, যাতে অন্তত একটি Transformer Layer-এর ওয়েট AllGather / ReduceScatter-কে একত্রিত করা যায়। ডিফল্টরূপে, combine_threshold_bytes-এর মান 256 সেট করা থাকে।
`xla_gpu_all_gather_combine_threshold_bytes`	পূর্ণসংখ্যা (বাইট)	উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
`xla_gpu_reduce_scatter_combine_threshold_bytes`	পূর্ণসংখ্যা (বাইট)	উপরে xla_gpu_all_reduce_combine_threshold_bytes দেখুন।
`xla_gpu_pipeline_all_gather`	এনাম (ডিফল্ট/অফ/অন/সুস্পষ্ট)	অল-গ্যাদার পাইপলাইনিং নিয়ন্ত্রণ করুন। `default` অপটিমাইজেশন এফোর্ট অনুসরণ করে এবং এটিই ফ্ল্যাগের ডিফল্ট: `on` O1 বা তার উপরে, অথবা যখন এক্সিকিউশন-টাইম অপটিমাইজেশন এফোর্ট কমপক্ষে 0.2 হয়, তখন 'অন' নির্বাচন করে; অন্যথায়, এটি `off` নির্বাচন করে। `off` ' পাইপলাইনিং নিষ্ক্রিয় করে, `on` সমস্ত যোগ্য অল-গ্যাদার বিবেচনা করে, এবং `explicit` শুধুমাত্র `is_pipelineable=true` দিয়ে চিহ্নিত অপারেশনগুলো বিবেচনা করে।
`xla_gpu_pipeline_all_reduce`	এনাম (ডিফল্ট/অফ/অন/সুস্পষ্ট)	`xla_gpu_pipeline_all_gather` মতো একই মোড সেম্যান্টিক্স এবং ডিফল্ট ব্যবহার করে অল-রিডিউস পাইপলাইনিং নিয়ন্ত্রণ করুন।
`xla_gpu_pipeline_reduce_scatter`	এনাম (ডিফল্ট/অফ/অন/সুস্পষ্ট)	`xla_gpu_pipeline_all_gather` এর মতো একই মোড সেম্যান্টিকস ব্যবহার করে reduce-scatter পাইপলাইনিং নিয়ন্ত্রণ করুন। ফ্ল্যাগটির ডিফল্ট মান হলো ' `on` '।
`xla_gpu_enable_pipelined_host_offloading`	বুলিয়ান (সত্য/মিথ্যা)	হোস্ট অফলোডিং নির্দেশাবলীর পাইপলাইনিং সক্ষম করুন।
`xla_gpu_enable_while_loop_double_buffering`	বুলিয়ান (সত্য/মিথ্যা)	while লুপের জন্য ডাবল-বাফারিং সক্রিয় করুন।
`xla_gpu_enable_all_gather_combine_by_dim`	বুলিয়ান (সত্য/মিথ্যা)	একই সংগ্রহ মাত্রা সহ অথবা মাত্রা নির্বিশেষে সমস্ত সংগ্রহ অপারেশন একত্রিত করুন।
`xla_gpu_enable_reduce_scatter_combine_by_dim`	বুলিয়ান (সত্য/মিথ্যা)	একই ডাইমেনশনের অথবা ডাইমেনশন নির্বিশেষে রিডিউস-স্ক্যাটার অপারেশনগুলোকে একত্রিত করুন।

পতাকা	বর্ণনা	ডিফল্ট মান	প্রস্তাবিত মান	প্রার্থীর মূল্যবোধ
পাইপলাইনিং 1. `xla_should_allow_loop_variant_parameter_in_chain` 2. `xla_should_add_loop_invariant_op_in_chain` 3. `xla_tpu_enable_ici_ag_pipelining`	ICI (ইন্টারচিপ-ইন্টারকানেক্ট) অল-গ্যাদার অপারেশনগুলোর সম্মিলিত পাইপলাইনিং সক্ষম করতে এই তিনটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত, যা ওভারল্যাপিং এক্সিকিউশনের জন্য আরও সুযোগ তৈরি করে।	1. `xla_should_allow_loop_variant_parameter_in_chain=kDisabled` 2. `xla_should_add_loop_invariant_op_in_chain=kDisabled` 3. `xla_tpu_enable_ici_ag_pipelining=false`	1. `xla_should_allow_loop_variant_parameter_in_chain=kEnabled` 2. `xla_should_add_loop_invariant_op_in_chain=kEnabled` 3. `xla_tpu_enable_ici_ag_pipelining=true`	1. `xla_should_allow_loop_variant_parameter_in_chain=kDisabled/kEnabled/kAuto` 2. `xla_should_add_loop_invariant_op_in_chain=kDisabled/kEnabled/kAuto` 3. `xla_tpu_enable_ici_ag_pipelining=true/false`
v5e/Async `xla_enable_async_all_gather` `xla_tpu_enable_async_collective_fusion` `xla_tpu_enable_async_collective_fusion_fuse_all_gather`	v5e-তে অ্যাসিঙ্ক্রোনাস অল-গ্যাদার অপারেশন সক্রিয় করতে এই ৩টি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত।	`xla_enable_async_all_gather=kAuto` `xla_tpu_enable_async_collective_fusion=true` `xla_tpu_enable_async_collective_fusion_fuse_all_gather=true`	`xla_enable_async_all_gather=kAuto` `xla_tpu_enable_async_collective_fusion=true` `xla_tpu_enable_async_collective_fusion_fuse_all_gather=true`	`xla_enable_async_all_gather=kDisabled/kEnabled/kAuto` `xla_tpu_enable_async_collective_fusion=true/false` `xla_tpu_enable_async_collective_fusion_fuse_all_gather=true/false`
v5e/Async `xla_tpu_enable_async_collective_fusion` `xla_tpu_enable_async_collective_fusion_fuse_all_reduce`	v5e-তে অ্যাসিঙ্ক্রোনাস অল-রিডিউস অপারেশন সক্রিয় করতে এই দুটি ফ্ল্যাগ একত্রে ব্যবহার করা উচিত।	`xla_tpu_enable_async_collective_fusion=true` `xla_tpu_enable_async_collective_fusion_fuse_all_reduce=false`	`xla_tpu_enable_async_collective_fusion=true` `xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true`	`xla_tpu_enable_async_collective_fusion=true/false` `xla_tpu_enable_async_collective_fusion_fuse_all_reduce=true/false`
অ্যাসিঙ্ক `xla_tpu_enable_async_all_to_all`	এই ফ্ল্যাগটি অ্যাসিঙ্ক্রোনাস অল-টু-অল কমিউনিকেশন সক্ষম করে।	`xla_tpu_enable_async_all_to_all=false`	`xla_tpu_enable_async_all_to_all=true`	`xla_tpu_enable_async_all_to_all=true/false`
লেটেন্সি-বাউন্ড `xla_all_gather_latency_bound_threshold_in_bytes`	এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-গ্যাদারের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়।	`xla_all_gather_latency_bound_threshold_in_bytes=-1` (যা সক্রিয় করা হয়নি)	`4~16Mb(ie 4~16 * 1024 * 1024)`	`[0, 9223372036854775807]`
লেটেন্সি-বাউন্ড `xla_all_reduce_latency_bound_threshold_in_bytes`	এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-রিডিউসের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়।	`xla_all_reduce_latency_bound_threshold_in_bytes=-1` (যা সক্রিয় করা হয়নি)	`4~16Mb(ie 4~16 * 1024 * 1024)`	`[0, 9223372036854775807]`
লেটেন্সি-বাউন্ড `xla_collective_permute_latency_bound_threshold_in_bytes`	এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড কালেক্টিভ-পারমিউটের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়।	`xla_collective_permute_latency_bound_threshold_in_bytes=-1` (যা সক্রিয় করা হয়নি)	`4~16Mb(ie 4~16 * 1024 * 1024)`	`[0, 9223372036854775807]`
লেটেন্সি-বাউন্ড `xla_all_to_all_latency_bound_threshold_in_bytes`	এই ফ্ল্যাগটি ল্যাটেন্সি-বাউন্ড (অর্থাৎ, ছোট আকারের) অল-গ্যাদার অপারেশনের জন্য উদ্দিষ্ট। এটি সক্রিয় করলে নির্দিষ্ট অপটিমাইজেশন চালু হয়, যা ল্যাটেন্সি-বাউন্ড অল-টু-অল অপারেশনের এক্সিকিউশন টাইম কমাতে পারে। সাধারণত এটি ইনফারেন্স ওয়ার্কলোডে ব্যবহৃত হয়।	`xla_all_to_all_latency_bound_threshold_in_bytes=-1` (যা সক্রিয় করা হয়নি)	`4~16Mb(ie 4~16 * 1024 * 1024)`	`[0, 9223372036854775807]`
`xla_enable_async_collective_permute`	সমস্ত কালেক্টিভ-পারমিউট অপারেশনকে তাদের অ্যাসিঙ্ক্রোনাস সংস্করণে পুনর্লিখন করে। যখন `auto` তে সেট করা থাকে, XLA অন্যান্য কনফিগারেশন বা শর্তের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অ্যাসিঙ্ক্রোনাস কালেক্টিভ চালু করতে পারে।	`xla_enable_async_collective_permute=kAuto`	`xla_enable_async_collective_permute=kAuto`	`xla_enable_async_collective_permute=kAuto/kEnabled/kDisabled`
গণনা কেন্দ্রিক `xla_tpu_enable_dot_strength_reduction`	এই ফ্ল্যাগটি কম গণনা-নিবিড় ডট চিহ্নগুলোকে গুণ ও হ্রাস অপারেশনে রূপান্তরিত করে।	গণনা কেন্দ্রিক `xla_tpu_enable_dot_strength_reduction=true`	`xla_tpu_enable_dot_strength_reduction=true`	`xla_tpu_enable_dot_strength_reduction=true/false`
গণনা কেন্দ্রিক `xla_tpu_dot_dot_fusion`	এই ফ্ল্যাগটি ডট-ডট ফিউশন সক্ষম করে, যা একটি প্রডিউসার-ডট অপারেশনকে একটি কনজিউমার-ডট অপারেশনের সাথে একীভূত করে। এর ফলে, প্রডিউসার-ডটের আউটপুট স্লো/মেইন মেমরিতে প্রদর্শিত হয় না, যা মেমরি ফুটপ্রিন্ট কমিয়ে আনে।	`xla_tpu_dot_dot_fusion=true`	`xla_tpu_dot_dot_fusion=true`	`xla_tpu_dot_dot_fusion=true/false`
গণনা কেন্দ্রিক `xla_jf_enable_multi_output_fusion`	এই ফ্ল্যাগটি এমন ফিউশন সক্ষম করে যা একাধিক কনজিউমারকে ফিউজ করে (অর্থাৎ, ফলস্বরূপ ফিউশনটির একাধিক আউটপুট থাকবে)।	`xla_jf_enable_multi_output_fusion=true`	`xla_jf_enable_multi_output_fusion=true`	`xla_jf_enable_multi_output_fusion=true/false`
গণনা কেন্দ্রিক `xla_tpu_scoped_vmem_limit_kib`	এই ফ্ল্যাগটি স্থানীয় ব্যবহারের জন্য প্রতি অপারেশনে উপলব্ধ স্ক্র্যাচপ্যাড ভিএমইএম-এর পরিমাণ কিলোবাইটে নির্ধারণ করে। ভিএমইএম-এর বাকি অংশ বাফার স্পেস হিসেবে ব্যবহৃত হয়।	`xla_tpu_scoped_vmem_limit_kib=16384`	`xla_tpu_scoped_vmem_limit_kib=16384`	`xla_tpu_scoped_vmem_limit_kib=[4096, VMEM size of the architecture - 1024]`
গণনা কেন্দ্রিক `xla_tpu_async_copy_bandwidth_scaling_factor`	অ্যাসিঙ্ক কপির জন্য কার্যকর ব্যান্ডউইথ স্কেল করে। প্রিফেচ সিদ্ধান্ত নেওয়ার সময় এবং কোন টেনসরগুলো VMEM-এ থাকবে তা নির্ধারণ করার সময় এটি ব্যবহৃত হয়।	`xla_tpu_async_copy_bandwidth_scaling_factor=1`	`xla_tpu_async_copy_bandwidth_scaling_factor=1`	`xla_tpu_async_copy_bandwidth_scaling_factor=(0, 1]`
গণনা কেন্দ্রিক `xla_msa_enable_cross_program_prefetch_freeing`	ক্রস-প্রোগ্রাম-প্রিফেচড বাফারগুলির জন্য অপ্টিমাইজেশন মুক্ত করা সক্ষম করে।	`xla_msa_enable_cross_program_prefetch_freeing=enabled`	`xla_msa_enable_cross_program_prefetch_freeing=enabled`	`xla_msa_enable_cross_program_prefetch_freeing=enabled/disabled`
গণনা কেন্দ্রিক `xla_tpu_msa_inefficient_use_to_copy_ratio`	একটি নির্দিষ্ট অ্যালোকেশন সাইটের জন্য ইউজ বাইট এবং কপি বাইটের অনুপাত, যার নিচে সাইটটিকে অদক্ষ বলে বিবেচনা করা হয়। VMEM প্লেসমেন্টের সিদ্ধান্ত নেওয়ার সময় এটি ব্যবহৃত হয়। এর মান ০ হলে সমস্ত সাইটকে দক্ষ হিসেবে গণ্য করা হবে এবং মান ১ হলে সাইটটিতে ব্যবহৃত বাইটের পরিমাণ অবশ্যই অ্যাসিঙ্ক কপি বাইটের সমান বা তার চেয়ে বেশি হতে হবে।	`xla_tpu_msa_inefficient_use_to_copy_ratio=0.5`	`xla_tpu_msa_inefficient_use_to_copy_ratio=0.5`	`xla_tpu_msa_inefficient_use_to_copy_ratio=[0, 1]`