HLO অপ প্রোফাইল টুল

প্রোফাইলিং সময়কালে সম্পাদিত বিভিন্ন শ্রেণীর হাই লেভেল অপারেশন (HLO) অপারেশনের হার্ডওয়্যার কর্মক্ষমতা বোঝার জন্য আপনি HLO Op প্রোফাইল টুল ব্যবহার করতে পারেন।

সমর্থিত প্ল্যাটফর্মগুলি

TPU এবং GPU উভয়ই সমর্থিত।

HLO Op প্রোফাইল টুল ব্যবহার করে

HLO Op প্রোফাইলে নিম্নলিখিত উপাদানগুলি রয়েছে:

  1. পৃষ্ঠার শীর্ষে থাকা সারসংক্ষেপটি প্রোফাইলিং সময়কালে অ্যাক্সিলারেটর কম্পিউট FLOP এবং HBM ব্যান্ডউইথের সামগ্রিক ব্যবহারের একটি সারসংক্ষেপ প্রদান করে।

    HLO অপ প্রোফাইল টুল

  2. নিচের টেবিলটি ব্যবহারের আরও সুক্ষ্ম দৃশ্য প্রদান করে। এটি প্রোফাইলিং সময়কালে প্রতিটি মডিউল দ্বারা সম্পাদিত HLO অপারেশনগুলিকে শ্রেণীবদ্ধ করে, এবং আপনি শ্রেণিবিন্যাস অতিক্রম করতে পারেন এবং প্রতিটি মডিউল, প্রতিটি মডিউলের মধ্যে, অথবা প্রতিটি বিভাগের মধ্যে প্রতিটি অপারেশনের ব্যবহার দেখতে পারেন। ফিউশন অপারেশনগুলিকে আরও সম্প্রসারিত করা যেতে পারে যাতে এতে থাকা নন-ফিউশন, উপাদান-ভিত্তিক অপারেশনগুলি দেখানো যায়।

    • শ্রেণীবিভাগটি মূলত XLA কম্পাইলার দ্বারা সংজ্ঞায়িত করা হয়, যেখানে XProf নির্দিষ্ট পরিস্থিতিতে অতিরিক্ত হিউরিস্টিক ব্যবহার করে (যেমন, এটি "কনভোলিউশন ফিউশন" সনাক্ত করতে HLO গ্রাফ পার্স করে)।
    • ডিফল্টরূপে, মডিউল, বিভাগ এবং অপের তালিকা মডিউল, বিভাগ বা অপ কার্যকর করার জন্য ব্যয় করা মোট সময়ের ভগ্নাংশ অনুসারে সাজানো হয়। আপনি পরিবর্তে এমন অপের অনুসারে সাজানো বেছে নিতে পারেন যা হার্ডওয়্যারের সবচেয়ে কম ব্যবহার করে (অপ এর রানটাইম দ্বারা ওজনযুক্ত ব্যবহার, অথবা "সময় নষ্ট")। কম FLOPS ব্যবহার এবং উচ্চ সময় খরচ সহ অপারেশনগুলি সনাক্ত করে, আপনি তাদের অপ্টিমাইজেশনের জন্য লক্ষ্য করতে পারেন।
  3. টেবিলের কোনও অপারেশনের উপর ঘোরাফেরা করলে বাম দিকে একটি কার্ড দেখাবে যেখানে অপ বা অপারেশন ক্যাটাগরি সম্পর্কে আরও বিস্তারিত তথ্য প্রদর্শিত হবে। টেবিলের এন্ট্রিতে ক্লিক করলে অপ ডিটেইল কার্ডটি পিন হয়ে যাবে।

    পিন করা অপ ডিটেইল কার্ড সহ HLO অপ প্রোফাইল টুল

    এই কার্ডগুলিতে সাধারণত নিম্নলিখিতগুলি অন্তর্ভুক্ত থাকে, যথাসম্ভব:

    • গ্রাফ ভিউয়ার টুলে অপের একটি লিঙ্ক।
    • গড় কার্যকর সময়।
    • কম্পিউট (TFLOP/s), HBM ব্যান্ডউইথ (GB/s), এবং অন-চিপ রিড এবং রাইট ব্যান্ডউইথ (GB/s) এর ব্যবহারের পরম হার (সারণীতে উল্লিখিত ব্যবহারের বিপরীতে)।
    • বিভিন্ন আকার এবং লেআউট সম্পর্কিত বিশদ সহ সম্পূর্ণ XLA অপশনের বিবরণ।
    • ফ্রেমওয়ার্ক স্তরে XLA অপের উৎপত্তি।
    • অপের ঘটনার সংখ্যা এবং মোট অপে ব্যয় করা সময়।

মনে রাখবেন যে, অ-ব্যান্ডউইথ (GB/s) অথবা কম্পিউট রেট (TFLOP/s) গণনা করা হয় FLOPs অথবা বাইটের উপর স্ট্যাটিক কম্পাইলার ডেটা, op (অংশ) এর জন্য প্রয়োজনীয়, প্রোফাইল (হর) থেকে প্রতি অপের সময়কাল তথ্যের সাথে একত্রিত করে। ব্যবহার সংখ্যা (শতাংশ) গণনা করা হয় পরম সম্পদ খরচ ডেটা, পিক কম্পিউট বা পিক ব্যান্ডউইথ ক্ষমতার একটি ভগ্নাংশ হিসাবে প্রতি অ্যাক্সিলারেটর হিসাবে গণনা করে।