HLO অপ প্রোফাইল টুল

প্রোফাইলিং সময়কালে সম্পাদিত হাই লেভেল অপারেশন (HLO) অপারেশনের বিভিন্ন বিভাগের জন্য হার্ডওয়্যার পারফরম্যান্স বোঝার জন্য আপনি HLO Op Profile টুল ব্যবহার করতে পারেন।

সমর্থিত প্ল্যাটফর্ম

TPU: সমর্থিত

GPU: সমর্থিত

HLO অপ প্রোফাইল টুল ব্যবহার করে

এইচএলও অপ প্রোফাইলে নিম্নলিখিত উপাদান রয়েছে:

  1. পৃষ্ঠার শীর্ষে ওভারভিউ প্রোফাইলিং সময়কালে এক্সিলারেটর কম্পিউট FLOPs এবং HBM ব্যান্ডউইথের সামগ্রিক ব্যবহারের একটি সারাংশ প্রদান করে।
  2. নীচের সারণীটি ব্যবহারের একটি আরও দানাদার দৃশ্য প্রদান করে। এটি প্রোফাইলিং পিরিয়ডের সময় প্রতিটি মডিউল দ্বারা সম্পাদিত HLO অপারেশনগুলিকে শ্রেণীবদ্ধ করে, এবং আপনি শ্রেণিবিন্যাস অতিক্রম করতে পারেন এবং প্রতি মডিউল, একটি মডিউলের মধ্যে বিভাগ প্রতি, বা একটি বিভাগের মধ্যে প্রতি অপস ব্যবহার করতে পারেন। ফিউশন ক্রিয়াকলাপগুলিকে আরও প্রসারিত করা যেতে পারে যাতে তারা ধারণ করে এমন নন-ফিউশন, উপাদান-ভিত্তিক ক্রিয়াকলাপগুলি দেখায়।
    • শ্রেণীকরণটি বেশিরভাগ XLA কম্পাইলার দ্বারা সংজ্ঞায়িত করা হয়, XProf নির্দিষ্ট পরিস্থিতিতে অতিরিক্ত হিউরিস্টিক নিয়োগ করে (যেমন, এটি "কনভোলিউশন ফিউশন" সনাক্ত করতে HLO গ্রাফ পার্স করে)।
    • ডিফল্টরূপে, মডিউল, বিভাগ, এবং অপ্সের তালিকাটি মডিউল, বিভাগ বা অপ সম্পাদনে ব্যয় করা মোট সময়ের ভগ্নাংশ দ্বারা সাজানো হয়। আপনি পরিবর্তে অপ্স দ্বারা বাছাই করতে পারেন যা হার্ডওয়্যারের সবচেয়ে কম-ব্যবহারের কারণ (অপ-এর রানটাইম দ্বারা ওজনযুক্ত ব্যবহার, বা "সময় নষ্ট")। কম FLOPS ব্যবহার এবং উচ্চ সময় খরচ সহ ক্রিয়াকলাপ সনাক্ত করে, আপনি অপ্টিমাইজেশনের জন্য তাদের লক্ষ্য করতে পারেন।
  3. সারণীতে একটি অপারেশনের উপর ঘোরালে বাম দিকে একটি কার্ড দেখা যায় যা অপারেশন বা অপারেশন বিভাগ সম্পর্কে আরও বিশদ প্রদর্শন করে। একটি টেবিল এন্ট্রিতে ক্লিক করা অপারেটিং কার্ডটি পিন করে। এই কার্ডগুলিতে সাধারণত নিম্নলিখিতগুলি অন্তর্ভুক্ত থাকে, উপযুক্ত হিসাবে:
    • গ্রাফ ভিউয়ার টুলে অপের একটি লিঙ্ক।
    • গড় কার্যকর করার সময়।
    • কম্পিউট (TFLOP/s), HBM ব্যান্ডউইথ (GB/s), এবং অন-চিপ রিড অ্যান্ড রাইট ব্যান্ডউইথ (GB/s) ব্যবহারের সম্পূর্ণ হার (সারণীতে রিপোর্ট করা ব্যবহারের বিপরীতে)।
    • বিভিন্ন আকার এবং লেআউট সম্পর্কিত বিশদ সহ সম্পূর্ণ XLA অপশনের বিবরণ।
    • ফ্রেমওয়ার্ক স্তরে XLA অপের উদ্ভব।
    • অপের সংঘটনের সংখ্যা এবং সামগ্রিকভাবে অপটিতে ব্যয় করা মোট সময়৷

উল্লেখ্য যে কাঁচা ব্যান্ডউইথ (GB/s) বা কম্পিউট রেট (TFLOP/s) এফএলওপিতে স্ট্যাটিক কম্পাইলার ডেটা বা অপের (অঙ্ক) জন্য প্রয়োজনীয় বাইটের প্রোফাইল (হর) থেকে প্রতি অপের সময়কালের তথ্যের সাথে একত্রিত করে গণনা করা হয়। ইউটিলাইজেশন সংখ্যা (শতাংশ) পিক কম্পিউট বা পিক ব্যান্ডউইথ ক্ষমতার একটি ভগ্নাংশ হিসাবে নিখুঁত সম্পদ খরচ ডেটা গণনা করে প্রতি ত্বরণকারীতে গণনা করা হয়।