Hacker News

প্ৰথম নীতিৰ পৰা অবিৰত বেচিং (২০২৫)

প্ৰথম নীতিৰ পৰা অবিৰত বেচিং (২০২৫) ধাৰাবাহিকৰ এই বিস্তৃত বিশ্লেষণে ইয়াৰ মূল উপাদানসমূহ আৰু বহল প্ৰভাৱৰ বিশদ পৰীক্ষা আগবঢ়ায়। গুৰুত্বৰ মূল ক্ষেত্ৰসমূহ আলোচনাৰ কেন্দ্ৰবিন্দু হৈছে: কোৰ মেকানিজম আৰু...

1 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

প্ৰথম নীতিৰ পৰা অবিৰত বেচিং (২০২৫)

অবিৰত বেচিং এটা গতিশীল অনুমান সময়সূচী কৌশল যি এটা স্লটে মুক্ত হোৱাৰ মুহূৰ্তত এটা সক্ৰিয় প্ৰচেছিং বেচত নতুন অনুৰোধ সন্নিবিষ্ট কৰি হাৰ্ডৱেৰ থ্ৰুপুট সৰ্বাধিক কৰে, কাৰ্য্যসমূহৰ মাজত অচল গণনা চক্ৰসমূহ আঁতৰাই। প্ৰথম নীতিৰ পৰা ইয়াক বুজিলে প্ৰকাশ পায় যে ২০২৫ চনত স্কেলত মোতায়েন কৰা প্ৰতিটো উচ্চ-কাৰ্য্যক্ষম AI সেৱা প্ৰদানকাৰী ব্যৱস্থাৰ বাবে ই কিয় মূল স্থাপত্যত পৰিণত হৈছে।

অবিৰত বেচিং সঠিকভাৱে কি আৰু ষ্টেটিক বেচিং কিয় বিফল হ'ল?

অবিৰত বেচিঙৰ প্ৰশংসা কৰিবলৈ, আপুনি প্ৰথমে বুজিব লাগিব যে ই কি সলনি কৰিলে। পৰম্পৰাগত স্থিতিশীল বেচিঙে এটা নিৰ্দিষ্ট সংখ্যক অনুৰোধসমূহক একেলগে গোট কৰে, সিহতক এটা একক হিচাপে প্ৰক্ৰিয়া কৰে, আৰু কেৱল সম্পূৰ্ণ বেচ শেষ হোৱাৰ পিছতহে নতুন অনুৰোধ গ্ৰহণ কৰে। জটিল ত্ৰুটিটো হ'ল যে বৃহৎ ভাষা আৰ্হিসমূহে চলক দৈৰ্ঘ্যৰ টোকেন সৃষ্টি কৰে — এটা অনুৰোধ ২০ টোকেনৰ পিছত সমাপ্ত হ'ব পাৰে আৰু একেটা বেচৰ আন এটা ২০০০ ৰ বাবে চলিব পাৰে। থুপটোৰ প্ৰতিটো GPU কোনো নতুন কাম আৰম্ভ কৰাৰ আগতে আটাইতকৈ দীঘলীয়া ক্ৰম সম্পূৰ্ণ হোৱাৰ বাবে অপেক্ষা কৰি অচল হৈ থাকে।

২০২২ চনৰ ল্যাণ্ডমাৰ্ক কাগজ "অৰ্কা: ট্ৰেন্সফৰ্মাৰ-ভিত্তিক জেনেৰেটিভ মডেলৰ বাবে এটা বিতৰিত চাৰ্ভিং চিষ্টেম"ত অগ্ৰণী বেচিঙে এই বাধা সম্পূৰ্ণৰূপে ভংগ কৰে। ই অনুৰোধ স্তৰতকৈ পুনৰাবৃত্তি স্তৰত কাম কৰে। মডেলৰ মাজেৰে প্ৰতিটো ফৰৱাৰ্ড পাছৰ পিছত, সূচীকাৰকে যিকোনো ক্ৰম ইয়াৰ ক্ৰমৰ শেষৰ টোকেনত উপনীত হৈছে নে নাই পৰীক্ষা কৰে। যদি আছে, সেই স্লট তৎক্ষণাত পুনৰুদ্ধাৰ কৰা হয় আৰু এটা শাৰীবদ্ধ অনুৰোধত নিযুক্ত কৰা হয় — কোনো অপেক্ষা নাই, কোনো অপচয় নাই। বেচৰ গঠন প্ৰতিটো ডিকোড পদক্ষেপৰ সৈতে তৰলভাৱে স্থানান্তৰিত হয়, হাৰ্ডৱেৰ ব্যৱহাৰক সকলো সময়তে তাত্ত্বিক সৰ্বোচ্চৰ ওচৰত ৰাখে।

KV কেচে চিস্টেম স্তৰত অবিৰত বেচিঙৰ সৈতে কেনেকৈ পাৰস্পৰিক ক্ৰিয়া কৰে?

কি-মান কেশ্ব হৈছে মেমৰি গঠন যি ট্ৰেন্সফৰ্মাৰৰ অনুমানক ট্ৰেক্টেবল কৰে। প্ৰচেছ কৰা প্ৰতিটো টোকেনৰ বাবে, মডেলে মনোযোগ কি'সমূহ আৰু মানসমূহ গণনা কৰে যি ধৰি ৰাখিব লাগিব যাতে পৰৱৰ্তী টোকেনসমূহে অতিৰিক্ত গণনা পুনৰাবৃত্তি নকৰে। এটা স্থিতিশীল বেচিং ব্যৱস্থাপ্ৰণালীত, KV কেশ্ব আবণ্টন পোনপটীয়া: বেচৰ প্ৰতিটো অনুৰোধৰ বাবে সৰ্বাধিক ক্ৰমৰ দৈৰ্ঘ্যৰ সমানুপাতিক মেমৰি সংৰক্ষণ কৰক।

অবিৰত বেচিঙে এইটোক মাৰ্জিতভাৱে জটিল কৰি তোলে। যিহেতু অনুৰোধসমূহে অভাৱনীয় সময়ত বেচত প্ৰৱেশ আৰু প্ৰস্থান কৰে, চিস্টেমে স্থিৰ সংলগ্ন মেমৰি ব্লকসমূহ পূৰ্ব-আবণ্টন কৰিব নোৱাৰে। এই কাৰণেই vLLM ৰ PagedAttention — ২০২৩ চনত প্ৰৱৰ্তিত — উৎপাদন মোতায়েনত অবিৰত বেচিঙৰ পৰা অবিচ্ছেদ্য হৈ পৰিল। PagedAttention এ ভাৰ্চুৱেল মেমৰি পেজিং আৰ্হিক কাৰ্য্যকৰপ্ৰণালীৰ পৰা ধাৰ লয়, KV কেশ্বক সমান আকাৰৰ অসংলগ্ন ব্লকসমূহত বিভক্ত কৰে। এটা ক্ৰমৰ কেশ্ব পৃষ্ঠাসমূহ GPU মেমৰিৰ মাজেৰে সিঁচৰতি কৰিব পাৰি ঠিক যেনেকৈ ভাৰ্চুৱেল মেমৰি পৃষ্ঠাসমূহ দৈহিক RAM ত সিঁচৰতি হয়। ফলত খণ্ডিতকৰণৰ পৰা শূন্যৰ ওচৰত মেমৰি অপচয় হয়, যি অতিৰিক্ত হাৰ্ডৱেৰ বিনিয়োগ অবিহনে উচ্চ বেচ আকাৰ আৰু অধিক থ্ৰুপুটলৈ প্ৰত্যক্ষভাৱে অনুবাদ কৰে।

অবিৰত বেচিং কাম কৰা মূল সময়সূচী ব্যৱস্থাসমূহ কি কি?

তিনিটা আন্তঃনিৰ্ভৰশীল সময়সূচী সিদ্ধান্তই প্ৰতিটো অবিৰত বেচিং ব্যৱস্থাপ্ৰণালী নিয়ন্ত্ৰণ কৰে:

  • পূৰ্ব-অগ্ৰাধিকাৰ নীতি: যেতিয়া মেমৰি চাপ উচ্চ হয় আৰু এটা নতুন উচ্চ-অগ্ৰাধিকাৰ অনুৰোধ আহি পৰে, সময়সূচীকাৰীয়ে সিদ্ধান্ত ল'ব লাগিব যে এটা চলি থকা কম-অগ্ৰাধিকাৰ ক্ৰম প্ৰিইম্পট কৰিব, ইয়াৰ KV কেশ্ব CPU RAM লৈ শ্বেপ কৰিব, বা পিছত ইয়াক শূন্যৰ পৰা পুনৰ গণনা কৰিব। শ্বেপ-ভিত্তিক প্ৰিইম্পচনে গণনা সংৰক্ষণ কৰে কিন্তু PCIe বেণ্ডউইডথ ব্যৱহাৰ কৰে; পুনৰ গণনাই GPU চক্ৰসমূহ অপচয় কৰে কিন্তু মেমৰি পৰিষ্কাৰ ৰাখে।
  • প্ৰৱেশ নিয়ন্ত্ৰণ: সময়সূচীকাৰীয়ে ভৱিষ্যদ্বাণী কৰিব লাগিব যে এটা নতুন অনুৰোধৰ KV কেশ্ব ইয়াৰ সম্পূৰ্ণ প্ৰজন্মৰ জীৱনকালত উপলব্ধ মেমৰিত ফিট হ'ব নে নহয়। তুচ্ছজ্ঞান কৰিলে স্মৃতিশক্তিৰ বাহিৰত ক্ৰেচ হয় মধ্য ক্ৰমৰ; অতিমাত্ৰা অনুমান কৰিলে শাৰীটো অপ্ৰয়োজনীয়ভাৱে অনাহাৰে থাকে। আধুনিক ব্যৱস্থাপ্ৰণালীসমূহে এই বিপদসমূহৰ ভাৰসাম্য ৰক্ষা কৰিবলৈ প্ৰফাইল কৰা দৈৰ্ঘ্য বিতৰণ আৰু সংৰক্ষণ বাফাৰসমূহ ব্যৱহাৰ কৰে।
  • চাংক কৰা প্ৰিফিল: প্ৰিফিল পৰ্যায় — ব্যৱহাৰকাৰীৰ ইনপুট প্ৰমপ্ট প্ৰক্ৰিয়া কৰা — গণনা-বাউণ্ড আৰু GPU একচেটিয়া কৰিব পাৰে, ইতিমধ্যে চলি থকা ক্ৰমসমূহৰ বাবে ডিকোড পদক্ষেপসমূহ বিলম্ব কৰি। ছাংকড প্ৰিফিলে দীঘল প্ৰমপ্টসমূহক ডিকোড পুনৰাবৃত্তিৰ সৈতে ইন্টাৰলিভ কৰা নিৰ্দিষ্ট-আকাৰৰ টুকুৰাসমূহত বিভক্ত কৰে, সমান্তৰাল ব্যৱহাৰকাৰীসকলৰ বাবে সময়-প্ৰথম-টোকেন বিলম্ব হ্ৰাস কৰে প্ৰান্তীয়ভাৱে কম কেঁচা প্ৰিফিল থ্ৰুপুটৰ খৰচত।
  • অগ্ৰাধিকাৰ শাৰী: এণ্টাৰপ্ৰাইজ মোতায়েনসমূহ SLA স্তৰৰ দ্বাৰা খণ্ড অনুৰোধসমূহ। লেটেন্সি-সংবেদনশীল API কলসমূহে সৰ্বোত্তম-প্ৰয়াস বেচ কাৰ্য্যসমূহক আগুৱাই লৈ যায়। এই স্তৰৰ অবিহনে, এটা দীঘলীয়া দস্তাবেজ সাৰাংশ কাৰ্য্যই শ শ সমকালীন অধিবেশনৰ বাবে পাৰস্পৰিক ব্যৱহাৰকাৰী অভিজ্ঞতাক অৱনমিত কৰিব পাৰে।
<ব্লককোট>

"অবিৰত বেচিঙে কেৱল থ্ৰুপুট উন্নত নকৰে — ই AI অনুমানৰ অৰ্থনৈতিক আৰ্হি পুনৰ্গঠন কৰে। অনুৰোধ গ্ৰেনুলেৰিটিৰ পৰিৱৰ্তে GPU সমূহক পুনৰাবৃত্তি গ্ৰেনুলেৰিটিত দখল কৰি ৰাখি, অপাৰেটৰসকলে একে হাৰ্ডৱেৰৰ পৰা 5–10× অধিক ফলপ্ৰসূ ব্যৱহাৰ লাভ কৰে, যি 2025 চনত প্ৰতি-টোকেন সেৱাৰ খৰচ হ্ৰাস কৰিবলৈ উপলব্ধ একক বৃহত্তম লিভাৰ।"

ৰ দ্বাৰা

বাস্তৱ-পৃথিৱীৰ মোতায়েনসমূহে পৰিৱেশন লাভসমূহ কেনেকৈ জুখিব?

এনিস্কেলৰ পৰা বেঞ্চমাৰ্ক ফলাফলসমূহে, ২০২৪ চনত একাধিক মডেল পৰিয়ালৰ মাজেৰে স্বতন্ত্ৰ প্ৰজননৰ সৈতে একেলগে, বাস্তৱিক ট্ৰেফিক আৰ্হিৰ অধীনত নেইভ ষ্টেটিক বেচিঙৰ তুলনাত ২৩× আৰু ৩৬× উচ্চ থ্ৰুপুটৰ মাজত অবিৰত বেচিঙে দেখুৱাইছে। লাভসমূহ অতি উচ্চাৰিত হয় যেতিয়া অনুৰোধৰ দৈৰ্ঘ্যৰ ভ্যাৰিয়েন্স বেছি হয় — ঠিক সেই চৰ্তসমূহ যি উৎপাদন কথোপকথন AI কাৰ্য্যভাৰৰ বৈশিষ্ট্য য'ত ব্যৱহাৰকাৰীৰ প্ৰশ্নসমূহ তিনি-শব্দৰ প্ৰমপ্টৰ পৰা বহু-পৃষ্ঠাৰ দস্তাবেজ দাখিললৈকে হয়।

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

লেটেন্সিয়ে অধিক সূক্ষ্ম কাহিনী কয়। টাইম-টু-ফাৰ্ষ্ট-টোকেন নাটকীয়ভাৱে উন্নত হয় কাৰণ চিস্টেমে প্ৰিফিল আৰম্ভ কৰাৰ আগতে এটা সম্পূৰ্ণ ষ্টেটিক বেচ একত্ৰিত হ'বলৈ আৰু অপেক্ষা নকৰে। আন্তঃটোকেন বিলম্ব মধ্যমীয়া লোডৰ অধীনত সুস্থিৰ থাকে কিন্তু সংপৃক্ততাৰ অধীনত ধ্বংস হোৱাৰ পৰিবৰ্তে ৰূপৱতীভাৱে অৱনতি ঘটে, কাৰণ সময়সূচীকাৰীয়ে সকলো সক্ৰিয় ক্ৰমত আগলৈ অগ্ৰগতি কৰি থাকে আনকি শাৰী গভীৰ হ'লেও। বাস্তৱ-সময়ৰ AI বৈশিষ্ট্যসমূহ নিৰ্মাণ কৰা ব্যৱসায়সমূহৰ বাবে, এই ৰূপৱতী অৱক্ষয় বক্ৰ প্ৰায়ে শীৰ্ষ থ্ৰুপুট সংখ্যাতকৈ অধিক বাণিজ্যিকভাৱে গুৰুত্বপূৰ্ণ।

ব্যৱসায়সমূহে AI অনুমানৰ বাহিৰত অবিৰত বেচিং নীতিসমূহ কেনেকৈ প্ৰয়োগ কৰিব পাৰে?

অবিৰত বেচিঙৰ আঁৰৰ স্থাপত্য অন্তৰ্দৃষ্টি — সম্পদসমূহ সম্ভৱপৰ উত্তম গ্ৰেনুলেৰিটিত পুনৰুদ্ধাৰ কৰক আৰু এটা মোটা-দানাযুক্ত কামৰ একক শেষ হ'বলৈ অপেক্ষা কৰাৰ পৰিবৰ্তে তৎক্ষণাত পুনৰ নিযুক্ত কৰক — বৈষম্যপূৰ্ণ কাৰ্য্যভাৰ পৰিচালনা কৰা যিকোনো ব্যৱস্থাপ্ৰণালীৰ বাবে এটা সাধাৰণ নীতি। ব্যৱসায়িক অপাৰেটিং চিস্টেমসমূহে একে প্ৰত্যাহ্বানৰ সন্মুখীন হয়: বন্যভাৱে ভিন্ন সময়ৰ কামসমূহে CRM ৱৰ্কফ্ল'সমূহ, বিপণন স্বয়ংক্ৰিয়কৰণ, বিশ্লেষণ পাইপলাইন, আৰু ই-কমাৰ্চ কাৰ্য্যকলাপসমূহৰ মাজেৰে অংশীদাৰী প্ৰচেছিং ক্ষমতাৰ বাবে প্ৰতিযোগিতাত।

Mewayz এ এই দৰ্শন ইয়াৰ 207-মডিউল ব্যৱসায়িক অপাৰেটিং চিষ্টেমত প্ৰয়োগ কৰে, বিশ্বব্যাপী 138,000 ব্যৱসায়ীয়ে ব্যৱহৃত এটা সংহত প্লেটফৰ্মত কাৰ্য্যকৰী ৱৰ্কলোডসমূহক গতিশীলভাৱে ৰাউটিং কৰে। দলসমূহক বেচ প্ৰতিবেদন চক্ৰসমূহ, ক্ৰমিক অনুমোদন শাৰীসমূহ, বা চাইল কৰা সঁজুলি হেণ্ডঅফসমূহৰ বাবে অপেক্ষা কৰিবলৈ বাধ্য কৰাৰ পৰিবৰ্তে, Mewayz এ ব্যৱসায়িক ইভেন্টসমূহ অবিৰতভাৱে প্ৰক্ৰিয়া কৰে — সম্পূৰ্ণ কৰা আউটপুটসমূহক তৎক্ষণাত ডাউনষ্ট্ৰিম মডিউলসমূহলে ফিড কৰে যিদৰে এটা অবিৰত বেচিং সময়সূচীকাৰীয়ে মুক্ত GPU স্লটসমূহক অনুৰোধ শাৰীলৈ ঘূৰাই দিয়ে। ফলত কেৱল বেঞ্চমাৰ্ক নহয়, প্ৰকৃত ব্যৱসায়িক কাৰ্য্যকলাপত জুখিব পৰা থ্ৰুপুট উন্নতি।

সঘনাই সোধা প্ৰশ্ন

অবিৰত বেচিং TensorFlow চাৰ্ভিঙত গতিশীল বেচিঙৰ সৈতে একে নেকি?

নং। TensorFlow Serving ৰ গতিশীল বেচিঙে অনুৰোধসমূহক সময় উইন্ডোসমূহ আৰু শাৰীৰ গভীৰতাৰ ওপৰত ভিত্তি কৰি চলক আকাৰৰ বেচসমূহত একত্ৰিত কৰে, কিন্তু ই তথাপিও প্ৰতিটো বেচক আৰম্ভণিৰ পৰা শেষলৈকে পৰমাণুগতভাৱে প্ৰক্ৰিয়া কৰে। অবিৰত বেচিঙে ব্যক্তিগত টোকেন উৎপাদন পদক্ষেপত কাম কৰে, বেচৰ গঠনক প্ৰতিটো ফৰৱাৰ্ড পাছ সলনি কৰাৰ অনুমতি দিয়ে। গ্ৰেনুলেৰিটিৰ পাৰ্থক্যটো হ'ল কিয় অবিৰত বেচিঙে বিশেষভাৱে অটোৰিগ্ৰেছিভ প্ৰজন্মৰ কাৰ্য্যভাৰৰ বাবে যথেষ্ট বেছি থ্ৰুপুট লাভ কৰে।

অবিৰত বেচিঙৰ বাবে আৰ্হি স্থাপত্য পৰিবৰ্তনৰ প্ৰয়োজন হয়নে?

মানক ট্ৰেন্সফৰ্মাৰ স্থাপত্যসমূহৰ কোনো পৰিবৰ্তনৰ প্ৰয়োজন নাই। অবিৰত বেচিং সম্পূৰ্ণৰূপে চাৰ্ভিং স্তৰত প্ৰণয়ন কৰা হয় অনুমান নিৰ্ধাৰক, মেমৰি ব্যৱস্থাপক, আৰু মনোযোগ কাৰ্ণেললৈ পৰিবৰ্তনৰ যোগেদি । কিন্তু, কিছুমান অনুকূলন — বিশেষকৈ PagedAttention — স্বনিৰ্বাচিত CUDA কাৰ্ণেলসমূহৰ প্ৰয়োজন যি প্ৰামাণিক মনোযোগ প্ৰণয়নসমূহ সলনি কৰে, যি কাৰণে উৎপাদন-গ্ৰেড অবিৰত বেচিং কাঠামোসমূহ যেনে vLLM আৰু TensorRT-LLM সাধাৰণ-উদ্দেশ্য অনুমান চাৰ্ভাৰসমূহৰ বাবে ড্ৰপ-ইন প্ৰতিস্থাপন নহয়।

কি কি হাৰ্ডৱেৰ বাধাই অবিৰত বেচিং ফলপ্ৰসূতাক সীমিত কৰে?

GPU HBM বেণ্ডউইডথ আৰু মুঠ VRAM ক্ষমতা প্ৰাথমিক বাধাসমূহ। ডাঙৰ KV কেশ্বসমূহৰ অধিক মেমৰিৰ প্ৰয়োজন হয়, সৰ্বাধিক সমকালীনতা সীমিত কৰি। উচ্চ-বেণ্ডউইডথ আন্তঃসংযোগসমূহ (NVLink, Infiniband) বহু-GPU মোতায়েনৰ বাবে জটিল হৈ পৰে য'ত KV কেশ্ব ডিভাইচসমূহৰ মাজেৰে বিতৰণ কৰিব লাগিব। মেমৰি-সীমিত পৰিৱেশত, KV কেশ্ব মানসমূহৰ আক্ৰমণাত্মক কোৱাণ্টাইজেচনে (FP16 ৰ পৰা INT8 বা INT4 লৈ) এটা সৰু সঠিকতা অৱক্ষয়ৰ মূল্যত ক্ষমতা পুনৰুদ্ধাৰ কৰে যি বেছিভাগ বাণিজ্যিক এপ্লিকেচনৰ বাবে গ্ৰহণযোগ্য।


আপুনি AI-চালিত বৈশিষ্ট্যসমূহ নিৰ্মাণ কৰক বা আপোনাৰ সমগ্ৰ প্ৰতিষ্ঠানত জটিল ব্যৱসায়িক কাৰ্য্যসমূহ অৰ্কেষ্ট্ৰেট কৰক, অন্তৰ্নিহিত নীতি একে: অচল সময় আঁতৰাওক, ক্ষমতা অবিৰতভাৱে পুনৰুদ্ধাৰ কৰক, আৰু আপোনাৰ ইতিমধ্যে থকা সম্পদসমূহৰ সৈতে অধিক কাম প্ৰক্ৰিয়া কৰক। মেৱাইজে সেই নীতিক ২০৭টা সংহত মডিউলত বাস্তৱত প্ৰয়োগ কৰে — চি আৰ এম আৰু ই-কমাৰ্চৰ পৰা বিশ্লেষণ আৰু দলীয় সহযোগিতালৈকে — প্ৰতিমাহে ১৯ ডলাৰৰ পৰা আৰম্ভ কৰি।

আপোনাৰ ব্যৱসায় সম্পূৰ্ণ থ্ৰুপুটত চলাবলৈ সাজুনে? app.mewayz.com ত আপোনাৰ বিনামূলীয়া পৰীক্ষামূলক আৰম্ভ কৰক আৰু চাওক যে Mewayz ৰ সৈতে কেনেকৈ 138,000 ব্যৱসায় স্মাৰ্টভাৱে চলি আছে।

পুনৰুদ্ধাৰ কৰে

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime