முதல் கொள்கைகளிலிருந்து தொடர்ச்சியான தொகுப்பு (2025)
முதல் கொள்கைகளிலிருந்து தொடர்ச்சியான தொகுப்பு (2025) தொடர்ச்சியான இந்த விரிவான பகுப்பாய்வு அதன் முக்கிய கூறுகள் மற்றும் பரந்த தாக்கங்கள் பற்றிய விரிவான ஆய்வுகளை வழங்குகிறது. கவனம் செலுத்தும் முக்கிய பகுதிகள் விவாதம் மையமாக உள்ளது: முக்கிய வழிமுறைகள் மற்றும்...
Mewayz Team
Editorial Team
முதல் கோட்பாடுகளிலிருந்து தொடர்ச்சியான தொகுப்பு (2025)
தொடர்ச்சியான பேட்ச்சிங் என்பது ஒரு டைனமிக் அனுமான திட்டமிடல் நுட்பமாகும், இது ஒரு செயலில் உள்ள செயலாக்கத் தொகுப்பில் புதிய கோரிக்கைகளைச் செருகுவதன் மூலம் வன்பொருள் செயல்திறனை அதிகப்படுத்துகிறது. முதல் கொள்கைகளிலிருந்து இதைப் புரிந்துகொள்வது, 2025 ஆம் ஆண்டில் பயன்படுத்தப்படும் ஒவ்வொரு உயர்-செயல்திறன் AI சேவை அமைப்புக்கும் அடிப்படைக் கட்டமைப்பாக மாறியது ஏன் என்பதை வெளிப்படுத்துகிறது.
தொடர்ச்சியான பேட்சிங் என்றால் என்ன மற்றும் நிலையான பேட்சிங் ஏன் தோல்வியடைந்தது?
தொடர்ச்சியான தொகுப்பைப் பாராட்ட, அது எதை மாற்றியது என்பதை நீங்கள் முதலில் புரிந்து கொள்ள வேண்டும். பாரம்பரிய நிலையான பேட்ச்சிங் குழுக்கள் ஒரு நிலையான எண்ணிக்கையிலான கோரிக்கைகளை ஒன்றாக இணைத்து, அவற்றை ஒரு யூனிட்டாக செயலாக்குகிறது, மேலும் முழு தொகுதியும் முடிந்த பிறகு மட்டுமே புதிய கோரிக்கைகளை ஏற்கிறது. முக்கியமான குறைபாடு என்னவென்றால், பெரிய மொழி மாதிரிகள் மாறி நீளத்தின் டோக்கன்களை உருவாக்குகின்றன - ஒரு கோரிக்கை 20 டோக்கன்களுக்குப் பிறகு நிறுத்தப்படலாம், அதே தொகுப்பில் மற்றொரு கோரிக்கை 2,000 க்கு இயங்கும். கிளஸ்டரில் உள்ள ஒவ்வொரு ஜி.பீ.யுவும் எந்த ஒரு புதிய வேலையும் தொடங்குவதற்கு முன் நீண்ட வரிசையை முடிக்கும் வரை செயலற்ற நிலையில் இருக்கும்.
தொடர்ச்சியான பேட்ச்சிங், மைல்மார்க் 2022 பேப்பர் "Orca: A Distributed Serving System for Transformer-Based Generative Models" இல் முன்னோடியாக இந்த தடையை முழுவதுமாக உடைக்கிறது. இது கோரிக்கை அளவை விட மறுபடி செய்யும் நிலையில் செயல்படுகிறது. மாதிரியின் மூலம் ஒவ்வொரு முன்னோக்கிச் சென்ற பிறகும், எந்த வரிசையும் அதன் இறுதி-வரிசை டோக்கனை அடைந்துள்ளதா என்பதை திட்டமிடுபவர் சரிபார்க்கிறார். அது இருந்தால், அந்த ஸ்லாட் உடனடியாக மீட்டெடுக்கப்பட்டு வரிசைப்படுத்தப்பட்ட கோரிக்கைக்கு ஒதுக்கப்படும் - காத்திருப்பு இல்லை, வீண்விரயம் இல்லை. ஒவ்வொரு டிகோட் படியிலும் தொகுதி கலவை திரவமாக மாறுகிறது, வன்பொருள் பயன்பாட்டை எல்லா நேரங்களிலும் கோட்பாட்டு அதிகபட்சமாக வைத்திருக்கும்.
கணினி மட்டத்தில் தொடர்ச்சியான பேச்சிங்குடன் KV கேச் எவ்வாறு தொடர்பு கொள்கிறது?
விசை-மதிப்பு கேச் என்பது மின்மாற்றி அனுமானத்தை கண்டறியக்கூடிய நினைவக அமைப்பாகும். செயலாக்கப்பட்ட ஒவ்வொரு டோக்கனுக்கும், மாடல் கவனம் செலுத்தும் விசைகள் மற்றும் மதிப்புகளைத் தக்க வைத்துக் கொள்ள வேண்டும், எனவே அடுத்தடுத்த டோக்கன்கள் தேவையற்ற கணக்கீட்டை மீண்டும் செய்யாது. நிலையான தொகுப்பு அமைப்பில், கேவி கேச் ஒதுக்கீடு நேரடியானது: தொகுப்பில் உள்ள ஒவ்வொரு கோரிக்கைக்கும் அதிகபட்ச வரிசை நீளத்திற்கு விகிதாசாரமாக நினைவகத்தை ஒதுக்கவும்.
தொடர்ச்சியான பேட்ச்சிங் இதை நேர்த்தியாக சிக்கலாக்குகிறது. கணிக்க முடியாத நேரங்களில் கோரிக்கைகள் தொகுதிக்குள் நுழைந்து வெளியேறுவதால், கணினியால் நிலையான தொடர்ச்சியான நினைவக தொகுதிகளை முன்-ஒதுக்கீடு செய்ய முடியாது. 2023 இல் அறிமுகப்படுத்தப்பட்ட vLLM இன் பேஜ் அட்டென்ஷன் - உற்பத்தி வரிசைப்படுத்தல்களில் தொடர்ச்சியான தொகுப்பிலிருந்து பிரிக்க முடியாதது இதனால்தான். PagedAttention இயக்க முறைமைகளில் இருந்து மெய்நிகர் நினைவக பேஜிங் மாதிரியை கடன் வாங்குகிறது, KV தற்காலிக சேமிப்பை சம அளவுள்ள தொடர்ச்சியற்ற தொகுதிகளாகப் பிரிக்கிறது. மெய்நிகர் நினைவகப் பக்கங்கள் இயற்பியல் ரேம் முழுவதும் சிதறிக்கிடப்பதைப் போலவே ஒரு வரிசையின் கேச் பக்கங்களும் GPU நினைவகம் முழுவதும் சிதறடிக்கப்படலாம். இதன் விளைவாக, துண்டு துண்டாக இருந்து பூஜ்ஜியத்திற்கு அருகில் உள்ள நினைவகக் கழிவுகள், கூடுதல் வன்பொருள் முதலீடு இல்லாமல் நேரடியாக அதிக தொகுதி அளவுகள் மற்றும் அதிக செயல்திறன் ஆகியவற்றை மொழிபெயர்க்கும்.
தொடர்ச்சியான பேட்சிங் வேலை செய்யும் முக்கிய திட்டமிடல் வழிமுறைகள் என்ன?
ஒவ்வொரு தொடர்ச்சியான பேட்ச்சிங் அமைப்பையும் மூன்று ஒன்றுக்கொன்று சார்ந்த திட்டமிடல் முடிவுகள்:
- முன்கூட்டிய கொள்கை: நினைவக அழுத்தம் அதிகமாகி, புதிய உயர் முன்னுரிமைக் கோரிக்கை வரும்போது, இயங்கும் குறைந்த முன்னுரிமை வரிசையை முன்கூட்டியே மாற்ற வேண்டுமா, அதன் KV தற்காலிக சேமிப்பை CPU RAMக்கு மாற்ற வேண்டுமா அல்லது முதலில் இருந்து மீண்டும் கணக்கிட வேண்டுமா என்பதை திட்டமிடுபவர் தீர்மானிக்க வேண்டும். ஸ்வாப்-அடிப்படையிலான ப்ரீம்ப்ஷன் கணக்கீட்டைப் பாதுகாக்கிறது ஆனால் PCIe அலைவரிசையைப் பயன்படுத்துகிறது; மறுகணிப்பு GPU சுழற்சிகளை வீணாக்குகிறது ஆனால் நினைவகத்தை சுத்தமாக வைத்திருக்கும்.
- சேர்க்கை கட்டுப்பாடு: புதிய கோரிக்கையின் KV கேச் அதன் முழு தலைமுறை வாழ்நாள் முழுவதும் கிடைக்கும் நினைவகத்தில் பொருந்துமா என்பதை திட்டமிடுபவர் கணிக்க வேண்டும். குறைத்து மதிப்பிடுவது, அவுட்-ஆஃப்-மெமரி க்ராஷ்களின் இடை-வரிசையின் காரணங்களை; தேவையில்லாமல் வரிசையில் பட்டினி கிடக்கிறது. இந்த அபாயங்களை சமப்படுத்த நவீன அமைப்புகள் சுயவிவர நீள விநியோகங்கள் மற்றும் முன்பதிவு இடையகங்களைப் பயன்படுத்துகின்றன.
- துண்டிக்கப்பட்ட ப்ரீஃபில்: ப்ரீஃபில் ஃபேஸ் — பயனரின் உள்ளீடு ப்ராம்ட்டைச் செயலாக்குகிறது — இது கணக்கீட்டுக்கு உட்பட்டது மற்றும் GPU ஐ ஏகபோகமாக்குகிறது, ஏற்கனவே இயங்கும் வரிசைகளுக்கான டிகோட் படிகளை தாமதப்படுத்துகிறது. துண்டிக்கப்பட்ட ப்ரீஃபில் நீண்ட ப்ராம்ப்ட்களை நிலையான அளவு துகள்களாக பிரிக்கிறது, இது டிகோட் மறு செய்கைகளுடன் பின்னிப்பிணைந்துள்ளதால், ஒரே நேரத்தில் பயன்படுத்துபவர்களுக்கான நேரத்திலிருந்து முதல் டோக்கன் தாமதத்தைக் குறைக்கிறது.
- முன்னுரிமை வரிசை: SLA அடுக்கு மூலம் நிறுவன வரிசைப்படுத்தல் பிரிவு கோரிக்கைகள். தாமதம் உணர்திறன் API முன்கூட்டிய சிறந்த முயற்சி தொகுதி வேலைகளை அழைக்கிறது. இந்த அடுக்கு இல்லாமல், ஒரு நீண்ட ஆவணச் சுருக்கப் பணியானது நூற்றுக்கணக்கான ஒரே நேர அமர்வுகளுக்கான ஊடாடும் பயனர் அனுபவத்தை சிதைத்துவிடும்.
"தொடர்ச்சியான பேட்ச்சிங் செயல்திறனை மட்டும் மேம்படுத்தாது - இது AI அனுமானத்தின் பொருளாதார மாதிரியை மறுசீரமைக்கிறது. GPUகளை கிரானுலாரிட்டியைக் கோருவதற்குப் பதிலாக, 5-10× அதிக பயனுள்ள வன்பொருளில் இருந்து ஆபரேட்டர்கள் 5-10× அதிக பயனுள்ள பயன்பாட்டை அடைகிறார்கள்.
நிஜ-உலக வரிசைப்படுத்தல்கள் செயல்திறன் ஆதாயங்களை எவ்வாறு அளவிடுகின்றன?
எனிஸ்கேலின் பெஞ்ச்மார்க் முடிவுகள், 2024 இல் பல மாதிரிக் குடும்பங்களில் சுயாதீனமான மறுஉற்பத்திகளுடன், யதார்த்தமான போக்குவரத்து முறைகளின் கீழ் அப்பாவி நிலையான பேச்சிங்குடன் ஒப்பிடும்போது, 23× மற்றும் 36× இடையே அதிக செயல்திறன் வழங்குவதைத் தொடர்ந்து காட்டுகின்றன. கோரிக்கை நீள மாறுபாடு அதிகமாக இருக்கும் போது ஆதாயங்கள் மிகவும் உச்சரிக்கப்படுகின்றன - பயனர் வினவல்கள் மூன்று-வார்த்தை தூண்டுதல்கள் முதல் பல பக்க ஆவண சமர்ப்பிப்புகள் வரையிலான உற்பத்தி உரையாடல் AI பணிச்சுமைகளை வகைப்படுத்தும் நிபந்தனைகள்.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →லேட்டன்சி மிகவும் நுணுக்கமான கதையைச் சொல்கிறது. டைம்-டு-ஃபர்ஸ்ட்-டோக்கன் வியத்தகு முறையில் மேம்படுகிறது, ஏனெனில் முன் நிரப்புதலைத் தொடங்குவதற்கு முன் ஒரு முழு நிலையான தொகுதி ஒன்று சேர்வதற்கு கணினி இனி காத்திருக்காது. இடை-டோக்கன் தாமதமானது மிதமான சுமையின் கீழ் நிலையாக இருக்கும், ஆனால் வரிசை ஆழமாக வளர்ந்தாலும் கூட, திட்டமிடுபவர் அனைத்து செயலில் உள்ள தொடர்களிலும் முன்னோக்கி முன்னேறி வருவதால், இடிந்து விழுவதற்குப் பதிலாக செறிவூட்டலின் கீழ் அழகாகச் சிதைகிறது. நிகழ்நேர AI அம்சங்களை உருவாக்கும் வணிகங்களுக்கு, இந்த அழகான சீரழிவு வளைவு, உச்ச செயல்திறன் எண்களை விட வணிகரீதியாக மிகவும் முக்கியமானது.
AI அனுமானத்திற்கு அப்பால் வணிகங்கள் எவ்வாறு தொடர்ச்சியான பேட்சிங் கோட்பாடுகளைப் பயன்படுத்தலாம்?
தொடர்ச்சியான பேட்ச்சிங்கின் பின்னணியில் உள்ள கட்டடக்கலை நுண்ணறிவு - சாத்தியமான சிறந்த நுணுக்கத்தில் வளங்களை மீட்டெடுப்பது மற்றும் ஒரு கரடுமுரடான வேலை அலகு முடிவடையும் வரை காத்திருப்பதற்குப் பதிலாக உடனடியாக அவற்றை மறுஒதுக்கீடு செய்வது - பன்முகத்தன்மை வாய்ந்த பணிச்சுமைகளை நிர்வகிக்கும் எந்தவொரு அமைப்புக்கும் பொதுவான கொள்கையாகும். வணிக இயக்க முறைமைகளும் இதே சவாலை எதிர்கொள்கின்றன: CRM பணிப்பாய்வுகள், சந்தைப்படுத்தல் ஆட்டோமேஷன், பகுப்பாய்வு பைப்லைன்கள் மற்றும் இ-காமர்ஸ் செயல்பாடுகள் ஆகியவற்றில் பகிரப்பட்ட செயலாக்கத் திறனுக்காகப் போட்டியிடும் பல்வேறு காலகட்டங்களின் பணிகள்.
Mewayz இந்த தத்துவத்தை அதன் 207-தொகுதி வணிக OS முழுவதும் பயன்படுத்துகிறது, உலகளவில் 138,000 வணிகங்கள் பயன்படுத்தும் ஒருங்கிணைந்த இயங்குதளத்தில் செயல்பாட்டு பணிச்சுமைகளை மாறும் வகையில் ரூட் செய்கிறது. குழு அறிக்கையிடல் சுழற்சிகள், வரிசைமுறை ஒப்புதல் வரிசைகள் அல்லது சைல்டு கருவி கையேடுகளுக்காகக் காத்திருக்கும்படி குழுக்களை நிர்ப்பந்திப்பதற்குப் பதிலாக, Mewayz வணிக நிகழ்வுகளைத் தொடர்ந்து செயல்படுத்துகிறது - ஒரு தொடர்ச்சியான பேட்ச் ஷெட்யூலர் விடுவிக்கப்பட்ட GPU ஸ்லாட்டுகளை கோரிக்கை வரிசைக்குத் திரும்பச் செலுத்தும் விதத்தில் முடிக்கப்பட்ட வெளியீடுகளை உடனடியாக கீழ்நிலை தொகுதிகளில் ஊட்டுகிறது. இதன் விளைவாக உண்மையான வணிகச் செயல்பாடுகளில் அளவிடக்கூடிய செயல்திறன் மேம்பாடு உள்ளது, வரையறைகள் மட்டும் அல்ல.
அடிக்கடி கேட்கப்படும் கேள்விகள்
டென்சர்ஃப்ளோ சர்விங்கில் டைனமிக் பேச்சிங் செய்வதும், தொடர்ச்சியான பேட்ச் செய்வதும் ஒன்றா?
இல்லை. டென்சர்ஃப்ளோ சர்விங்கின் டைனமிக் பேட்ச்சிங் ஆனது நேர சாளரங்கள் மற்றும் வரிசை ஆழத்தின் அடிப்படையில் மாறி அளவுகளின் தொகுதிகளாக கோரிக்கைகளை ஒருங்கிணைக்கிறது, ஆனால் இது ஒவ்வொரு தொகுப்பையும் தொடக்கத்தில் இருந்து இறுதி வரை அணு ரீதியாக செயலாக்குகிறது. தொடர்ச்சியான பேட்ச்சிங் தனிப்பட்ட டோக்கன் உருவாக்கப் படியில் செயல்படுகிறது, இது ஒவ்வொரு முன்னோக்கி பாஸையும் மாற்றுவதற்கு தொகுதி கலவையை அனுமதிக்கிறது. கிரானுலாரிட்டி வேறுபாடு என்னவென்றால், தொடர்ச்சியான பேட்ச்சிங் குறிப்பாக தன்னியக்க பிற்போக்கு தலைமுறை பணிச்சுமைகளுக்கு கணிசமாக அதிக செயல்திறனை அடைகிறது.
தொடர்ச்சியான தொகுப்பிற்கு மாதிரி கட்டமைப்பு மாற்றங்கள் தேவையா?
நிலையான மின்மாற்றி கட்டமைப்புகளுக்கு எந்த மாற்றமும் தேவையில்லை. அனுமானம் திட்டமிடுபவர், நினைவக மேலாளர் மற்றும் கவனம் கர்னல் ஆகியவற்றில் மாற்றங்கள் மூலம் தொடர்ச்சியான பேட்ச்சிங் முற்றிலும் சேவை அடுக்கில் செயல்படுத்தப்படுகிறது. இருப்பினும், சில மேம்படுத்தல்களுக்கு - குறிப்பாக பேஜ் கவனத்திற்கு - நிலையான கவனச் செயலாக்கங்களை மாற்றியமைக்கும் தனிப்பயன் CUDA கர்னல்கள் தேவைப்படுகின்றன, அதனால்தான் vLLM மற்றும் TensorRT-LLM போன்ற உற்பத்தி-தர தொடர்ச்சியான தொகுதி கட்டமைப்புகள் பொது நோக்கத்திற்கான அனுமான சேவையகங்களுக்கு மாற்றாக இல்லை.
எந்த வன்பொருள் கட்டுப்பாடுகள் தொடர்ச்சியான பேட்ச் செயல்திறனைக் கட்டுப்படுத்துகின்றன?
GPU HBM அலைவரிசை மற்றும் மொத்த VRAM திறன் ஆகியவை முதன்மைக் கட்டுப்பாடுகள். பெரிய KV கேச்களுக்கு அதிக நினைவகம் தேவைப்படுகிறது, அதிகபட்ச ஒத்திசைவைக் கட்டுப்படுத்துகிறது. உயர்-அலைவரிசை இடைஇணைப்புகள் (NVLink, Infiniband) பல GPU வரிசைப்படுத்தல்களுக்கு முக்கியமானதாகிறது, அங்கு KV கேச் சாதனங்கள் முழுவதும் விநியோகிக்கப்பட வேண்டும். நினைவகம்-கட்டுப்படுத்தப்பட்ட சூழல்களில், KV கேச் மதிப்புகளின் (FP16 இலிருந்து INT8 அல்லது INT4 வரை) ஆக்கிரமிப்பு அளவீடு, பெரும்பாலான வணிகப் பயன்பாடுகளுக்கு ஏற்றுக்கொள்ளக்கூடிய சிறிய துல்லியச் சிதைவின் செலவில் திறனை மீட்டெடுக்கிறது.
நீங்கள் AI-இயங்கும் அம்சங்களை உருவாக்கினாலும் அல்லது உங்கள் முழு நிறுவனத்திலும் சிக்கலான வணிகச் செயல்பாடுகளைத் திட்டமிடினாலும், அடிப்படைக் கொள்கை ஒரே மாதிரியாக இருக்கும்: செயலற்ற நேரத்தை அகற்றவும், திறனைத் தொடர்ந்து மீட்டெடுக்கவும், மேலும் உங்களிடம் ஏற்கனவே உள்ள வளங்களைக் கொண்டு அதிக வேலைகளைச் செய்யவும். Mewayz அந்தக் கொள்கையை 207 ஒருங்கிணைந்த தொகுதிகள் முழுவதும் நடைமுறைப்படுத்துகிறது — CRM மற்றும் இ-காமர்ஸ் முதல் பகுப்பாய்வு மற்றும் குழு ஒத்துழைப்பு வரை — மாதத்திற்கு $19 இல் தொடங்குகிறது.
உங்கள் வணிகத்தை முழுத் திறனுடன் நடத்தத் தயாரா? app.mewayz.com இல் உங்கள் இலவச சோதனையைத் தொடங்கவும் மற்றும் 138,000 வணிகங்கள் Mewayz மூலம் எவ்வாறு சிறப்பாகச் செயல்படுகின்றன என்பதைப் பார்க்கவும்.
Try Mewayz Free
All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.
Get more articles like this
Weekly business tips and product updates. Free forever.
You're subscribed!
Start managing your business smarter today
Join 30,000+ businesses. Free forever plan · No credit card required.
Ready to put this into practice?
Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.
Start Free Trial →Related articles
Hacker News
9 Mothers (YC P26) Is Hiring – Lead Robotics and More
Apr 7, 2026
Hacker News
NanoClaw's Architecture Is a Masterclass in Doing Less
Apr 7, 2026
Hacker News
Dropping Cloudflare for Bunny.net
Apr 7, 2026
Hacker News
The best tools for sending an email if you go silent
Apr 7, 2026
Hacker News
"The new Copilot app for Windows 11 is really just Microsoft Edge"
Apr 7, 2026
Hacker News
Show HN: A cartographer's attempt to realistically map Tolkien's world
Apr 7, 2026
Ready to take action?
Start your free Mewayz trial today
All-in-one business platform. No credit card required.
Start Free →14-day free trial · No credit card · Cancel anytime