Hacker News

İlk prinsiplərdən davamlı yığınlama (2025)

İlk prinsiplərdən davamlı yığınlama (2025) Davamlı olan bu hərtərəfli təhlil onun əsas komponentlərinin və daha geniş təsirlərinin ətraflı araşdırılmasını təklif edir. Əsas Diqqət Sahələri Müzakirələrin mərkəzi: Əsas mexanizmlər və...

13 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Birinci Prinsiplərdən Davamlı Batching (2025)

Davamlı yığınlama, slot boşaldığı anda aktiv emal partiyasına yeni sorğular daxil etməklə aparat məhsuldarlığını maksimum dərəcədə artıran, işlər arasında boş hesablama dövrlərini aradan qaldıran dinamik nəticə planlaşdırma texnikasıdır. Onu ilk prinsiplərdən başa düşmək onun nə üçün 2025-ci ildə geniş miqyasda tətbiq edilən hər bir yüksək performanslı AI xidmət sistemi üçün təməl arxitekturaya çevrildiyini ortaya qoyur.

Davamlı Partiya Nədir və Statik Dəstləşdirmə Niyə Uğursuz Oldu?

Davamlı yığımları qiymətləndirmək üçün əvvəlcə onun nəyi əvəz etdiyini başa düşməlisiniz. Ənənəvi statik paketləşdirmə müəyyən sayda sorğuları birlikdə qruplaşdırır, onları vahid vahid kimi emal edir və yalnız bütün toplu başa çatdıqdan sonra yeni sorğuları qəbul edir. Kritik çatışmazlıq ondan ibarətdir ki, böyük dil modelləri dəyişən uzunluqda tokenlər yaradır - bir sorğu 20 tokendən sonra dayandırıla bilər, eyni topluda digəri isə 2000-ə işləyir. Klasterdəki hər bir GPU boş vəziyyətdə oturur və hər hansı yeni işə başlamazdan əvvəl ən uzun ardıcıllığın tamamlanmasını gözləyir.

2022-ci ilin "Orca: Transformatora əsaslanan generativ modellər üçün paylanmış xidmət sistemi" adlı sənəddə öncülük edilən fasiləsiz yığım bu məhdudiyyəti tamamilə pozur. O, sorğu səviyyəsində deyil, itrasiya səviyyəsində işləyir. Modeldən hər bir irəli keçiddən sonra planlaşdırıcı hər hansı ardıcıllığın ardıcıllığın sonuna çatdığını yoxlayır. Əgər varsa, o yuva dərhal geri alınır və növbəyə qoyulmuş sorğuya təyin edilir – gözləmə, israf etmə. Partiya tərkibi hər deşifrə addımı ilə axıcı şəkildə dəyişir və hər zaman avadanlıqdan istifadəni nəzəri maksimuma yaxın saxlayır.

KV Keşi Sistem Səviyyəsində Davamlı Paketləmə ilə necə qarşılıqlı əlaqədə olur?

Açar-dəyər keşi transformatordan nəticə çıxarmağı asanlaşdıran yaddaş strukturudur. İşlənmiş hər bir işarə üçün model diqqət açarlarını və saxlanmalı olan dəyərləri hesablayır, beləliklə, sonrakı tokenlər lazımsız hesablamaları təkrarlamasın. Statik toplulaşdırma sistemində KV keşinin ayrılması sadədir: topludakı hər sorğu üçün maksimum ardıcıllığın uzunluğuna mütənasib yaddaş ehtiyatı ayırın.

Davamlı yığım bunu zərif şəkildə çətinləşdirir. Sorğular gözlənilməz vaxtlarda topluya daxil olduğu və çıxdığı üçün sistem sabit bitişik yaddaş bloklarını əvvəlcədən ayıra bilmir. Məhz buna görə vLLM-in 2023-cü ildə təqdim edilən PagedAttention-ı istehsal yerləşdirmələrində fasiləsiz paketləşdirmədən ayrılmaz hala gəldi. PagedAttention, KV önbelleğini bərabər ölçülü bitişik olmayan bloklara bölərək, əməliyyat sistemlərindən virtual yaddaş səhifələmə modelini götürür. Ardıcıllığın keş səhifələri virtual yaddaş səhifələri fiziki RAM-a səpələndiyi kimi GPU yaddaşına səpələnə bilər. Nəticə parçalanma nəticəsində sıfıra yaxın yaddaş itkisidir ki, bu da əlavə avadanlıq sərmayəsi olmadan birbaşa daha yüksək toplu ölçülərə və yüksək ötürmə qabiliyyətinə çevrilir.

Davamlı yığım işini təmin edən əsas planlaşdırma mexanizmləri hansılardır?

Bir-birindən asılı olan üç planlaşdırma qərarı hər bir fasiləsiz yığım sistemini idarə edir:

  • Qabaqcıllıq siyasəti: Yaddaş təzyiqi yüksək olduqda və yeni yüksək prioritetli sorğu daxil olduqda, planlaşdırıcı işləyən aşağı prioritet ardıcıllığı qabaqcadan almağa, KV keşini CPU RAM-a dəyişdirməyə və ya daha sonra onu sıfırdan hesablamağa qərar verməlidir. Mübadilə əsaslı üstünlük hesablamanı qoruyur, lakin PCIe bant genişliyini sərf edir; yenidən hesablama GPU dövrlərini sərf edir, lakin yaddaşı təmiz saxlayır.
  • Qəbul nəzarəti: Planlaşdırıcı yeni sorğunun KV keşinin onun tam nəsil ömrü boyu mövcud yaddaşa uyğun olub-olmayacağını proqnozlaşdırmalıdır. Yaddaş çatışmazlığının səbəblərinin düzgün qiymətləndirilməməsi ardıcıllığın ortasında baş verir; həddindən artıq qiymətləndirmək növbəni lazımsız yerə ac qoyur. Müasir sistemlər bu riskləri tarazlaşdırmaq üçün profilli uzunluq paylamalarından və rezervasiya buferlərindən istifadə edir.
  • Qurulmuş qabaqcadan doldurma: Əvvəlcədən doldurma mərhələsi — istifadəçinin daxiletmə sorğusunun işlənməsi — hesablamaya bağlıdır və artıq işləyən ardıcıllıqlar üçün deşifrələmə addımlarını gecikdirərək GPU-nu monopoliyaya sala bilər. Parçalanmış qabaqcadan doldurma uzun bildirişləri deşifrə iterasiyaları ilə bir-birinə qarışmış sabit ölçülü hissələrə bölərək, eyni vaxtda işləyən istifadəçilər üçün ilkin işarələrə qədər gecikməni bir qədər aşağı xammal doldurma ötürmə qabiliyyəti hesabına azaldır.
  • Prioritet növbəsi: SLA səviyyəsi üzrə müəssisə yerləşdirmə seqment sorğuları. Gecikməyə həssas API ən yaxşı səy göstərən toplu işlərə çağırır. Bu təbəqə olmadan, bir uzun sənədin ümumiləşdirilməsi tapşırığı yüzlərlə paralel seans üçün interaktiv istifadəçi təcrübəsini pisləşdirə bilər.

"Davamlı yığım təkcə ötürmə qabiliyyətini yaxşılaşdırmır, həm də süni intellekt qənaətinin iqtisadi modelini yenidən qurur. GPU-ları qranularlıq tələb etməkdənsə, təkrarlama dənəvərliyində tutmaqla operatorlar eyni avadanlıqdan 5-10 qat daha yüksək effektiv istifadəyə nail olurlar ki, bu da xidmət başına düşən xərcləri azaltmaq üçün mövcud olan yeganə ən böyük rıçaqdır.

2."

Real-Dünya Yerləşdirmələri Performans Qazanclarını Necə Ölçürür?

Anyscale-in müqayisəli nəticələri, 2024-cü ildə çoxsaylı model ailələri üzrə müstəqil reproduksiyalarla birlikdə, ardıcıl olaraq, real trafik nümunələri altında sadəlövh statik yığımla müqayisədə 23× və 36× daha yüksək ötürmə qabiliyyətini təmin edən davamlı paketləşdirməni göstərir. Müraciət uzunluğu fərqinin yüksək olduğu zaman qazanc daha çox nəzərə çarpır – məhz istifadəçi sorğularının üç sözdən ibarət göstərişlərdən çox səhifəli sənəd təqdimatlarına qədər olan istehsal danışıq AI iş yüklərini xarakterizə edən şərtlər.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Gecikmə daha nüanslı hekayəni izah edir. İlk tokenə qədər olan vaxt kəskin şəkildə yaxşılaşır, çünki sistem əvvəlcədən doldurmağa başlamazdan əvvəl tam statik partiyanın yığılmasını gözləmir. Tokenlərarası gecikmə orta yüklənmə altında sabit qalır, lakin çökmək əvəzinə doyma altında zərif şəkildə pisləşir, çünki planlayıcı hətta növbə dərinləşdikdə belə bütün aktiv ardıcıllıqlar üzrə irəliləməyə davam edir. Real vaxtda süni intellekt xüsusiyyətlərini yaradan bizneslər üçün bu zərif deqradasiya əyrisi tez-tez kommersiya baxımından ən yüksək ötürmə göstəricilərindən daha vacibdir.

Müəssisələr AI nəticələrindən başqa Davamlı Batching Prinsiplərini necə tətbiq edə bilər?

Davamlı yığımın arxasında olan memarlıq anlayışı – resursları mümkün olan ən yaxşı zərifliklə bərpa edin və iri dənəli iş vahidinin bitməsini gözləmək əvəzinə dərhal onları yenidən təyin edin – heterojen iş yüklərini idarə edən istənilən sistem üçün ümumi prinsipdir. Biznes əməliyyat sistemləri eyni problemlə üzləşir: CRM iş axınları, marketinq avtomatlaşdırılması, analitik boru kəmərləri və e-ticarət əməliyyatları üzrə paylaşılan emal gücü uğrunda mübarizə aparan çox fərqli uzunluqlu vəzifələr.

Mewayz bu fəlsəfəni 207 modullu biznes ƏS-də tətbiq edərək, əməliyyat iş yüklərini bütün dünyada 138.000 biznes tərəfindən istifadə edilən inteqrasiya olunmuş platformada dinamik şəkildə yönləndirir. Komandaları toplu hesabat dövrlərini, ardıcıl təsdiq növbələrini və ya alət təhvil verilməsini gözləməyə məcbur etmək əvəzinə, Mewayz biznes hadisələrini davamlı olaraq emal edir - bitmiş nəticələri dərhal aşağı axın modullarına qidalandırır, belə ki, fasiləsiz paketləmə planlaşdırıcısı boşaldılmış GPU yuvalarını sorğu növbəsinə qaytarır. Nəticə təkcə etalon göstəricilər deyil, faktiki biznes əməliyyatlarında ölçülə bilən ötürmə qabiliyyətinin yaxşılaşdırılmasıdır.

Tez-tez verilən suallar

Davamlı yığım TensorFlow Xidmətində dinamik toplulaşdırma ilə eynidir?

Xeyr. TensorFlow Serving-in dinamik partiyası sorğuları vaxt pəncərələrinə və növbənin dərinliyinə əsaslanaraq dəyişən ölçülü dəstlərə toplayır, lakin o, yenə də hər partiyanı atomik şəkildə əvvəldən sona qədər emal edir. Davamlı paketləşdirmə fərdi token generasiya mərhələsində işləyir və partiya tərkibinə hər irəli keçidi dəyişməyə imkan verir. Qranulyarlıq fərqi ondan ibarətdir ki, davamlı toplu yığım xüsusilə avtoreqressiv nəsil iş yükləri üçün əhəmiyyətli dərəcədə yüksək məhsuldarlığa nail olur.

Davamlı yığım model arxitekturasında dəyişikliklər tələb edirmi?

Standart transformator arxitekturaları heç bir dəyişiklik tələb etmir. Davamlı toplulaşdırma, nəticə planlayıcısına, yaddaş menecerinə və diqqət nüvəsinə edilən dəyişikliklər vasitəsilə tamamilə xidmət səviyyəsində həyata keçirilir. Bununla belə, bəzi optimallaşdırmalar, xüsusən PagedAttention — standart diqqət tətbiqetmələrini əvəz edən fərdi CUDA ləpələrini tələb edir, buna görə də vLLM və TensorRT-LLM kimi istehsal səviyyəli davamlı toplulaşdırma çərçivələri ümumi təyinatlı nəticə çıxarma serverləri üçün əvəzedicilər deyil.

Hansı aparat məhdudiyyətləri davamlı paketləşdirmənin effektivliyini məhdudlaşdırır?

GPU HBM bant genişliyi və ümumi VRAM tutumu əsas məhdudiyyətlərdir. Daha böyük KV keşləri maksimum paralelliyi məhdudlaşdıran daha çox yaddaş tələb edir. Yüksək bant genişliyi olan interconnects (NVLink, Infiniband) KV keşinin cihazlar arasında paylanması lazım olan çox GPU yerləşdirmələri üçün kritik hala gəlir. Yaddaşın məhdud olduğu mühitlərdə KV keş dəyərlərinin aqressiv kvantlaşdırılması (FP16-dan INT8 və ya INT4-ə qədər) əksər kommersiya tətbiqləri üçün məqbul olan kiçik dəqiqliyin azalması hesabına tutumu bərpa edir.


İstər süni intellektlə işləyən funksiyalar qurursunuz, istərsə də bütün təşkilatınızda mürəkkəb biznes əməliyyatlarını təşkil edirsinizsə, əsas prinsip eynidir: boş vaxtları aradan qaldırın, davamlı olaraq gücü bərpa edin və artıq mövcud olan resurslarla daha çox işi emal edin. Mewayz bu prinsipi ayda 19 dollardan başlayan qiymətlərlə CRM və e-ticarətdən tutmuş analitika və komanda əməkdaşlığına qədər 207 inteqrasiya olunmuş modulda tətbiq edir.

Biznesinizi tam məhsuldarlıqla idarə etməyə hazırsınız? app.mewayz.com saytında pulsuz sınaq müddətinə başlayın və 138.000 biznesin Mewayz ilə necə daha ağıllı işlədiyinə baxın.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime