Hokohoko atu 'a e batching mei he ngaahi tefito'i mo'oni 'uluaki (2025)
Hokohoko atu 'a e batching mei he ngaahi tefito'i mo'oni 'uluaki (2025) Ko e 'analaiso kakato ko 'eni 'o e hokohoko 'oku ne 'omi 'a e sivi fakaikiiki 'o hono ngaahi konga tefito mo e ngaahi 'uhinga lahi ange. Ngaahi Feitu'u Tefito 'o e Tokanga ʻOku fakatefito ʻa e fealēleaʻakí ʻi he: Ngaahi founga tefito mo e...
Mewayz Team
Editorial Team
Hokohoko atu 'a e Batching mei he 'Uluaki Tefito'i Mo'oni (2025)
Ko e hokohoko atu 'o e batching ko ha founga fakataimi-tepile'i 'o e inference malohi 'oku ne fakalahi 'a e throughput 'o e hardware 'aki hono fakahu 'a e ngaahi kole fo'ou ki ha batch ngaue 'oku ngaue 'i he momeniti 'oku fakatau'ataina'i ai ha slot, 'o faka'auha 'a e ngaahi siakale 'o e compute 'oku 'ikai ke ngaue 'i he vaha'a 'o e ngaahi ngaue. Ko e mahino ki ai mei he ngaahi tefito'i mo'oni 'uluaki 'oku ne fakahaa'i 'a e 'uhinga kuo hoko ai ko e fakava'e 'o e 'atakai ki he sisitemi ngaue ma'olunga kotoa pe 'o e AI 'oku fakahoko 'i he fua 'i he 2025.
Ko e hā tonu ʻa e Hokohoko ʻo e Batching pea ko e hā naʻe ʻikai lava ai ʻa e Batching Static?
Ke fakahounga'i 'a e hokohoko atu 'o e batching, kuo pau ke 'uluaki mahino kiate koe 'a e me'a na'a ne fetongi. 'Oku fakakulupu 'e he batching static tukufakaholo ha fika pau 'o e ngaahi kole fakataha, processes kinautolu ko ha 'iuniti 'e taha, pea 'oku ne tali pe 'a e ngaahi kole fo'ou hili 'a e 'osi 'a e batch kotoa. Ko e hala mahu'inga ko e ngaahi sipinga lea lalahi 'oku ne fakatupu 'a e ngaahi faka'ilonga 'o e loloa kehekehe — 'e lava ke fakangata 'a e kole 'e taha hili 'a e ngaahi faka'ilonga 'e 20 lolotonga ia 'oku lele 'a e taha 'i he kulupu tatau ki he 2,000. Ko e GPU kotoa pe 'i he kulupu 'oku tangutu noa'ia 'o tatali ki he hokohoko loloa taha ke fakakakato kimu'a pea toki lava ke kamata ha ngaue fo'ou.
Hokohoko atu 'a e batching, na'e paionia 'i he pepa faka'ilonga 2022 "Orca: Ko ha sisitemi ngaue tufaki'anga koloa ki he ngaahi sipinga 'o e fakatupu 'oku makatu'unga 'i he Transformer," 'Oku ne maumau'i 'a e fakangatangata ko 'eni 'o faka'aufuli. ʻOku fakalele ia ʻi he tuʻunga ʻo eiteration kae ʻikai ko e tuʻunga ʻo e kole. Hili e paasi ki mu'a takitaha kotoa pe 'i he sipinga, 'oku vakai'i 'e he scheduler pe kuo a'u ha hokohoko ki hono faka'ilonga 'o e ngata'anga-'o e-hokohoko. Kapau kuo ne ma'u, 'Oku vave 'a e reclaimed 'a e slot ko ia pea vahe ki ha kole 'oku laine — 'ikai ha tatali, 'ikai ha maumau. 'Oku hiki 'a e fa'u 'o e kulupu 'i he fluidly mo e sitepu decode kotoa pe, tauhi 'a hono faka'aonga'i 'o e hardware ofi ki he lahi taha fakateolosia 'i he taimi kotoa pe.
'Oku anga fefe 'a e fetu'utaki 'a e KV Cache mo e hokohoko atu 'o e Batching 'i he Levolo 'o e Sisitemi?
Ko e cache 'o e mahu'inga-ki ko e fokotu'utu'u 'o e manatu 'oku ne 'ai ke tractable 'a e inference 'o e transformer. Ki he faka'ilonga kotoa pe 'oku ngaue'aki, 'oku computes 'e he sipinga 'a e ngaahi kī tokanga mo e ngaahi mahu'inga kuo pau ke tauhi koe'uhi ke 'oua na'a toe fai 'e he ngaahi faka'ilonga kimui ange 'a e redundant computation. 'I ha founga batching static, 'Oku hangatonu 'a e vahevahe 'o e KV cache: manatu reserve 'oku fakatatau ki he loloa 'o e hokohoko lahi taha ki he kole kotoa pe 'i he batch.
Ko e hokohoko atu 'o e batching 'oku ne fakafaingata'a'ia'i 'eni 'i he founga faka'ofo'ofa. Koe'uhi 'oku hū mo e mavahe 'a e ngaahi kole mei he kulupu 'i he ngaahi taimi 'oku 'ikai lava ke tomu'a tala, 'e 'ikai lava 'e he sisitemi ke tomu'a vahevahe 'a e ngaahi poloka manatu contiguous tu'u ma'u. Ko e 'uhinga tonu 'eni 'o e vLLM 'a e PagedAttention — fakafe'iloaki 'i he 2023 — na'e hoko ia 'o 'ikai lava ke mavahe mei he hokohoko atu 'o e batching 'i he deployments 'o e ngaohi'anga koloa. 'Oku no 'e he PagedAttention 'a e sipinga 'o e paging 'o e manatu virtual mei he ngaahi sisitemi ngaue, vahevahe 'a e KV cache ki he ngaahi poloka 'ikai fehokotaki 'o e lahi tatau. 'E lava ke movetevete 'a e ngaahi peesi 'o e cache 'o ha hokohoko 'i he manatu 'o e GPU 'o hange pe ko e ngaahi peesi 'o e manatu virtual 'oku movetevete 'i he RAM fakatu'asino. Ko e ola ko e ofi-zero 'a e veve 'o e manatu mei he fragmentation, 'a ia 'oku liliu fakahangatonu ki he ngaahi lahi 'o e batch ma'olunga ange mo e throughput ma'olunga ange 'o 'ikai ha toe 'inivesimeni 'i he hardware.
Ko e hā ʻa e ngaahi founga fakataimi-tepileʻi tefito ʻoku nau ʻai ke ngāue ʻa e hokohoko atu ʻo e Batching?
Ko e ngaahi tu'utu'uni fakataimi-tepile fefakafalala'aki 'e tolu 'oku nau pule'i 'a e sisitemi hokohoko kotoa pe 'o e batching:
- Tu'utu'uni fakamu'omu'a: 'I he taimi 'oku ma'olunga ai 'a e 'omi 'o e manatu pea 'oku a'u mai ha kole fo'ou 'oku fakamu'omu'a ma'olunga, kuo pau ke fakapapau'i 'e he scheduler pe ke tomu'a fakamu'omu'a ha hokohoko 'oku lele 'a e fakamu'omu'a ma'ulalo, fetongi 'ene KV cache ki he CPU RAM, pe recompute ia mei he kamata'anga 'amui ange. 'Oku fakatolonga 'e he preemption makatu'unga 'i he fetongi 'a e fakafuofua ka 'oku ne faka'aonga'i 'a e bandwidth 'o e PCIe; 'oku maumau'i 'e he recomputation 'a e ngaahi siakale 'o e GPU ka 'oku ne tauhi 'a e manatu ke ma'a.
- Pule'i 'o e hū: Kuo pau ke tomu'a tala 'e he tokotaha fakataimi-tepile'i pe 'e fe'unga 'a e KV cache 'o ha kole fo'ou 'i he manatu 'oku ma'u 'i he kotoa 'o 'ene mo'ui 'a e to'utangata kakato. Ko e fakasi'isi'i 'oku ne fakatupu 'a e ngaahi crashes 'i tu'a-mei he manatu 'i he lotolotonga 'o e hokohoko; ko e fu‘u fakafuofua‘í ‘okú ne fakafiekaia‘i ta‘e‘aonga ‘a e lainé. 'Oku ngaue'aki 'e he ngaahi sisitemi fakaonopooni 'a e ngaahi tufaki'anga loloa 'o e profiled mo e ngaahi buffers 'o e reservation ke fakapalanisi 'a e ngaahi fakatu'utamaki ko 'eni.
- Chunked prefill: Ko e konga prefill — ngaue ki he fakahu 'a e tokotaha 'oku ne ngaue'aki — 'oku fakafuofua'i-fakataha'i pea 'e lava ke monopolize 'a e GPU, fakatoloi 'a e ngaahi sitepu decode ki he ngaahi hokohoko 'oku 'osi lele. 'Oku vahevahe 'e he prefill 'o e Chunked 'a e ngaahi faka'ai'ai loloa ki he ngaahi konga 'o e lahi tu'u ma'u 'oku interleaved mo e ngaahi fakafoki 'o e decode, fakasi'isi'i 'a e taimi-ki he-'uluaki-faka'ilonga 'o e latency ki he kau faka'aonga'i 'o e taimi tatau 'i he totongi 'o e throughput 'o e prefill 'o e raw 'oku ma'ulalo ange.
- Ko e laine fakamu'omu'a: Ngaahi kole 'o e konga 'o e ngaahi fakahokohoko 'o e kautaha 'e he SLA tier. Latency-ongo'ingofua API ui preempt lelei taha-feinga 'a e ngaahi ngaue 'o e kulupu. Ka 'ikai ha layer ko 'eni, 'e lava ke fakasi'isi'i 'e ha ngaue fakanounou'i 'o e tohi loloa 'e taha 'a e a'usia 'a e tokotaha faka'aonga'i fetu'utaki ki he ngaahi fakataha 'e laungeau 'oku hoko fakataha.
"'Oku 'ikai ke fakalelei'i pe 'e he hokohoko atu 'o e batching 'a e throughput — 'oku ne toe fokotu'utu'u 'a e sipinga faka'ekonomika 'o e AI inference. 'I hono tauhi 'o e GPUs 'oku nofo'i 'i he iteration granularity kae 'ikai ko e kole granularity, 'oku a'usia 'e he kau ngaue 'a e 5-10 × ma'olunga ange hono faka'aonga'i 'o e ola lelei mei he ngaahi naunau tatau 'i he leverken 'oku lava ke fakasi'isi'i . 2025."
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →'Oku anga fefe hono fua 'e he ngaahi ngaue 'i he mamani mo'oni 'a e ngaahi ma'u'anga tokoni 'o e fakahoko ngaue?
Ngaahi ola 'o e fakafuofua mei he Anyscale, fakataha mo e ngaahi fakatupu tau'ataina 'i he ngaahi famili fakatata lahi 'i he 2024, 'oku fakahaa'i ma'u pe 'a e hokohoko atu 'o e batching 'o 'oatu 'i he vaha'a 'o e 23 × mo e 36 × throughput ma'olunga ange 'i hono fakafehoanaki ki he naïve static batching 'i he lalo ngaahi founga 'o e fefononga'aki mo'oni. 'Oku fakahaa'i lahi taha 'a e ngaahi ma'u'anga tokoni 'i he taimi 'oku ma'olunga ai 'a e variance 'o e loloa 'o e kole — 'a e ngaahi tu'unga tonu 'oku ne faka'ilonga'i 'a e ngaahi ngaue 'a e AI 'o e talanoa 'a e ngaohi 'a ia 'oku 'i ai 'a e ngaahi fehu'i 'a e tokotaha faka'aonga'i mei he ngaahi faka'ai'ai 'o e lea 'e tolu ki he ngaahi fakahu 'o e ngaahi tohi peesi lahi.
'Oku talamai 'e he Latency ha talanoa 'oku toe faka'ofo'ofa ange. 'Oku fakalakalaka lahi 'a e taimi-ki he-'uluaki-token koe'uhi 'oku 'ikai ke toe tatali 'a e sisitemi ki ha kulupu static kakato ke fakatahataha'i kimu'a pea toki kamata 'a e prefill. 'Oku kei tu'uma'u pe 'a e latency 'o e inter-token 'i he malumalu 'o e kavenga fakafuofua ka 'oku degrades gracefully 'i he malumalu 'o e saturation kae 'ikai ke holo, koe'uhi 'oku hokohoko atu 'a e scheduler 'a e fakalakalaka ki mu'a 'i he ngaahi hokohoko 'o e ngaue kotoa pe na'a mo e taimi 'oku tupulaki loloto ai 'a e laine. Ki he ngaahi pisinisi 'oku nau langa 'a e ngaahi fotunga 'o e AI taimi mo'oni, 'oku fa'a mahu'inga ange fakakomesiale 'a e curve faka'auha faka'ofo'ofa ko 'eni 'i he ngaahi fika 'o e tumutumu 'o e throughput.
'E lava fēfē ke Faka'aonga'i 'e he Ngaahi Pisinisi 'a e Ngaahi Tefito'i Mo'oni Hokohoko 'o e Batching 'i he tafa'aki 'o e AI Inference?
Ko e 'ilo faka'ata 'i mui 'i he hokohoko atu 'o e batching — reclaim 'a e ngaahi ma'u'anga tokoni 'i he granularity lelei taha 'e ala lava pea reassign kinautolu 'i he taimi pe ko ia kae 'ikai ke tatali ki ha 'iuniti 'o e ngaue 'oku coarse-grained ke 'osi — ko ha tefito'i mo'oni fakalukufua ki ha fa'ahinga sisitemi 'oku ne pule'i 'a e ngaahi kavenga ngaue kehekehe. 'Oku fehangahangai 'a e ngaahi sisitemi ngaue 'a e pisinisi mo e pole tatau: ngaahi ngaue 'o e wildly kehekehe durations fe'auhi ki he vahevahe 'o e malava 'o e ngaue 'i he CRM workflows, maketi 'otometiki, analytics paipa, mo e ngaahi ngaue 'o e e-commerce.
'Oku faka'aonga'i 'e he Mewayz 'a e filosofia ko 'eni 'i he'ene 207-module pisinisi OS, dynamically routing 'a e ngaahi kavenga ngaue 'i he tu'unga fakatahataha'i 'oku faka'aonga'i 'e he ngaahi pisinisi 'e 138,000 'i mamani kotoa. Kae 'ikai ko hono fakamālohi'i 'o e ngaahi timi ke nau tatali ki he ngaahi siakale 'o e lipooti 'o e batch, ngaahi laine fakangofua hokohoko, pe siloed me'angaue handoffs, Mewayz 'oku ne fakahoko 'a e ngaahi me'a 'oku hoko 'i he pisinisi hokohoko — fafanga 'a e ngaahi outputs kuo fakakakato 'i he taimi pe ko ia ki he ngaahi modules 'i lalo 'a e founga 'oku fafanga'i ai 'e ha hokohoko 'o e batching scheduler 'a e ngaahi slots GPU fakatau'ataina'i 'o foki ki he kole queue. Ko e ola ko e fakalakalaka 'o e throughput 'oku lava ke fua 'i he ngaahi ngaue mo'oni 'a e pisinisi, 'ikai ko e ngaahi faka'ilonga pe.
Ngaahi Fehuʻi ʻoku Faʻa ʻEke
'Oku tatau nai 'a e hokohoko atu 'o e batch mo e batch 'o e malohi 'i he TensorFlow Sevesi?
ʻIkai. 'Oku fakatahataha'i 'e he TensorFlow Serving 'a e batching malohi 'a e ngaahi kole ki he ngaahi kulupu 'o e lahi kehekehe 'o makatu'unga 'i he ngaahi matapa sio'ata taimi mo e loloto 'o e laine, ka 'oku ne kei fakahoko 'a e kulupu takitaha atomically mei he kamata ki he 'osi. 'Oku ngaue 'a e batching hokohoko 'i he sitepu 'o e to'utangata faka'ilonga fakafo'ituitui, 'o faka'ata 'a e fa'u 'o e batch ke liliu 'a e paasi kotoa pe ki mu'a. Ko e kehekehe 'o e granularity ko e 'uhinga ia 'oku a'usia ai 'e he hokohoko 'o e batching 'a e throughput ma'olunga ange 'aupito ki he ngaahi kavenga ngaue 'o e to'utangata autoregressive 'o fakatefito.
'Oku fie ma'u 'e he hokohoko atu 'o e batching 'a e ngaahi liliu 'o e sipinga 'o e 'atakai?
Ko e ngaahi fa'unga 'o e transformer tu'unga 'oku 'ikai fie ma'u ha liliu. 'Oku fakahoko 'a e hokohoko 'o e batching kakato 'i he layer 'o e ngaue 'o fakafou 'i he ngaahi liliu ki he inference scheduler, pule 'o e manatu, mo e kernel 'o e tokanga. Ka neongo ia, 'Oku fie ma'u 'e he ngaahi optimizations 'e ni'ihi — tautautefito ki he PagedAttention — 'a e ngaahi kernels CUDA angamaheni 'oku nau fetongi 'a e ngaahi fakahoko 'o e tokanga angamaheni, ko e 'uhinga ia 'oku 'ikai ke drop-'i he ngaahi fetongi 'o e batching hokohoko 'o e kalasi 'o e ngaohi'anga koloa hange ko e vLLM mo e TensorRT-LLM.
Ko e hā ha ngaahi fakangatangata ʻo e hardware ʻokú ne fakangatangata ʻa e ola ʻo e hokohoko atu ʻo e batching?
Ko e bandwidth 'o e GPU HBM mo e malava fakakatoa 'o e VRAM ko e ngaahi fakangatangata tefito ia. 'Oku fie ma'u 'e he ngaahi cache KV lalahi ange 'a e manatu lahi ange, fakangatangata 'a e concurrency lahi taha. 'Oku hoko 'a e ngaahi fehokotaki'anga 'o e bandwidth ma'olunga (NVLink, Infiniband) 'o mahu'inga ki he ngaahi deployments 'o e GPU lahi 'a ia kuo pau ke tufaki 'a e KV cache 'i he ngaahi device. 'I he ngaahi 'atakai 'o e manatu-fakangatangata, quantization fakatupu 'ita 'o e ngaahi mahu'inga 'o e KV cache (mei he FP16 ki he INT8 pe INT4) 'oku ne fakafoki mai 'a e malava 'i he totongi 'o ha ki'i faka'auha 'o e tonu 'oku tali ki he lahi taha 'o e ngaahi polokalama fakakomesiale.
Pe 'oku ke langa 'a e ngaahi fotunga 'oku fakalele 'e he AI pe orchestrating 'a e ngaahi ngaue fakapisinisi faingata'a 'i ho'o kautaha kotoa, 'Oku tatau pe 'a e tefito'i mo'oni 'o e tefito'i mo'oni: fakangata 'a e taimi 'oku 'ikai ke ngaue, toe ma'u 'a e malava hokohoko, pea fakahoko 'a e ngaue lahi ange 'aki 'a e ngaahi ma'u'anga tokoni 'oku ke 'osi ma'u. 'Oku 'ai 'e Mewayz 'a e tefito'i mo'oni ko ia ki he ngaue 'i he 207 modules fakatahataha'i — mei he CRM mo e e-commerce ki he analytics mo e fengaue'aki 'a e timi — kamata 'i he $19 'i he mahina.
Mateuteu ke fakalele ho'o pisinisi 'i he kakato 'o e ngaue? Kamata ho'o 'ahi'ahi ta'etotongi 'i he app.mewayz.com pea vakai ki he founga 'oku fakalele fakapotopoto ange ai 'a e ngaahi pisinisi 'e 138,000 mo e Mewayz. Ko e hokohoko atu 'o e batching 'oku tatau pe ia mo e batching malohi 'i he TensorFlow 'Oku fakatahataha'i 'e he TensorFlow 'a e ngaahi kole 'a e ngaahi kulupu 'o e lahi kehekehe 'o makatu'unga 'i he ngaahi matapa sio'ata 'o e taimi mo e loloto 'o e laine, ka 'oku ne kei fakahoko 'a e kulupu takitaha atomically mei he kamata'anga ki he 'osi 'a e sitepu Continuous. liliu 'a e paasi kotoa pe ki mu'a.Ko e kehekehe 'o e granularity ko e 'uhinga 'oku a'usia ai 'e he hokohoko 'o e batching 'a e mahu'inga"}},{"@fa'ahinga":"Fehu'i","hingoa":"'Oku fie ma'u 'e he hokohoko 'o e batching 'a e ngaahi liliu 'o e sipinga 'o e 'atakai?","talitali":{"@fa'ahinga":"Tali 'oku 'ikai ke fakahoko 'e he tohi kakato 'i he layer 'o e ngaue 'o fakafou 'i he ngaahi liliu ki he taimi-tepile 'o e inference, pule 'o e manatu, mo e kernel 'o e tokanga Ka neongo ia, 'oku fie ma'u 'e he ngaahi optimizations 'e ni'ihi \u2014 tautautefito ki he PagedAttention \u2014 kernels angamaheni 'o e CUDA 'oku ne fetongi 'a e ngaahi fakahokohoko 'o e tokanga angamaheni, 'a ia ko e 'uhinga ia 'oku hokohoko atu ai 'a e batch 'o e ngaohi'anga-kalasi. Ko e hā ʻa e ngaahi fakangatangata ʻo e hardware ʻoku fakangatangata ʻa e ola ʻo e batching hokohoko?" 'Oku hoko 'a e ngaahi fehokotaki'anga 'o e bandwidth ma'olunga (NVLink, Infiniband) 'o mahu'inga ki he ngaahi deployments 'o e GPU lahi 'a ia kuo pau ke tufaki 'a e KV cache 'i he ngaahi device 'i he ngaahi 'atakai 'oku fakangatangata 'a e manatu, quantization fakatupu 'ita 'o e ngaahi mahu'inga 'o e cache KV (mei he FP16 ki he INT8 pe INT4) ca] script>>
Try Mewayz Free
All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.
Get more articles like this
Weekly business tips and product updates. Free forever.
You're subscribed!
Start managing your business smarter today
Join 30,000+ businesses. Free forever plan · No credit card required.
Ready to put this into practice?
Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.
Start Free Trial →Related articles
Hacker News
9 Mothers (YC P26) Is Hiring – Lead Robotics and More
Apr 7, 2026
Hacker News
NanoClaw's Architecture Is a Masterclass in Doing Less
Apr 7, 2026
Hacker News
Dropping Cloudflare for Bunny.net
Apr 7, 2026
Hacker News
The best tools for sending an email if you go silent
Apr 7, 2026
Hacker News
"The new Copilot app for Windows 11 is really just Microsoft Edge"
Apr 7, 2026
Hacker News
Show HN: A cartographer's attempt to realistically map Tolkien's world
Apr 7, 2026
Ready to take action?
Start your free Mewayz trial today
All-in-one business platform. No credit card required.
Start Free →14-day free trial · No credit card · Cancel anytime