Tajna terabytes ta’ zkuk CI lil LLM
Kummenti
Mewayz Team
Editorial Team
Il-Minjiera tad-Deheb Moħbija Seduta fil-Pipeline CI Tiegħek
Kull tim tal-inġinerija jiġġenerahom. Miljuni ta 'linji, kull jum wieħed - timestamps, traċċi ta' munzell, riżoluzzjonijiet ta 'dipendenza, riżultati tat-test, artifacts tal-bini, u messaġġi ta' żball kriptiċi li jiskrollaw aktar malajr milli kulħadd jista 'jaqra. Iċ-zkuk tas-CI huma d-dħaħen tal-egżost tal-iżvilupp modern tas-softwer, u għall-biċċa l-kbira tal-organizzazzjonijiet, huma ttrattati eżattament bħall-egżost: ivventilat fil-ħażna u minsija. Imma x'jiġri jekk dawk ir-zkuk fihom mudelli li jistgħu jbassru l-fallimenti qabel ma jseħħu, jidentifikaw il-konġestjonijiet li jiswew lit-tim tiegħek mijiet ta 'sigħat kull tliet xhur, u jiżvelaw kwistjonijiet sistemiċi li qatt ma jara l-ebda inġinier wieħed? Iddeċidejna li nsiru nafu billi ngħaddu terabytes ta' data log CI f'mudell lingwistiku kbir — u dak li skoprejna biddel il-mod kif naħsbu dwar DevOps għal kollox.
Għaliex Iċ-Zkuk CI huma l-aktar Dejta sottoutilizzata fl-Inġinerija tas-Software
Ikkunsidra l-volum kbir. Tim ta 'l-inġinerija ta' daqs medju li jmexxi 200 bini kuljum f'diversi repożitorji jiġġenera bejn wieħed u ieħor 2-4 GB ta 'dejta mhux ipproċessata ta' log kuljum. Iktar minn sena, jiġifieri aktar minn terabyte ta’ test strutturat u semi-strutturat li jaqbad kull kumpilazzjoni, kull eżekuzzjoni ta’ suite ta’ test, kull pass ta’ skjerament, u kull modalità ta’ falliment li qatt iltaqgħet magħha s-sistema tiegħek. Huwa rekord arkeoloġiku sħiħ tal-produttività tal-organizzazzjoni tal-inġinerija tiegħek — u kważi ħadd ma jaqrah.
Il-problema mhix li d-dejta m'għandhiex valur. Huwa li l-proporzjon tas-sinjal għall-ħoss huwa brutali. Ġirja CI tipika tipproduċi eluf ta 'linji ta' output, u forsi 3-5 minn dawk il-linji fihom informazzjoni azzjonabbli. L-inġiniera jitgħallmu jiskennjaw għal test aħmar, grep għal "FAILED", u jimxu 'l quddiem. Iżda l-mudelli li jimpurtaw l-aktar - it-test flaky li jfalli kull nhar ta 'Tlieta, id-dipendenza li żżid 40 sekonda għal kull bini, it-tnixxija tal-memorja li tfaċċa biss meta tliet servizzi speċifiċi jaħdmu fl-istess ħin - dawk il-mudelli huma inviżibbli fil-livell tal-log individwali. Huma joħorġu biss fuq skala.
Għodod tradizzjonali ta' analiżi ta' log bħal ELK stacks u Datadog jistgħu jaggregaw metriċi u taqbiliet tal-kliem kjavi tal-wiċċ, iżda jissieltu mal-kumplessità semantika tal-output CI. Messaġġ ta 'falliment tal-bini li jaqra"konnessjoni rrifjutata fuq il-port 5432"u wieħed li jaqra"FATAL: l-awtentikazzjoni tal-password falliet għall-'iskjerament' tal-utent" huma t-tnejn fallimenti relatati mad-database, iżda għandhom kawżi u soluzzjonijiet kompletament differenti. Il-fehim ta' dik id-distinzjoni jeħtieġ it-tip ta' raġunament kuntestwali li, sa ftit ilu, il-bnedmin biss setgħu jipprovdu.
L-Esperiment: It-Tmigħ ta' 3.2 Terabytes ta' Storja tal-Bini għal LLM
Is-setup kien sempliċi fil-kunċett u ħmarillejl fl-eżekuzzjoni. Ġbarna 14-il xahar ta’ zkuk CI minn pjattaforma li taqdi aktar minn 138,000 utent — li tkopri bini f’diversi servizzi, ambjenti, u miri ta’ skjerament. Is-sett tad-dejta mhux ipproċessat wasal għal 3.2 terabytes: madwar 847 miljun linja ta 'log individwali li jkopru 1.6 miljun CI pipeline runs. Aħna qatgħu, inkorporaw, u indiċjajna din id-dejta, imbagħad bnejna pipeline ta' ġenerazzjoni miżjuda bl-irkupru (RAG) li seta' jwieġeb mistoqsijiet tal-lingwa naturali dwar l-istorja tal-bini tagħna.
L-ewwel sfida kienet l-ipproċessar minn qabel. zkuk CI mhumiex test nadif. Fihom kodiċijiet tal-kulur ANSI, bars tal-progress li jissostitwixxu lilhom infushom, checksums tal-artifact binarji, u timestamps f'mill-inqas erba' formati differenti skont liema għodda ġġenerathom. Għaddejna tliet ġimgħat biss fuq in-normalizzazzjoni — inneħħu l-istorbju, nistandardizzaw il-timestamps, u ttikkettjaw kull segment ta’ log b’metadejta dwar liema stadju tal-pipeline, repożitorju, fergħa, u ambjent kien jappartjeni għalih.
It-tieni sfida kienet l-ispiża. It-tmexxija tal-inferenza fuq terabytes tat-test mhix irħisa, anke b'ottimizzazzjoni aggressiva ta' qsim u rkupru. Aħna nħarqu permezz ta 'krediti ta' komputazzjoni sinifikanti matul l-ewwel xahar biss, l-aktar minħabba li l-approċċ inizjali tagħna kien inġenju wisq - bagħat wisq kuntest għal kull mistoqsija u ma nkunux selettivi biżżejjed dwar liema segmenti ta 'log kienu rilevanti. Sal-aħħar tat-tieni xahar, konna naqqasna l-ispejjeż għal kull mistoqsija b'87% permezz ta' strateġiji ta' inkorporazzjoni aħjar u sistema ta' rkupru f'żewġ stadji li użat mudell iżgħar biex tiffiltra minn qabel qabel ma bagħtet lill-akbar.
Ħames Mudelli li l-LLM Sabu Li l-Bnedmin Qatt Ma Kieku
Fl-ewwel ġimgħa tat-tmexxija tal-mistoqsijiet, is-sistema ħarġet għarfien li kien jieħu xhur analista uman biex jiskopri manwalment. Dawn ma kinux każijiet tat-tarf jew kurżitajiet — kienu kwistjonijiet sistemiċi li jnaddfu sigħat ta' inġinerija reali.
- Il-kaskata tad-dipendenza fantażma. Aġġornament wieħed ta' pakkett npm 9 xhur qabel kien introduċa dewmien ta' 22 sekonda għal kull build JavaScript. Id-dewmien kien moħbi minħabba li ħabat ma 'titjib tal-infrastruttura CI li għamel il-bini aktar mgħaġġel b'mod ġenerali. Net-net, il-bini deher aktar mgħaġġel, iżda setgħu kienu 22 sekonda aktar mgħaġġla xorta. Madwar 400+ bini JS kuljum, li kien2.4 sigħat ta 'komputazzjoni moħlija kuljum.
- Il-flake taż-żona tal-ħin. Suite tat-test kellha rata ta' falliment ta' 4.7% — għolja biżżejjed biex tkun tedjanti, baxxa biżżejjed li ħadd ma pprijoritizza li jirranġaha. L-LLM identifika li l-fallimenti kienu jikkorrelataw kważi perfettament mal-bini attivat bejn 23:00 u 01:00 UTC, meta funzjoni ta' tqabbil tad-data qasmet il-konfini tal-ġurnata. Fix-żewġ linji eliminati l-flake għal kollox.
- Ix-xejra ta' rollback silenzjuż. L-iskjerament għall-istadju rnexxielu 99.2% tal-ħin, iżda l-LLM innota li 31% tal-iskjeramenti ta' staging "suċċess" kienu segwiti minn skjerament ieħor tal-istess servizz fi żmien 45 minuta — li jissuġġerixxi li l-ewwel skjerament inkisret funzjonalment minkejja li għadda l-kontrolli kollha. Dan wassal biex skopra li kien qed jgħaddi test ta' integrazzjoni minħabba tweġibiet fil-cache minn servizz mock.
- Il-konġestjoni tat-Tnejn filgħodu. Il-ħinijiet tal-kju tal-bini żdiedu b'340% kull nhar ta' Tnejn bejn id-9:00 u l-10:30 AM ħin lokali, minħabba li l-iżviluppaturi li kienu ilhom jaħdmu fi tmiem il-ġimgħa kollha mbuttaw il-bidliet tagħhom qabel l-istandup. It-tiswija ma kinitx teknika — kienet operattiva: tqassam l-iskeda tal-iskala tal-grupp tar-runner CI biex jantiċipaw iż-żidiet tat-Tnejn.
- Il-bandiera tal-kompilatur li ħadd ma stabbilixxa. 67% tal-bini C++ kienu qed jaħdmu mingħajr kumpilazzjoni inkrementali attivata, u żiedet medja ta' 3.8 minuti għal kull bini. Il-bandiera kienet iddokumentata fil-gwida tal-onboarding iżda qatt ma ġiet miżjuda mal-mudell tal-konfigurazzjoni tas-CI kondiviża.
"L-aktar bugs li jiswew ħafna flus mhumiex dawk li jikkraxxjaw l-applikazzjoni tiegħek. Huma dawk li jisirqu bil-kwiet 30 sekonda minn kull bini, kuljum, għal snin - sakemm fl-aħħar xi ħadd jistaqsi l-mistoqsija t-tajba tas-sett tad-dejta t-tajjeb."
Bini ta' Saff ta' Intelliġenza CI Prattiku
L-esperiment ikkonvinċina li l-analiżi tal-log li taħdem bl-LLM mhijiex novità — hija kapaċità operattiva ġenwina. Iżda biex tagħmilha prattika teħtieġ arkitettura maħsub. Ma tistax sempliċement tgħaddi zkuk mhux ipproċessati f'interface taċ-chat u tistenna tweġibiet utli. Is-sistema teħtieġ struttura, u jeħtieġ li tiġi integrata fil-flussi tax-xogħol li l-inġiniera diġà jużaw.
Stilajna fuq approċċ ta' tliet livelli. L-ewwel saff huwatriaġġ awtomatizzat: kull bini fallut awtomatikament jiġi kklassifikat skont il-kategorija tal-kawża ewlenija (infrastruttura, dipendenza, loġika tat-test, konfigurazzjoni, jew flake) b'punteġġ ta 'fiduċja. Dan waħdu naqqas iż-żmien medju biex jiġu rranġati għal fallimenti tal-bini b'34%, minħabba li l-inġiniera ma kellhomx aktar għalfejn iqattgħu 10 minuti jaqraw zkuk biss biex isibu fejn jibdew ifittxu. It-tieni saff huwadetezzjoni tat-tendenza: diġest ta 'kull ġimgħa li tfaċċa mudelli emerġenti — żieda fir-rati ta' falliment, iż-żieda fil-ħinijiet tal-bini, firem ġodda ta 'żbalji — qabel ma jsiru kritiċi. It-tielet saff huwainvestigazzjoni interattiva: interface fejn l-inġiniera jistgħu jistaqsu mistoqsijiet tal-lingwa naturali dwar l-istorja tal-bini, bħal "Għaliex is-servizz X falla aktar spiss wara r-rilaxx ta 'Marzu?" jew "X'inhi l-aktar kawża komuni ta' żbalji ta' timeout fil-pipeline tal-ħlas?"
Għat-timijiet li jmexxu operazzjonijiet kumplessi — speċjalment dawk li jimmaniġġjaw funzjonijiet kummerċjali multipli bħal CRM, fatturazzjoni, pagi, u analitika permezz ta' pjattaformi bħal Mewayz, li orkestra 207 moduli integrati — dan it-tip ta' osservabilità ssir saħansitra aktar kritika. Meta skjerament wieħed imiss mal-flussi tax-xogħol li jiffaċċjaw il-klijenti, il-loġika tal-kontijiet, u s-sistemi tal-HR simultanjament, il-fehim tal-interdipendenzi fil-pipeline tas-CI tiegħek mhuwiex fakultattiv. Huwa essenzjali biex tinżamm l-affidabbiltà li fuqha jiddependu aktar minn 138,000 utent.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →Dak li Ma Jaħdimx (Għadhom)
L-onestà hija importanti aktar mill-hype. Hemm limitazzjonijiet ċari għal dan l-approċċ li kull min jikkunsidrah għandu jifhem. LLMs allucinate, u meta alluċinaw dwar zkuk CI, ir-riżultati jistgħu jkunu żbaljati b'mod konvinċenti. Rajna s-sistema b'kunfidenza tattribwixxi falliment tal-bini għal kunflitt ta' dipendenza li qatt ma kien jeżisti, komplut b'numri tal-verżjoni fabbrikati. Il-pipeline RAG inaqqas dan b'mod sinifikanti, iżda ma jeliminahx. Kull għarfien li tipproduċi s-sistema għad teħtieġ verifika umana qabel azzjoni.
L-iskala tibqa' sfida. Filwaqt li s-sistema ta' rkupru tista' timmaniġġja l-mistoqsijiet b'mod effiċjenti, l-indiċjar inizjali u l-inkorporazzjoni ta' zkuk ġodda jiswew ħafna flus. Aħna nipproċessaw madwar 800,000 linja ġdida ta 'log kuljum, u nżommu l-indiċi frisk jeħtieġ infrastruttura dedikata. Għal timijiet iżgħar, il-kalkolu tal-kost-benefiċċju jista' ma jiffavorixxix dan l-approċċ — għall-inqas għadu mhux. Hekk kif l-ispejjeż tal-mudell ikomplu jonqsu (waqsu madwar 90% fl-aħħar 18-il xahar għal kapaċità ekwivalenti), l-ekonomija se tinbidel.
Hemm ukoll il-kwistjoni tas-sigurtà. Iz-zkuk CI jista 'jkun fihom sigrieti — ċwievet API, strings ta' konnessjoni, URLs interni — minkejja l-aħjar sforzi biex tqaxxarhom. Li tibgħat din id-dejta lil APIs LLM esterni tintroduċi riskju. Aħna nimmitikaw dan b'pipeline ta 'scrubbing lokali u billi nwettqu inferenza fuq mudelli self-hosted għal repożitorji sensittivi, iżda żżid il-kumplessità u l-ispiża. It-timijiet għandhom jevalwaw bir-reqqa l-mudell tat-theddid tagħhom qabel ma jimplimentaw xi ħaġa simili.
Nibda Mingħajr Terabytes
M'għandekx bżonn sett ta' dejta massiv jew tim dedikat ta' inġinerija ML biex tibda tiġbed il-valur mir-reġistri CI tiegħek. Hawn punt tat-tluq pragmatiku li kwalunkwe tim bi ftit mijiet ta' bini fil-ġimgħa jista' jimplimenta:
- Ibda bil-klassifikazzjoni tal-falliment. Esporta l-aħħar 90 jum tiegħek ta' zkuk tal-bini falluti. Uża kwalunkwe API LLM biex tikklassifika kull falliment f'kategoriji. Anke tassonomija sempliċi (infra vs. code vs. config vs. flake) tipprovdi valur immedjat għall-prijoritizzazzjoni.
- Ssegwi t-tendenzi tat-tul tal-bini. Parse timestamps mir-reġistri tiegħek biex toħloq serje ta' żmien ta' dewmien tal-bini għal kull stadju tal-pipeline. Għalf anomaliji lil LLM b'kuntest ta' log tal-madwar u staqsi għal ipoteżi ta' kawża ewlenija.
- Awtomatizza l-mistoqsijiet "ovvji". Stabbilixxi ganċ ta' wara l-falliment li jibgħat l-aħħar 500 linja ta' build fallut lil LLM bil-pront: "Iġbor fil-qosor dan in-nuqqas CI f'sentenza waħda u ssuġġerixxi l-aktar soluzzjoni probabbli." Dan waħdu jiffranka 5-10 minuti għal kull falliment għal kull inġinier fit-tim.
- Ibni arkivju li jista' jitfittex. Uża inkorporazzjonijiet biex tagħmel l-istorja tar-reġistri tiegħek mistoqsija b'lingwa naturali. Għodod bħal LangChain u LlamaIndex jagħmlu dan aċċessibbli b'mod sorprendenti, anke għal timijiet mingħajr esperjenza ML.
Iċ-ċavetta hija li tibda żgħira, tivvalida li l-għarfien huwa preċiż, u tespandi gradwalment. L-ekosistema tal-għodda għal dan it-tip ta' analiżi qed timmatura malajr, u dik li kienet meħtieġa infrastruttura tad-dwana sena ilu hija dejjem aktar disponibbli bħala komponenti fuq l-ixkaffa.
Il-Futur Huwa Intelliġenza Operattiva
Dak li qed nitkellmu dwaru mhux biss analiżi log — hija bidla fundamentali lejn intelliġenza operattiva. L-istess approċċ li jaħdem għal zkuk CI japplika għal biljetti ta 'appoġġ għall-klijenti, data tal-pipeline tal-bejgħ, tranżazzjonijiet finanzjarji, u flussi tax-xogħol operattivi. Il-linja komuni hija li l-organizzazzjonijiet jiġġeneraw ammonti vasti ta' dejta ta' test semi-strutturata li fiha mudelli azzjonabbli, u l-LLMs huma adattati b'mod uniku biex isibu dawk il-mudelli.
Dan hu għaliex il-pjattaformi li jiċċentralizzaw l-operazzjonijiet tan-negozju għandhom vantaġġ strutturali. Meta d-dejta tas-CRM, il-ġestjoni tal-proġetti, il-fatturazzjoni, ir-rekords tal-HR u l-analiżi tiegħek kollha jgħixu f'sistema waħda - bħalma jagħmlu għat-timijiet li jużaw l-arkitettura tal-moduli integrati ta 'Mewayz - il-potenzjal għall-intelliġenza bejn id-dominji jimmultiplika. Mudell fir-reġistri tas-CI tiegħek jista' jikkorrelata ma' l-annullament tal-klijenti. Żieda fil-biljetti ta' appoġġ tista' tbassar falliment fl-iskjerament. Dawn il-konnessjonijiet isiru viżibbli biss meta d-data tgħix f'sistemi konnessi aktar milli f'silos iżolati.
It-timijiet li se jirnexxu fl-għaxar snin li ġejjin mhumiex neċessarjament dawk bl-aktar inġiniera jew l-akbar baġits. Huma dawk li jitgħallmu jisimgħu d-dejta tagħhom stess — inklużi t-terabytes tagħha li ilhom jarmu. Ir-reġistri tas-CI tiegħek qed jitkellmu. Il-mistoqsija hija jekk intix lest li tisma' dak li għandhom xi jgħidu.
Mistoqsijiet Frekwenti
Jistgħu l-LLMs verament isibu mudelli utli fir-reġistri CI?
Assolutament. Mudelli lingwistiċi kbar jisbqu fl-identifikazzjoni ta' mudelli rikorrenti fit-test massiv mhux strutturat. Meta jiġu ppuntati lejn terabytes ta’ zkuk CI, jistgħu jissuperaw korrelazzjonijiet ta’ fallimenti, firem tat-test flaky, u kunflitti ta’ dipendenza li l-inġiniera tal-bniedem qatt ma jaqbdu manwalment. Iċ-ċavetta hija l-istrutturar tal-pipeline tal-inġestjoni b'mod korrett sabiex il-mudell jirċievi segmenti ta' zkuk imqattgħin b'mod xieraq u sintesi fil-kuntest aktar milli storbju mhux ipproċessat.
Liema tipi ta' fallimenti tas-CI jistgħu jiġu mbassra bl-użu ta' analiżi log?
L-analiżi tal-log immexxija mill-LLM tista' tbassar timeouts relatati mal-infrastruttura, fallimenti rikorrenti fir-riżoluzzjoni tad-dipendenza, ħabtiet tal-bini marbutin mal-memorja, u testijiet flaky attivati minn mogħdijiet ta' kodiċi speċifiċi. Tidentifika wkoll regressjonijiet bil-mod li jitkaxkru fejn il-ħinijiet tal-bini jiżdiedu gradwalment matul ġimgħat. It-timijiet li jużaw dan l-approċċ tipikament jaqbdu xejriet ta' fallimenti kaskata minn żewġ sa tliet sprints qabel ma jsiru inċidenti li jimblukkaw fl-iskjeramenti tal-produzzjoni.
Kemm dejta tal-log CI għandek bżonn qabel ma l-analiżi ssir siewja?
Mudelli sinifikanti tipikament joħorġu wara li jiġu analizzati 30 sa 90 jum ta' storja ta' pipeline kontinwa f'diversi fergħat. Settijiet ta' dejta iżgħar jagħtu għarfien fil-livell tal-wiċċ, iżda l-valur reali ġej mill-kontroreferenza ta' eluf ta' ġirjiet tal-bini. Għal timijiet li jimmaniġġjaw flussi tax-xogħol kumplessi flimkien mal-pipelines CI tagħhom, pjattaformi bħal Mewayz joffru 207 moduli integrati li jibdew minn $19/mo biex jiċċentralizzaw id-dejta operattiva fuq app.mewayz.com.
L-għoti ta' zkuk CI lil LLM huwa riskju għas-sigurtà?
Jista' jkun jekk jiġi mmaniġġjat bi traskuraġni. Ir-reġistri CI ħafna drabi jkun fihom varjabbli ambjentali, ċwievet API, URLs interni, u dettalji tal-infrastruttura. Qabel ma tipproċessa zkuk permezz ta' kwalunkwe LLM, trid timplimenta pipelines ta' redazzjoni robusti li jneħħu s-sigrieti, il-kredenzjali u l-informazzjoni identifikabbli personalment. Skjeramenti ta' mudelli li jkunu ospitati waħedhom jew fuq il-post inaqqsu l-esponiment b'mod sinifikanti meta mqabbla ma' li jintbagħtu logs mhux maħduma lil endpoints ta' inferenza bbażati fuq cloud ta' partijiet terzi.
Try Mewayz Free
All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.
Get more articles like this
Weekly business tips and product updates. Free forever.
You're subscribed!
Start managing your business smarter today
Join 6,205+ businesses. Free forever plan · No credit card required.
Ready to put this into practice?
Join 6,205+ businesses using Mewayz. Free forever plan — no credit card required.
Start Free Trial →Related articles
Hacker News
Show HN: I made a calculator that works over disjoint sets of intervals
Apr 18, 2026
Hacker News
Casus Belli Engineering
Apr 18, 2026
Hacker News
How to Host a Blog on a Subdirectory Instead of a Subdomain
Apr 17, 2026
Hacker News
Landmark ancient-genome study shows surprise acceleration of human evolution
Apr 17, 2026
Hacker News
A simplified model of Fil-C
Apr 17, 2026
Hacker News
Arc Prize Foundation (YC W26) Is Hiring a Platform Engineer for ARC-AGI-4
Apr 17, 2026
Ready to take action?
Start your free Mewayz trial today
All-in-one business platform. No credit card required.
Start Free →14-day free trial · No credit card · Cancel anytime