Avemu datu terabytes di logs CI à un LLM | Mewayz Blog Skip to main content
Hacker News

Avemu datu terabytes di logs CI à un LLM

Cumenti

14 min read Via www.mendral.com

Mewayz Team

Editorial Team

Hacker News

A miniera d'oru nascosta chì si trova in u vostru pipeline CI

Ogni squadra di ingegneria li genera. Milioni di linee, ogni ghjornu - timestamps, tracce di pila, risoluzioni di dipendenza, risultati di teste, custruite artefatti, è missaggi d'errore criptichi chì scorri più veloce di quellu chì qualcunu pò leghje. I logs CI sò i fumi di scarico di u sviluppu di u software mudernu, è per a maiò parte di l'urganisazione, sò trattati esattamente cum'è l'exhaust: ventilati in almacenamiento è scurdati. Ma chì se quelli logs cuntenenu mudelli chì puderanu predice i fallimenti prima ch'elli succedanu, identificà i colli di bottiglia chì costanu a vostra squadra centinaie d'ore per trimestre, è rivelanu prublemi sistemichi chì nimu ingegnere ùn vede mai? Avemu decisu di scopre alimentando terabytes di dati di log CI in un grande mudellu di lingua - è ciò chì avemu scupertu hà cambiatu cumu pensemu à DevOps interamente.

Perchè i log CI sò i dati più sottoutilizati in l'ingegneria di u software

Considerate u voluminu puri. Un squadra di ingegneria di medie dimensioni chì gestisce 200 build per ghjornu in più repositori genera circa 2-4 GB di dati di log crudi ogni ghjornu. Più di un annu, hè più di un terabyte di testu strutturatu è semi-strutturatu chì cattura ogni compilazione, ogni esecuzione di suite di teste, ogni passu di implementazione, è ogni modu di fallimentu chì u vostru sistema hà mai scontru. Hè un registru archeologicu cumpletu di a produtividade di a vostra urganizazione di l'ingegneria - è quasi nimu u leghje.

U prublema ùn hè micca chì i dati mancanu di valore. Hè chì u rapportu signal-to-noise hè brutale. Una corsa tipica di CI produce migliaia di linee di output, è forse 3-5 di queste linee cuntenenu informazioni azzione. L'ingegneri amparanu à scansà u testu rossu, grep per "FAILED", è andate avanti. Ma i mudelli chì importanu u più - a prova flaky chì falla ogni marti, a dependenza chì aghjunghje 40 seconde à ogni custruzzione, a fuga di memoria chì hè solu superficia quandu trè servizii specifichi funzionanu simultaneamente - quelli mudelli sò invisibili à u livellu individuale di log. Emergenu solu à scala.

Strumenti tradiziunali di analisi di log cum'è ELK stacks è Datadog ponu aggregate metriche è partite di keyword di superficia, ma si battenu cù a cumplessità semantica di l'output CI. Un missaghju di fallimentu di custruzzione chì leghje "connessione rifiutata à u portu 5432" è quellu chì leghje "FATAL: l'autentificazione di password falluta per l'utilizatori 'deploy'" sò tramindui fallimenti legati à a basa di dati, ma anu una causa radicale completamente diversa è suluzione. Capisce quella distinzione richiede u tipu di ragiunamentu cuntestuali chì, finu à pocu tempu, solu l'omu puderia furnisce.

L'Esperimentu: Alimentazione di 3.2 Terabytes di Storia di Custruzzione à un LLM

L'installazione era semplice in cuncepimentu è incubi in l'esecuzione. Avemu cullucatu 14 mesi di logs CI da una piattaforma chì serve più di 138,000 utenti - chì copre e custruzzioni in parechji servizii, ambienti è obiettivi di implementazione. U dataset crudu hè ghjuntu à 3,2 terabyte: circa 847 milioni di linee di log individuali chì copre 1,6 milioni di pipeline CI. Chunked, incrusted, and indexed this data, and then built a retrieve-augmented generation (RAG) pipeline chì puderia risponde à e dumande in lingua naturale nantu à a nostra storia di custruzzione.

U primu sfida era a preprocessazione. I logs CI ùn sò micca testu puliti. Contenenu codici di culore ANSI, barre di prugressu chì si sovrascrivenu, cuntrolli di artefatti binari, è timestamps in almenu quattru formati diffirenti, secondu u strumentu chì li hà generatu. Avemu passatu trè settimane solu nantu à a nurmalizazione - sguassate u rumore, standardizà i timestamps, è taggendu ogni segmentu di log cù metadati nantu à quale stadiu di pipeline, repository, ramu è ambiente appartene.

A seconda sfida era u costu. Esecuzione di inferenza nantu à terabyte di testu ùn hè micca economicu, ancu cù u chunking aggressivu è ottimisazione di ricuperazione. Avemu brusgiatu crediti di calculu significativu durante u primu mese solu, soprattuttu perchè u nostru approcciu iniziale era troppu ingenu - mandendu troppu cuntestu per dumanda è ùn era micca abbastanza selettivu nantu à quali segmenti di log eranu pertinenti. À a fine di u secondu mese, avemu riduciutu i costi per dumanda di 87% per mezu di strategie di incrustazione megliu è di un sistema di ricuperazione in dui fasi chì usava un mudellu più chjucu per prefiltru prima di mandà à u più grande.

Cinque mudelli chì u LLM hà trovu chì l'umani ùn avissiru mai

In a prima settimana di e dumande in esecuzione, u sistema hà apparsu insights chì averia pigliatu mesi à un analista umanu per scopre manualmente. Ùn eranu micca casi di punta o curiosità - eranu prublemi sistemici chì sanguinanu ore di ingegneria reale.

  1. A cascata di dependenza fantasma. Una sola aghjurnazione di u pacchettu npm 9 mesi prima avia introduttu un ritardu di 22 seconde à ogni custruzzione JavaScript. U ritardu era mascheratu perchè coincideva cù un aghjurnamentu di l'infrastruttura CI chì hà fattu e custruzzioni più veloce in generale. Net-net, e custruzzioni parevanu più veloci, ma puderianu esse 22 seconde più veloci. In più di 400 custruzzioni JS per ghjornu, era 2,4 ore di calculu sprecu ogni ghjornu.
  2. U flake di u fusu orariu. Una suite di teste hà avutu un tassu di fallimentu di 4,7% - ghjustu abbastanza altu per esse fastidiosu, solu abbastanza bassu chì nimu hà priurità di risolve. U LLM hà identificatu chì i fallimenti correlavanu quasi perfettamenti cù e custruzzioni attivate trà 23: 00 è 01: 00 UTC, quandu una funzione di paragone di data hà attraversatu un cunfini di ghjornu. Una correzione di duie linee hà eliminatu u flake sanu.
  3. U mudellu di rollback silenziu. L'implementazione di staging hà riesciutu u 99,2% di u tempu, ma u LLM hà nutatu chì u 31% di implementazioni di staging "successu" sò stati seguiti da un'altra implementazione di u stessu serviziu in 45 minuti - chì suggerenu chì a prima implementazione hè stata rotta funzionalmente malgradu passà tutti i cuntrolli. Questu hà purtatu à scopre chì una prova d'integrazione passava per via di risposte in cache da un serviziu simulatu.
  4. U collu di bottiglia di u luni matina. I tempi di fila di custruzzione anu aumentatu di 340% ogni luni trà 9:00 è 10:30 ora locale, perchè i sviluppatori chì anu travagliatu durante u weekend anu spintu tutti i so cambiamenti prima di standup. A correzione ùn era micca tecnicu - era operativa: scavalcà u calendariu di scaling pool di i corridori CI per anticipà l'aumentu di u luni.
  5. A bandiera di compilatore chì nimu hà stabilitu. U 67% di e custruzzioni C++ eranu in esecuzione senza a compilazione incrementale attivata, aghjunghjendu una media di 3,8 minuti per custruzzione. A bandiera hè stata documentata in a guida di l'imbarcu, ma ùn hè mai stata aghjuntu à u mudellu di cunfigurazione CI spartutu.

"I bug più caru ùn sò micca quelli chì crash a vostra applicazione. Sò quelli chì arrubbanu in silenziu 30 seconde da ogni custruzzione, ogni ghjornu, per anni - finu à chì qualcunu infine dumanda a quistione ghjusta di u set di dati ghjustu "

Custruì una strata pratica di intelligenza CI

L'esperimentu ci hà cunvintu chì l'analisi di log alimentata da LLM ùn hè micca una novità - hè una vera capacità operativa. Ma per fà a pratica hè necessaria una architettura pensativa. Ùn pudete micca solu cunduce logs crudi in una interfaccia di chat è aspetta risposte utili. U sistema hà bisognu di struttura, è deve esse integrata in i flussi di travagliu chì l'ingegneri usanu digià.

Avemu stabilitu un approcciu à trè livelli. U primu livellu hè u triage automatizatu: ogni custruzzione falluta hè automaticamente classificata per categuria di a causa radicale (infrastruttura, dipendenza, logica di prova, cunfigurazione o flake) cun un puntu di fiducia. Questu solu hà riduciutu u tempu mediu di riparazione per i fallimenti di a custruzzione di 34%, perchè l'ingegneri ùn anu più da passà 10 minuti à leghje i logs solu per capisce induve cumincià à circà. U sicondu livellu hè a deteczione di tendenza: un riassuntu settimanale chì superficia mudelli emergenti - aumentu di i tassi di fallimentu, crescente di tempi di custruzzione, novi firme d'errore - prima ch'elli diventenu critichi. U terzu livellu hè inchiesta interattiva: una interfaccia induve l'ingegneri ponu dumandà dumande in lingua naturali nantu à a storia di a custruzzione, cum'è "Perchè u serviziu X hà fallutu più spessu dopu a liberazione di marzu?" o "Quale hè a causa più cumuna di l'errori di timeout in u pipeline di pagamentu?"

Per i squadre chì eseguenu operazioni cumplesse - in particulare quelli chì gestiscenu parechje funzioni cummerciale cum'è CRM, fattura, paghe è analisi attraversu piattaforme cum'è Mewayz, chì orchestra 207 moduli integrati - stu tipu di osservabilità diventa ancu più criticu. Quandu una sola implementazione tocca simultaneamente i flussi di travagliu di u cliente, a logica di fatturazione è i sistemi HR, capisce l'interdependenze in u vostru pipeline CI ùn hè micca opzionale. Hè essenziale per mantene l'affidabilità chì dipendenu da più di 138 000 utenti.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Ciò chì ùn funziona (ancora)

L'onestà conta più di l'hype. Ci sò limitazioni chjaramente à questu approcciu chì qualcunu cunsiderà chì deve capisce. LLM allucinate, è quandu si allucinate nantu à i logs CI, i risultati ponu esse sbagliati cunvincente. Avemu vistu chì u sistema attribuisce cun fiducia un fallimentu di custruzzione à un cunflittu di dependenza chì ùn hè mai esistitu, cumpletu cù numeri di versione fabbricati. U pipeline RAG riduce questu significativamente, ma ùn l'elimina micca. Ogni insight chì u sistema pruduce hà sempre bisognu di verificazione umana prima di l'azzione.

A scala resta una sfida. Mentre chì u sistema di ricuperazione pò trattà e dumande in modu efficiente, l'indexazione iniziale è l'incrustazione di novi logs sò computazionalmente caru. Trattamu circa 800 000 novi linee di log ogni ghjornu, è mantene l'indici frescu richiede una infrastruttura dedicata. Per i gruppi più chjuchi, u calculu di u costu-benefiziu ùn pò micca favurizà stu approcciu - almenu micca ancu. Siccomu i costi di u mudellu cuntinueghjanu à calà (hannu calatu circa 90% in l'ultimi 18 mesi per una capacità equivalente), l'ecunumia cambierà.

Ci hè ancu a quistione di a sicurità. I logs CI ponu cuntene sicreti - chjavi API, strings di cunnessione, URL interni - malgradu i migliori sforzi per scrubli. L'inviu di sti dati à l'API LLM esterne introduce risicu. Mitighemu questu cun un pipeline di scrubbing lucale è eseguendu inferenza nantu à mudelli self-hosted per repositori sensittivi, ma aghjunghje cumplessità è costu. E squadre anu da valutà currettamente u so mudellu di minaccia prima di implementà qualcosa simili.

Inizià senza Terabyte

Ùn avete micca bisognu di un inseme di dati massivu o di una squadra di ingegneria ML dedicata per inizià a estrazione di valore da i vostri logs CI. Eccu un puntu di partenza pragmaticu chì qualsiasi squadra cù uni pochi di centu di custruzzioni à settimana pò implementà:

  • Cuminciate cù a classificazione di fallimentu. Esporta i vostri ultimi 90 ghjorni di logs di creazione falluti. Aduprate qualsiasi API LLM per classificà ogni fallimentu in categurie. Ancu una tassonomia simplice (infra vs. code vs. config vs. flake) furnisce un valore immediatu per a priorità.
  • Traccia i tendenzi di a durazione di a custruzzione. Analizza i timestamps da i vostri logs per creà una serie temporale di durazioni di creazione per ogni tappa di pipeline. Feed anomalies à un LLM cù u cuntestu di log circundante è dumandate l'ipotesi di a causa radicali.
  • Automatizà e dumande "evidenti". Stallà un ganciu post-fallimentu chì manda l'ultime 500 linee di una custruzzione falluta à un LLM cù u prompt: "Summarize this CI fallimentu in una frase è suggerisce a correzione più prubabile". Questu solu salva 5-10 minuti per fallimentu per ogni ingegnere in a squadra.
  • Custruisce un archiviu ricercabile. Aduprate l'incrustazioni per fà a vostra storia di logu interrugabile per lingua naturale. Strumenti cum'è LangChain è LlamaIndex facenu stu sorprendentemente accessibile, ancu per i gruppi senza sperienza ML.

A chjave hè di cumincià à pocu pressu, cunvalidà chì e intuizioni sò precise, è espansione gradualmente. L'ecosistema di l'attrezzi per stu tipu d'analisi hè maturu rapidamente, è ciò chì necessitava una infrastruttura persunalizata un annu fà hè sempre più dispunibule cum'è cumpunenti off-the-shelf.

U futuru hè l'intelligenza operativa

Ciò chì parlemu veramente ùn hè micca solu l'analisi di log - hè un cambiamentu fundamentale versu l'intelligenza operativa. U listessu approcciu chì travaglia per i logs CI si applica à i biglietti di supportu à i clienti, i dati di pipeline di vendita, e transazzioni finanziarii è i flussi di travagliu operativi. U filu cumunu hè chì l'urganisazioni generanu una grande quantità di dati di testu semi-strutturati chì cuntenenu mudelli azzione, è LLM sò unicu adattati per truvà quelli mudelli.

Hè per quessa chì e plataforme chì centralizanu l'operazioni cummerciale anu un vantaghju strutturale. Quandu i vostri dati CRM, a gestione di u prughjettu, a fattura, i registri HR, è l'analitiche vivenu tutti in un sistema - cum'è per i squadre chì utilizanu l'architettura di moduli integrati di Mewayz - u potenziale per l'intelligenza interdominiu si multiplica. Un mudellu in i vostri logs CI pò esse correlate cù u cliente churn. Un piccu di i biglietti di supportu puderia predice un fallimentu di implementazione. Queste cunnessioni diventanu visibili solu quandu e dati campanu in sistemi cunnessi invece di silos isolati.

E squadre chì prosperaranu in a prossima decada ùn sò micca necessariamente quelli chì anu u più ingegneri o i più grandi budget. Sò quelli chì amparanu à sente i so propii dati - cumpresi i terabyte chì anu gettatu. I vostri logs CI parlanu. A quistione hè s'è vo site prontu à sente ciò chì anu da dì.

Domande Frequenti

I LLM ponu veramente truvà mudelli utili in i logs CI ?

Assolutamente. I grandi mudelli di lingua eccellenu à identificà mudelli recurrenti in u testu massivu senza struttura. Quandu anu puntatu à terabyte di logs CI, ponu superficia correlazioni di fallimentu, firme di teste flaky, è cunflitti di dipendenza chì l'ingegneri umani ùn anu mai catturà manualmente. A chjave hè di strutturà u pipeline di ingestione currettamente in modu chì u mudellu riceve segmenti di log chjuchi currettamente, ricchi in cuntestuali piuttostu cà u rumore crudu.

Quali tipi di fallimenti CI ponu esse prediti cù l'analisi di log?

L'analisi di log guidata da LLM pò predice i timeout in relazione à l'infrastruttura, i fallimenti ricorrenti di risoluzione di a dependenza, i crash di custruzzione di memoria, è i testi flaky attivati da percorsi di codice specifichi. Identifica ancu regressioni lenta chì i tempi di custruzzione aumentanu gradualmente in settimane. E squadre chì utilizanu stu approcciu tipicamente catturà mudelli di fallimentu in cascata da dui à trè sprint prima di diventà incidenti di bloccu in implementazioni di produzzione.

Quante dati di log CI avete bisognu prima chì l'analisi diventa preziosa?

I mudelli significati sò tipicamente emergenu dopu l'analisi di 30 à 90 ghjorni di storia di pipeline cuntinuu in parechje rami. I datasets più chjuchi dannu insights à u livellu di a superficia, ma u valore veru vene da a riferimentu incruciatu di millaie di custruzzioni. Per e squadre chì gestiscenu flussi di travagliu cumplessi à fiancu à i so pipeline CI, piattaforme cum'è Mewayz offrenu 207 moduli integrati à partesi da $ 19/mo per centralizà e dati operativi in app.mewayz.com.

L'alimentazione di logs CI à un LLM hè un risicu per a sicurità?

Si pò esse trattatu senza cura. I logs CI cuntenenu spessu variabili d'ambiente, chjavi API, URL interni è dettagli di l'infrastruttura. Prima di trasfurmà i logs attraversu qualsiasi LLM, duvete implementà pipeline di redazione robuste chì sguassate segreti, credenziali è informazioni d'identità persunale. L'implementazione di mudelli self-hosted o on-premise riduce significativamente l'esposizione cumparatu cù l'invio di logs crudi à endpoint di inferenza basati in nuvola di terze parti.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 6,206+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 6,206+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime