Hacker News

Stop Burning Your Context Window - How We Cut MCP Output da 98% in Claude Code

Cumenti

15 min read Via mksg.lu

Mewayz Team

Editorial Team

Hacker News

L'imposta nascosta nantu à ogni flussu di travagliu alimentatu da IA

Se avete passatu un tempu significativu à custruisce cù l'assistenti di codificazione AI, avete culpitu u muru. Ùn hè micca quellu induve u mudellu allucina o malintende a vostra intenzione - u più sottile, più frustrante induve u vostru cumpagnu AI perfettamente capace perde di colpu a trama à a mità di a conversazione. Hè scurdatu di a struttura di u schedariu chì avete discututu trè missaghji fà. Rileghje i schedari chì hà digià analizatu. Cumincia a cuntradisce i so propii suggerimenti prima. U culpitu ùn hè micca a qualità di u mudellu - hè l'esaurimentu di a finestra di u cuntestu, è l'unicu più grande cuntributore hè un strumentu gonfiatu chì nimu hà dumandatu.

Stu prublema ùn hè micca teoricu. E squadre chì basanu nantu à l'integrazioni MCP (Protocolu di Cuntestu Modellu) in Claude Code, Cursor, è ambienti di sviluppu simili cù AI scoprenu chì e so risposte di l'uttellu tornanu rutinariamente da 50x à 100x più di dati di u mudellu veramente bisognu. Una dumanda simplice di basa di dati rende dumps di schema cumpletu. Una ricerca di u schedariu torna l'arburi di u cartulare sanu. Un verificatu di u statutu di l'API torna i logs paginati di settimane. Ogni token in eccesso manghja in a finestra di u cuntestu finitu, degradandu u rendimentu nantu à i travaglii chì veramente importanu. A correzione ùn hè micca cumplicata, ma esige un cambiamentu fundamentale in cumu pensate à u disignu di l'utillita AI.

Perchè u cuntestu Windows si rompe prima chì i mudelli facenu

I mudelli muderni di grande lingua cum'è Claude anu generose finestre di cuntestu - 200K tokens in parechje cunfigurazioni. Sembra enormu finu à chì capisci quantu rapidamente i flussi di travagliu pesante di l'arnesi u cunsumanu. Una sola chjama di l'uttellu MCP chì torna una tabella di basa di dati completa cù fila 500 pò brusgià 15,000-30,000 tokens in una risposta. Catena cinque o sei di quelli chjamati inseme in una sessione di debugging, è avete cunsumatu a mità di a vostra finestra di cuntestu prima di scrive una sola linea di codice. U mudellu ùn diventa più stupidu - hè literalmente fora di stanza per mantene a vostra conversazione in memoria.

L'effettu cumpostu hè ciò chì rende questu cusì distruttivu. Quandu u cuntestu hè cumpressu o truncatu per adattà a nova infurmazione, u mudellu perde l'accessu à l'istruzzioni precedenti, e decisioni architettoniche è i mudelli stabiliti da a vostra conversazione. Finisci à ripetiri sè stessu, ristabilisce u cuntestu, è fighjendu l'AI fà sbaglià ùn averia micca fattu dece missaghji prima. Per e squadre di ingegneria, e funzioni di spedizione in tempi stretti, questu si traduce direttamente in ore perse è qualità di codice degradata.

In Mewayz, avemu scontru stu prublema esatta mentre custruiscenu a nostra piattaforma cummerciale 207-module. U nostru flussu di travagliu di sviluppu si basa assai nantu à a codificazione assistita da AI in moduli interconnessi - CRM, fatturazione, paghe, HR, analisi - induve un cambiamentu in un modulu casca spessu in altri. Quandu i nostri outputs di l'uttellu MCP eranu gonfiati, Claude perderà a traccia di e dipendenze cross-module in una sola sessione. A suluzione ci vole à ripensà ogni risposta strumentu da u pianu.

U Framework di Riduzzione di 98%: Quattru Principii chì Cambianu Tuttu

Tagliate l'output MCP di 98% ùn hè micca di sguassà l'infurmazioni - si tratta di rinvià solu l'infurmazioni chì u mudellu hà bisognu per piglià a so prossima decisione. A distinzione importa. Un strumentu chì torna un registru d'utilizatore ùn hà micca bisognu di include ogni campu quandu u mudellu hà dumandatu solu se l'utilizatore esiste. A ricerca di u schedariu ùn hà micca bisognu di rinvià u cuntenutu di u schedariu quandu u mudellu hà solu bisognu di percorsi di fugliale. Ogni risposta deve risponde à a quistione chì hè stata fatta, nunda di più.

Eccu i quattru principii chì guidanu a nostra ottimisazione:

  1. Ritorna sintesi, micca datasets. Invece di rinvià 200 fila da una dumanda, restituite un cuntu più e 3-5 fila più pertinenti. Se u mudellu hà bisognu di più, pò dumandà una fetta specifica. Stu cambiamentu unicu riduce tipicamente l'output da 80-90% nantu à l'arnesi di dati pisanti.
  2. Utilizà schemi strutturati, minimi. Strip ogni campu chì ùn hè micca direttamente pertinente à u scopu dichjarata di l'uttellu. Un strumentu "verificà u statutu di implementazione" deve rinvià u statutu, u timestamp, è l'errore (s'ellu ci hè) - micca u manifestu di implementazione cumpletu, variabili di l'ambienti, è custruite logs.
  3. Implementa a divulgazione progressiva. Strumenti di cuncepimentu per rinvià un riassuntu d'altu livellu nantu à a prima chjamata, cù paràmetri chì permettenu à u mudellu di perforazione più profonda quandu hè necessariu. Pensate à questu cum'è a paginazione per AI - dà prima u sommariu, dopu capituli individuali nantu à dumanda.
  4. Deduplicate in modu aggressivu. Se u mudellu hà digià un pezzu d'infurmazione in u cuntestu (da una chjama di l'uttellu precedente o un missaghju d'utilizatore), ùn torna micca torna. Segui ciò chì hè statu furnitu è riferite lu invece di ripetiri lu.
Insight chjave: L'ughjettu di una risposta di l'uttellu MCP ùn hè micca cumpletu - hè sufficienza. Ogni token oltre ciò chì u mudellu hà bisognu à piglià a so prossima azzione hè un token arrubatu da a capacità di ragiunamentu futuru. Design per a decisione di u mudellu, micca per a curiosità umana.

Implementazione pratica: prima è dopu

Per fà questu cuncrettu, cunzidira un scenariu di sviluppu cumuni: interrogà a struttura di u modulu di un prughjettu per capiscenu e dipendenze. In a nostra implementazione originale, l'uttellu MCP hà tornatu u manifestu di modulu cumpletu - ogni nome di modulu, descrizzione, versione, arbre di dipendenza, opzioni di cunfigurazione è bandieri di statutu. Per l'architettura di 207 moduli di Mewayz, sta risposta unica hà cunsumatu circa 45 000 tokens. U mudellu avia bisognu di circa 800 tokens di questa informazione per risponde à a quistione "chì moduli dipendenu di u modulu di fattura?"

A versione ottimizzata torna una lista piatta di nomi di moduli cù e so referenze di dependenza diretta - senza descrizzioni, senza cunfigurazione, senza numeri di versione. Quandu u mudellu identifica i moduli pertinenti, pò chjamà una seconda strumentu per uttene dettagli nantu à moduli specifichi. U costu tutale di u token per a stessa dumanda hè cascatu da 45 000 à circa 900 tokens. Hè una riduzione di 98% chì cunserva a capacità di u mudellu di ragiunà nantu à a conversazione restante sana.

Un altru esempiu: analisi di log di errore. L'uttellu uriginale hà restituitu l'ultime 500 voci di log cù tracce di stack complete, timestamps, dumanda di metadati è cuntestu ambientale. A versione ottimisata torna un riassuntu raggruppatu in frequenza - "DatabaseConnectionError: 47 occorrenze in l'ultima ora, a più recente à 14:32, chì affettanu / api/invoices endpoint" - in circa 200 tokens invece di 12,000. Se u mudellu hà bisognu di una traccia di stack specifica, dumanda una per ID d'errore. Stessa capacità di diagnostica, frazione di u costu.

L'effettu Ripple nantu à a Velocità di Sviluppu

I benefizii di i risultati MCP magre si estendenu assai oltre l'inserimentu di più in a finestra di cuntestu. Quandu u mudellu conserva più di a vostra storia di cunversazione, mantene a coerenza in i refactors multi-file cumplessi. Si ricorda di e limitazioni architettoniche chì avete mintuatu prima di a sessione. Ùn suggerisce micca suluzioni chì cuntradite e decisioni chì avete digià fattu. A migliione qualitativa in a codificazione assistita da AI hè drammatica - hè a diffarenza trà un sviluppatore junior capaci chì piglia note è quellu chì continua à scurdà ciò chì li avete dettu.

Per a nostra squadra chì travaglia nantu à i moduli di cummerciale interconnessi di Mewayz, questu significava chì Claude puderia navigà cù successu refactors chì toccavanu i moduli CRM, fattura è analisi in una sola sessione senza perde a traccia di i mudelli di dati cumuni chì li cunnessu. Prima di l'ottimisazione, sti travaglii cross-moduli necessitavanu di sparghje u travagliu in sessioni isolate cù un riassuntu estensivu à l'iniziu di ognunu. Dopu, una sola sessione cuntinuu puderia gestisce tuttu u flussu di travagliu - una migliione di circa 3x in u throughput di u sviluppatore in travaglii cumplessi.

E squadre chì custruiscenu ogni tipu di produttu SaaS multi-cumpunenti ricunnosceranu stu mudellu. Sia chì gestite microservizi, un monolitu modulare, o una piattaforma cù decine di funzioni interconnesse, a capacità di mantene un cuntestu di conversazione cumpletu mentre navigate in basi di codici cumplessi hè trasformativa. L'ottimisazione ùn hè micca solu un tweak di rendiment - cambia ciò chì hè pussibule in una sola sessione di sviluppu assistita da AI.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Errori cumuni chì sabotanu u vostru budgetu di u cuntestu

Ancu i squadre chì capiscenu u principiu di u minimu output facenu spessu errori di implementazione chì minanu i so sforzi. U più cumuni hè di trattà e descrizzioni di l'uttellu MCP cum'è documentazione piuttostu cà ingegneria pronta. A descrizzione di l'uttellu hè a guida primaria di u mudellu per cumu utilizà l'uttellu è ciò chì aspetta da a so pruduzzioni. Descrizzione vaga cum'è "restituisce l'infurmazioni di u prugettu" portanu à u mudellu chì face chjama larghe è esplorative. Descrizioni precise cum'è "ritorna una lista di nomi di moduli chì dipendenu direttamente da u modulu specificatu" guidanu u mudellu per fà richieste mirate è efficienti.

Un altru sbagliu frequente hè di fallu di differenzià trà e strumenti di lettura è di analisi. Un strumentu chì leghje un schedariu deve rinvià u cuntenutu di u schedariu. Un strumentu chì analizà un schedariu deve rinvià i risultati di l'analisi, micca u cuntenutu di u schedariu più l'analisi. Quandu sti rispunsabilità sbuccate, finiscinu cù strumenti chì rinvianu dati crudi à fiancu di insights processati, radduppiendu u costu di token senza benefiziu per u ragiunamentu di u mudellu.

U terzu trappulu hè un furmatu di risposta inconsistente. Quandu certi arnesi tornanu JSON, altri tornanu tavule di marcatura, è altri tornanu testu chjaru, u mudellu spende tokens per analizà è nurmalizà diversi formati. Standardizà nantu à un furmatu unicu è compactu - tipicamente minimu JSON cù nomi di campu coherente - è u vostru mudellu spende menu tokens per a comprensione di u formatu è più nantu à a risoluzione di i prublemi.

Custruì un Ecosistema di Strumenta Cuscenti di u Cuntestu

L'approcciu più sofisticatu à l'ottimisazione di output MCP va oltre e risposte individuali di l'utensili è cunsidereghja tuttu l'ecosistema di l'utensili cum'è un sistema coordinatu. Questu significa arnesi chì sò cunuscenti di ciò chì altri arnesi anu digià vultatu in a sessione attuale, arnesi chì ponu riferite risultati prima per ID invece di ricuperà elli, è arnesi chì adattanu a so verbosità basatu annantu à u budgetu di u cuntestu restante.

L'implementazione di l'arnesi di sessione richiede una strata di middleware ligera chì traccia a storia di e chjama di l'utillita in una conversazione. Quandu un strumentu hè chjamatu, u middleware verifica se e dati pertinenti esistenu digià in u cuntestu è aghjusta a risposta in cunseguenza. Per esempiu, se u mudellu hà digià ritruvatu una lista di moduli attivi, una chjama di l'uttellu sussegwente nantu à e dipendenze di i moduli pò riferite i moduli per nome senza ri-descrive. Questa sensibilizazione inter-utensili pò riduce l'usu cumulativu di token da un 30-40% addiziale oltre l'ottimisazioni di l'arnesi individuale.

Per i squadre di ingegneria chì valutanu stu approcciu, l'investimentu paga in proporzione à a cumplessità di u vostru ecosistema di l'arnesi. Un prughjettu cù trè strumenti MCP ùn pò micca ghjustificà l'overhead di middleware. Una piattaforma cum'è Mewayz, cù strumenti chì copre e dumande di basa di dati, a gestione di moduli, u statu di implementazione, l'analisi di l'errore è a cumunicazione cross-service, vede ritorni cumposti da ogni strata di ottimisazione. A scala di principiu: u più arnesi avete, più valore avete estratti da a cunniscenza di u cuntestu.

A lezione più larga per l'AI-First Development

U sfida di ottimisazione di a finestra di u cuntestu revela qualcosa di impurtante nantu à u statu attuale di u sviluppu assistitu da AI: simu sempre in i primi innings di amparà à cuncepisce sistemi per u cunsumu AI. A maiò parte di l'arnesi MCP sò custruiti da sviluppatori chì pensanu à l'output di l'uttellu cumu pensanu à e risposte API - cumpletu, ben documentatu è cumpletu. Ma un mudellu AI ùn hè micca una applicazione frontend chì rende un dashboard. Hè un mutore di ragiunamentu cù un budgetu di memoria finitu, è ogni byte di quellu budgetu hà un impattu direttu nantu à a qualità di output.

E squadre chì custruiranu i migliori flussi di travagliu di sviluppu alimentati da AI in i prossimi anni ùn saranu micca solu quelli cù i migliori mudelli o i più strumenti. Seranu quelli chì trattanu a gestione di a finestra di u cuntestu cum'è una disciplina di l'ingegneria di prima classe - chì misuranu i bilanci di token in quantu misuranu a latenza di l'API, chì ottimisanu e risposte di l'uttellu in u modu chì ottimisanu e dumande di basa di dati, è chì capiscenu chì in u sviluppu assistitu da AI, menu infurmazione furnita bè supera sempre più infurmazione furnita senza cura.

Sia custruendu un startup unicu pruduttu o gestionendu una piattaforma cumplessa cù centinaie di moduli interconnessi, u principiu hè u listessu: rispettu a finestra di u cuntestu. I vostri strumenti AI sò solu boni cum'è u spaziu chì li dete per pensà.

Domande Frequenti

Chì hè l'esaurimentu di a finestra di u cuntestu è perchè importa ?

L'esaurimentu di a finestra di u cuntestu si verifica quandu un assistente di codificazione AI si esaurisce da a memoria utilizzabile durante a conversazione per via di uscite di l'uttene gonfiate. Questu face chì u mudellu si scurdassi di u cuntestu prima, rileghje i schedari inutilmente, è cuntradisce i so suggerimenti. Per e squadre chì si basanu nantu à i flussi di travagliu di sviluppu alimentati da AI, questu diminuisce in silenziu a produtividade è a qualità di output, trasfurmendu un assistente capace in un assistente inaffidabile senza alcun missaghju d'errore evidenti.

Cumu hà riduciutu l'output MCP di 98%?

Avemu ristrutturatu e nostre risposte di l'uttellu MCP per rinvià solu dati essenziali invece di outputs verbose, senza filtrazione. Implementendu una riassunzione intelligente, ritorni selettivi di u campu è un troncamentu cunsciente di u cuntestu, avemu eliminatu u rumore chì cunsumava preziosi tokens di cuntestu. U risultatu hè chì Claude Code mantene conversazioni coerenti è produttive per sessioni significativamente più longu - chì permettenu compiti cumplessi di ingegneria in più tappe senza perde u filu.

Questa ottimisazione funziona cù e plataforme cum'è Mewayz?

Assolutamente. Mewayz hè un sistema operativu cummerciale di 207 moduli chì partenu da $ 19 / mo chì si basa nantu à l'automatizazione AI efficiente in tutta a so piattaforma. I risultati MCP ottimizzati significanu flussi di travagliu assistiti da AI in arnesi cum'è Mewayz in app.mewayz.com funzionanu più veloce è più affidabile, postu chì ogni token salvatu si traduce direttamente in sessioni produttive più lunghe è risposte più precise durante a gestione di operazioni cumplesse di cummerciale.

Puderaghju applicà queste tecniche di ottimisazione MCP à i mo prughjetti?

Iè. I principii core - minimizzà i carichi di risposta, rinvià solu i campi richiesti, è riassume i grandi datasets prima di passà à u mudellu - sò universalmente applicabili. Sia chì custruite servitori MCP persunalizati o integrendu strumenti di terze parti cù Claude Code, l'auditu di i vostri outputs di l'uttellu per una verbosità inutile hè l'ottimisazione unica di più impattu chì pudete fà per allargà a durata di cunversazione produttiva.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime