Hacker News

Stop met het verbranden van uw contextvenster – hoe we de MCP-uitvoer met 98% verminderen in Claude Code

Ontdek hoe we de uitvoer van MCP-tools met 98% hebben verminderd in Claude Code om uitputting van het contextvenster te voorkomen en ervoor te zorgen dat AI-codeerassistenten optimaal blijven presteren.

7 min gelezen

Mewayz Team

Editorial Team

Hacker News

De verborgen belasting op elke AI-aangedreven workflow

Als je enige zinvolle tijd hebt besteed aan het bouwen met AI-codeerassistenten, ben je tegen de muur gelopen. Niet degene waarin het model hallucineert of je bedoelingen verkeerd begrijpt – de subtielere, meer frustrerende waarbij je perfect capabele AI-partner midden in een gesprek plotseling de plot verliest. Het vergeet de bestandsstructuur die u drie berichten geleden hebt besproken. Het leest bestanden opnieuw die het al heeft geanalyseerd. Het begint zijn eigen eerdere suggesties tegen te spreken. De boosdoener is niet de kwaliteit van het model; het is de uitputting van het contextvenster, en de grootste bijdrager is de opgeblazen tool-uitvoer waar niemand om heeft gevraagd.

Dit probleem is niet theoretisch. Teams die voortbouwen op MCP-integraties (Model Context Protocol) binnen Claude Code, Cursor en vergelijkbare AI-aangedreven ontwikkelomgevingen ontdekken dat hun toolreacties routinematig 50x tot 100x meer gegevens retourneren dan het model daadwerkelijk nodig heeft. Een eenvoudige databasequery retourneert volledige schemadumps. Een bestandszoekopdracht retourneert volledige directorybomen. Een API-statuscontrole retourneert gepagineerde logboeken die weken teruggaan. Elk overtollig token vreet aan het eindige contextvenster, waardoor de prestaties van de taken die er werkelijk toe doen, afnemen. De oplossing is niet ingewikkeld, maar vereist een fundamentele verandering in de manier waarop u over het ontwerp van AI-tools denkt.

Waarom contextvensters kapot gaan voordat modellen dat doen

Moderne grote taalmodellen zoals Claude hebben royale contextvensters: 200.000 tokens in veel configuraties. Dat klinkt enorm, totdat je beseft hoe snel gereedschapsintensieve workflows dit verbruiken. Eén enkele MCP-toolaanroep die een volledige databasetabel met 500 rijen retourneert, kan in één reactie 15.000-30.000 tokens verbranden. Koppel vijf of zes van die aanroepen aan elkaar in een foutopsporingssessie en je hebt de helft van je contextvenster in beslag genomen voordat je ook maar één regel code hebt geschreven. Het model wordt niet dommer: er is letterlijk geen ruimte meer om uw gesprek in het geheugen te bewaren.

Het is het samengestelde effect dat dit zo destructief maakt. Wanneer de context wordt gecomprimeerd of ingekort om in nieuwe informatie te passen, verliest het model de toegang tot eerdere instructies, architecturale beslissingen en gevestigde patronen uit uw gesprek. Uiteindelijk herhaal je jezelf, herstel je de context en zie je hoe de AI fouten maakt die hij tien berichten eerder niet zou hebben gemaakt. Voor technische teams die functies binnen strakke tijdlijnen leveren, vertaalt dit zich rechtstreeks in verloren uren en verminderde codekwaliteit.

Bij Mewayz kwamen we precies dit probleem tegen tijdens het bouwen van ons bedrijfsplatform met 207 modules. Onze ontwikkelingsworkflow is sterk afhankelijk van AI-ondersteunde codering in onderling verbonden modules – CRM, facturering, salarisadministratie, HR, analyse – waarbij een verandering in de ene module vaak overgaat in andere. Toen de output van onze MCP-tools te hoog was, verloor Claude binnen één sessie de afhankelijkheden tussen modules uit het oog. De oplossing vereiste dat we elke toolreactie van de grond af aan moesten heroverwegen.

Het 98%-reductiekader: vier principes die alles hebben veranderd

💡 WIST JE DAT?

Mewayz vervangt 8+ zakelijke tools in één platform

CRM · Facturatie · HR · Projecten · Boekingen · eCommerce · POS · Analytics. Voor altijd gratis abonnement beschikbaar.

Begin gratis →

Het verminderen van de MCP-uitvoer met 98% gaat niet over het verwijderen van informatie; het gaat erom alleen de informatie terug te geven die het model nodig heeft om zijn volgende beslissing te nemen. Het onderscheid is belangrijk. Een tool die een gebruikersrecord retourneert hoeft niet elk veld op te nemen als het model alleen vraagt ​​of de gebruiker bestaat. Bij het zoeken naar bestanden hoeft de bestandsinhoud niet te worden geretourneerd als het model alleen bestandspaden nodig heeft. Elk antwoord moet een antwoord geven op de gestelde vraag, meer niet.

Dit zijn de vier principes die aan de basis liggen van onze optimalisatie:

Retourneer samenvattingen, geen datasets. In plaats van 200 rijen uit een query te retourneren, retourneert u een telling plus de drie tot vijf meest relevante rijen. Als het model meer nodig heeft, kan het om een ​​specifiek segment vragen. Deze enkele wijziging vermindert doorgaans de output met 80-90% bij tools die veel data verwerken.

Gebruik gestructureerde, minimale schema's. Verwijder elk veld dat niet direct relevant is voor het aangegeven doel van de tool. Een tool voor het controleren van de implementatiestatus zou de status, tijdstempel en fout (indien aanwezig) moeten retourneren - niet het volledige implementatiemanifest, omgevingsvariabelen en buildlogboeken.

Imp

Frequently Asked Questions

What is context window exhaustion and why does it matter?

Context window exhaustion occurs when an AI coding assistant runs out of usable memory mid-conversation due to bloated tool outputs. This causes the model to forget earlier context, re-read files unnecessarily, and contradict its own suggestions. For teams relying on AI-powered development workflows, this silently degrades productivity and output quality, turning a capable assistant into an unreliable one without any obvious error message.

How did you reduce MCP output by 98%?

We restructured our MCP tool responses to return only essential data instead of verbose, unfiltered outputs. By implementing smart summarization, selective field returns, and context-aware truncation, we eliminated the noise that was consuming precious context tokens. The result is that Claude Code maintains coherent, productive conversations for significantly longer sessions — enabling complex, multi-step engineering tasks without losing the thread.

Does this optimization work with platforms like Mewayz?

Absolutely. Mewayz is a 207-module business OS starting at $19/mo that relies on efficient AI automation across its entire platform. Optimized MCP outputs mean AI-assisted workflows within tools like Mewayz at app.mewayz.com run faster and more reliably, since every saved token translates directly into longer productive sessions and more accurate responses when managing complex business operations.

Can I apply these MCP optimization techniques to my own projects?

Yes. The core principles — minimizing response payloads, returning only requested fields, and summarizing large datasets before passing them to the model — are universally applicable. Whether you're building custom MCP servers or integrating third-party tools with Claude Code, auditing your tool outputs for unnecessary verbosity is the single highest-impact optimization you can make to extend productive conversation length.

Probeer Mewayz Gratis

Alles-in-één platform voor CRM, facturatie, projecten, HR & meer. Geen creditcard nodig.

Begin vandaag nog slimmer met het beheren van je bedrijf.

Sluit je aan bij 30,000+ bedrijven. Voor altijd gratis abonnement · Geen creditcard nodig.

Klaar om dit in de praktijk te brengen?

Sluit je aan bij 30,000+ bedrijven die Mewayz gebruiken. Voor altijd gratis abonnement — geen creditcard nodig.

Start Gratis Proefperiode →

Klaar om actie te ondernemen?

Start vandaag je gratis Mewayz proefperiode

Alles-in-één bedrijfsplatform. Geen creditcard vereist.

Begin gratis →

14 dagen gratis proefperiode · Geen creditcard · Altijd opzegbaar