Hacker News

Slutt å brenne kontekstvinduet ditt – hvordan vi reduserer MCP-utdata med 98 % i Claude Code

Finn ut hvordan vi reduserte MCP-verktøyets utgang med 98 % i Claude Code for å forhindre utmattelse av kontekstvinduer og holde AI-kodingsassistenter til å yte sitt beste.

7 min read

Mewayz Team

Editorial Team

Hacker News

Den skjulte skatten på hver AI-drevet arbeidsflyt

Hvis du har brukt meningsfull tid på å bygge med AI-kodeassistenter, har du truffet veggen. Ikke den der modellen hallusinerer eller misforstår intensjonen din – den mer subtile, mer frustrerende hvor din perfekt dyktige AI-partner plutselig mister handlingen midt i samtalen. Den glemmer filstrukturen du diskuterte for tre meldinger siden. Den leser filer den allerede har analysert på nytt. Det begynner å motsi sine egne tidligere forslag. Synderen er ikke modellkvalitet - det er utmattelse av kontekstvinduer, og den største enkeltbidragsyteren er oppblåst verktøyutgang som ingen ba om.

Dette problemet er ikke teoretisk. Team som bygger på MCP (Model Context Protocol)-integrasjoner i Claude Code, Cursor og lignende AI-drevne utviklingsmiljøer, oppdager at verktøysvarene deres rutinemessig returnerer 50 ganger til 100 ganger mer data enn modellen faktisk trenger. En enkel databasespørring returnerer fullstendige skjemadumper. Et filsøk returnerer hele katalogtrær. En API-statussjekk returnerer paginerte logger som går uker tilbake. Hver overflødig token spiser inn i det endelige kontekstvinduet, og forringer ytelsen på oppgavene som faktisk betyr noe. Løsningen er ikke komplisert, men den krever et grunnleggende skifte i hvordan du tenker på AI-verktøydesign.

Hvorfor kontekst Windows bryter før modeller gjør det

Moderne store språkmodeller som Claude har sjenerøse kontekstvinduer - 200K tokens i mange konfigurasjoner. Det høres enormt ut helt til du innser hvor raskt verktøytunge arbeidsflyter bruker det. Et enkelt MCP-verktøykall som returnerer en fullstendig databasetabell med 500 rader kan brenne 15 000–30 000 tokens i ett svar. Koble fem eller seks av disse samtalene sammen i en feilsøkingsøkt, og du har brukt halve kontekstvinduet før du skrev en enkelt kodelinje. Modellen blir ikke dummere – den går bokstavelig talt tom for plass til å holde samtalen i minnet.

Sammensetningseffekten er det som gjør dette så ødeleggende. Når kontekst blir komprimert eller avkortet for å passe til ny informasjon, mister modellen tilgang til tidligere instruksjoner, arkitektoniske beslutninger og etablerte mønstre fra samtalen din. Du ender opp med å gjenta deg selv, gjenopprette konteksten og se AI-en gjøre feil den ikke ville ha gjort ti meldinger tidligere. For ingeniørteam som sender funksjoner på stramme tidslinjer, betyr dette direkte tapte timer og forringet kodekvalitet.

Hos Mewayz møtte vi akkurat dette problemet mens vi bygde vår forretningsplattform med 207 moduler. Utviklingsarbeidsflyten vår er sterkt avhengig av AI-assistert koding på tvers av sammenkoblede moduler – CRM, fakturering, lønn, HR, analyser – der en endring i én modul ofte går over i andre. Når MCP-verktøyutgangene våre var oppblåste, ville Claude miste oversikten over avhengigheter på tvers av moduler i løpet av en enkelt økt. Løsningen krevde at vi revurderte hver verktøyrespons fra grunnen av.

98 % reduksjonsrammeverket: Fire prinsipper som endret alt

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Å kutte MCP-utdata med 98 % handler ikke om å fjerne informasjon – det handler om å returnere bare informasjonen modellen trenger for å ta sin neste beslutning. Skillet er viktig. Et verktøy som returnerer en brukerpost trenger ikke inkludere hvert felt når modellen bare spurte om brukeren eksisterer. Et filsøk trenger ikke returnere filinnhold når modellen bare trenger filstier. Hvert svar skal svare på spørsmålet som ble stilt, ikke noe mer.

Her er de fire prinsippene som drev optimaliseringen vår:

Returner sammendrag, ikke datasett. I stedet for å returnere 200 rader fra et søk, returner et antall pluss de 3-5 mest relevante radene. Hvis modellen trenger mer, kan den be om en bestemt skive. Denne enkeltendringen reduserer vanligvis produksjonen med 80–90 % på datatunge verktøy.

Bruk strukturerte, minimale skjemaer. Fjern alle felt som ikke er direkte relevante for verktøyets erklærte formål. Et "sjekk distribusjonsstatus"-verktøyet skal returnere status, tidsstempel og feil (hvis noen) – ikke hele distribusjonsmanifestet, miljøvariabler og byggelogger.

Imp

Frequently Asked Questions

What is context window exhaustion and why does it matter?

Context window exhaustion occurs when an AI coding assistant runs out of usable memory mid-conversation due to bloated tool outputs. This causes the model to forget earlier context, re-read files unnecessarily, and contradict its own suggestions. For teams relying on AI-powered development workflows, this silently degrades productivity and output quality, turning a capable assistant into an unreliable one without any obvious error message.

How did you reduce MCP output by 98%?

We restructured our MCP tool responses to return only essential data instead of verbose, unfiltered outputs. By implementing smart summarization, selective field returns, and context-aware truncation, we eliminated the noise that was consuming precious context tokens. The result is that Claude Code maintains coherent, productive conversations for significantly longer sessions — enabling complex, multi-step engineering tasks without losing the thread.

Does this optimization work with platforms like Mewayz?

Absolutely. Mewayz is a 207-module business OS starting at $19/mo that relies on efficient AI automation across its entire platform. Optimized MCP outputs mean AI-assisted workflows within tools like Mewayz at app.mewayz.com run faster and more reliably, since every saved token translates directly into longer productive sessions and more accurate responses when managing complex business operations.

Can I apply these MCP optimization techniques to my own projects?

Yes. The core principles — minimizing response payloads, returning only requested fields, and summarizing large datasets before passing them to the model — are universally applicable. Whether you're building custom MCP servers or integrating third-party tools with Claude Code, auditing your tool outputs for unnecessary verbosity is the single highest-impact optimization you can make to extend productive conversation length.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime