Positionspapier

Tokens sind das neue Gold.
Hör auf, sie zu verschwenden.

Ein Positionspapier darüber, warum Informationsdichte - nicht Kontextgrösse - die Leistung von AI-Coding bestimmt. Vom LeanCTX-Team, März 2026.

7 Abschnitte / 5 Designprinzipien / 7 Architektur-Ebenen

Zusammenfassung

Hohe Leistung mit LLMs kommt nicht durch grössere Kontextfenster. Es geht darum, die Informationsentropie pro Token zu maximieren. LeanCTX ist der intelligente Puffer, der sicherstellt, dass jeder Token maximales Signal trägt.

Im Jahr 2026 senden AI-Coding-Tools vollständige Dateien, rohe CLI-Ausgaben und unkomprimierte Projektscans in Kontextfenster - jedes einzelne Mal. Das Signal-Rausch-Verhältnis ist katastrophal. Basierend auf Tool-Call-Analysen in mehrstufigen Coding-Sessions sind ~65% der Dateizugriffe Wiederlesen. Modelle verschwenden Aufmerksamkeit auf Boilerplate mit null Informationsentropie.

Dieses Papier argumentiert, dass ein Intelligence Layer - eine transparente Kompressionsschicht zwischen Entwickler und LLM - das fehlende Stück im AI-Engineering-Stack ist. Wir stellen LeanCTX vor: ein einzelnes Rust-Binary, das bis zu 99% Token-Reduktion pro Operation (Cache-Wiederlesen) erreicht und dabei alle Informationen bewahrt, die das Modell für korrektes Reasoning benötigt.


1. Das Problem

Wir haben Modelle mit Kontextfenstern von einer Million Tokens und Reasoning-Ketten, die über Hunderte von Schritten reichen. Trotzdem senden die meisten AI-Coding-Tools bei jedem Lesen die vollständige Datei. Das ist, als würde man die gesamte Bibliothek senden, wenn jemand nach einer einzelnen Seite fragt.

Das Ergebnis: verwässerte Aufmerksamkeit, verschwendete Rechenleistung und Reasoning, das den Fokus auf die Logikknoten verliert, die wirklich wichtig sind. Jeder redundante Token konkurriert mit dem eigentlichen Signal im Attention-Mechanismus - und lenkt das Reasoning des Modells von den Codepfaden ab, die analysiert werden müssen.

~65%

der Dateizugriffe sind Wiederlesen

Basierend auf Tool-Call-Mustern in mehrstufigen Coding-Sessions

$20–200

pro Monat für AI-Tools

Jedes AI-Tool hat harte Limits. 500 Anfragen pro Tag. 45 Nachrichten pro 5 Stunden. 1.500 Premium-Anfragen pro Monat. Tokens sind das neue Gold - aber die meisten Tools verbrennen sie mit Boilerplate, das null Informationsentropie hat.

Das Problem ist nicht das Modell. Es ist der Input.


2. Informationsdichte

Ein 200K-Token-Kontext voller Boilerplate liefert schlechtere Ergebnisse als 10K Tokens mit reinem Signal. Das ist keine Spekulation - so funktionieren Attention-Mechanismen. Jedes Byte Rauschen, das entfernt wird, ist ein Byte gewonnene Reasoning-Kapazität.

Informationsentropie - gemessen in Bits pro Token - bestimmt, ob ein Modell korrekt schlussfolgert. Tokens mit hoher Entropie tragen Entscheidungen, Verzweigungslogik, API-Verträge, Fehlerbehandlung. Tokens mit niedriger Entropie tragen Leerzeichen, Boilerplate, repetitive Imports und verbose CLI-Formatierung.

10K Tokens die 200K.

Das Ziel jeder Intelligence-Layer-Interaktion.

Betrachte ein typisches Datei-Wiederlesen. Das Modell kennt bereits die Dateistruktur, die Exports, die Typen. 3.500 Tokens vollständigen Quellcode zu senden, wenn eine 13-Token-Cache-Bestätigung ausreicht, ist eine 99,6%ige Verschwendung der Kontextkapazität.

Die gleiche Logik gilt für CLI-Ausgaben. npm install generiert über 800 Tokens an Funding-Hinweisen, Deprecation-Warnungen und Formatierung. Der Informationsgehalt? Eine Zeile: Paketname, Version, Abhängigkeitsanzahl, Timing.


3. Der Effizienz-Multiplikator

Bei 80% durchschnittlicher Kompression - erreichbar mit gecachten Lesezugriffen und Shell Hook zusammen - sparst du nicht 80% der Kosten. Du multiplizierst die Kapazität um das 5-Fache. Gleiches Budget, gleiches Abonnement, fünfmal so viel produktiver Output.

5x

effektive Kapazität

80%

weniger Token-Verbrauch

Typischer sessionweiter Durchschnitt mit Caching + Shell Hook

Hier geht es nicht ums Geldsparen - obwohl das auch passiert. Es geht darum, dass jede Interaktion zählt. Längere Sessions ohne Kontextfenster-Resets. Tieferes Reasoning, weil das Modell nicht durch Rauschen abgelenkt wird. Weniger fehlgeschlagene Completions, weil der relevante Code tatsächlich im Attention-Fenster liegt.

Die Kostenkurve verschiebt sich von linear zu logarithmisch. Jeder zusätzliche Token im Kontext bringt abnehmende Erträge, wenn es Rauschen ist, aber steigende Erträge, wenn es Signal ist.


4. Architektur: Der Intelligence Layer

LeanCTX implementiert den Intelligence Layer als vier kombinierbare Schichten. Jede Schicht arbeitet unabhängig, aber zusammen multiplizieren sich die Effekte.

1

Kompressionsschicht Implementiert

AST-basierte Signaturen via tree-sitter (18 Sprachen), Delta-Loading für gecachte Dateien, Session-Caching mit MD5-Tracking, Entropie-Filterung via Shannon-Analyse. Sendet das Skelett, nicht das Fleisch. Wiederlesen kostet 13 Tokens statt Tausende.

2

Semantic Router Implementiert

10 Lesemodi + Zeilenbereiche ermöglichen die richtige Auflösung pro Aufgabe. map-Modus zum Verstehen, full-Modus zum Bearbeiten, signatures für die API-Oberfläche, entropy zur Rauschfilterung.

3

Context Manager Implementiert

Session-Cache mit Auto-TTL (5 Min. Idle-Löschung), Kontext-Checkpoints via ctx_compress, Subagent-Isolation mit fresh=true. Das Modell sieht immer den aktuellsten Zustand, nicht die komplette Historie.

4

Qualitäts-Leitplanke Grundlage

Fokussierter, hochentropischer Input bedeutet schärferes Reasoning. Weniger Rauschen im Attention-Fenster = mehr Aufmerksamkeit auf Logikknoten = besserer Code-Output. Das ist der emergente Vorteil aller anderen Schichten zusammen.

5

Security Layer

PathJail sandboxing at the resolve_path chokepoint, bounded shell capture (200KB cap), TOCTOU-safe file edits, and memory output neutralization. Defense-in-depth against prompt injection attacks.

6

Build Integrity

Compile-time integrity seed embedded in the binary. Hash verification detects tampering. Checked automatically by lean-ctx doctor and reported in --version output.

7

Reciprocal Rank Fusion

Cache eviction uses RRF to fuse incomparable signals (recency, frequency, size) without weight tuning. Standard information retrieval technique (K=60) that produces monotonically correct rankings.

Die Architektur ist hybrid: ein Context Server mit 58 intelligenten Tools, die Editor-Builtin-Funktionen ersetzen (Dateizugriffe, Verzeichnislistungen, Code-Suche, Intent-Erkennung, Projektgraphen), plus ein transparenter Shell Hook, der 95+ CLI-Muster in 34 Kategorien komprimiert, ohne deinen Workflow zu ändern.


5. Der Paradigmenwechsel

Das alte Paradigma sendet alles. Das neue Paradigma sendet nur Signal. Hier ist, was sich ändert, wenn du einen Intelligence Layer einführst:

Dimension Vorher Nachher
Gesendete DatenVollständige Dateien, rohe LogsAST-Signaturen, Diffs
WiederlesenJedes Mal vollständige Datei13 Tokens (gecacht)
CLI-AusgabeUnkomprimiert, verboseMusterkomprimiert (95+)
LatenzHoch (grosse Payloads)Niedrig (kompakte Payloads)
ReasoningDurch Rauschen abgelenktFokussiert auf Logikknoten
KostenkurveLinearLogarithmisch
SessionlängeVerbrennt schnell5x Lebensdauer

Die zentrale Erkenntnis: Es geht nicht darum, weniger zu sehen. Es geht darum, nur das Wichtige zu sehen. Das Modell erhält die gleiche logische Information - Funktionssignaturen, Abhängigkeiten, geänderte Zeilen, Fehlermeldungen - ohne das Rauschen, das sein Reasoning verwässert.


6. Designprinzipien

Fünf Prinzipien leiten jede Designentscheidung in LeanCTX:

Verlustfreie Kompression, nicht verlustbehaftetes Abschneiden

Jede Kompression bewahrt die Information, die das Modell braucht. AST-Signaturen halten Funktionsverträge intakt. Der Diff-Modus zeigt genau, was sich geändert hat. Der Filter verwirft nie etwas Kritisches - jede Kompression ist auf semantischer Ebene sauber umkehrbar.

Transparenz statt Magie

Jedes Tool meldet Token-Zahlen. ctx_benchmark misst exakte Einsparungen mit tiktoken (o200k_base). ctx_metrics verfolgt kumulative Statistiken. lean-ctx gain zeigt lebenslange Einsparungen mit USD-Kostenschätzungen. Du weisst immer, was passiert.

Null Cloud-Abhängigkeiten

Ein einzelnes Rust-Binary. Keine API-Keys, keine Accounts, keine Telemetrie, keine Datenerhebung. Dein Code verlässt nie deine Maschine. Apache-2.0-lizenziert, vollständig Open Source. Läuft auf macOS, Linux und Windows mit nativen Binaries.

Kombinierbar, nicht monolithisch

58 intelligente Tools, die jeweils eine Sache gut machen. Nutze ctx_read für Dateien, ctx_shell für CLI, ctx_compress für Checkpoints. Kombiniere nach Belieben für deinen Workflow. Funktioniert mit Cursor, GitHub Copilot, Claude Code, Windsurf, Pi, Crush, Codex und mehr.

Gemessen, nicht geschätzt

Alle Token-Zählungen nutzen tiktoken mit dem o200k_base-Encoding - der gleiche Tokenizer, den die Modelle verwenden. Keine Approximationen, keine Heuristiken. USD-Kostentracking mit persistenten Lebenszeitstatistiken. Datengetriebene Moduswahl durch ctx_analyze und ctx_benchmark.


7. Fazit

Token-Limits, Anfragekontingente und Kontextfenstergrössen definieren die AI-Coding-Landschaft 2026. Der Weg nach vorne sind nicht grössere Kontextfenster - sondern dass jeder Token maximale Informationsentropie trägt.

LeanCTX ist ein verlustfreier Minifier für menschliches Denken. Es lässt das Modell nicht weniger sehen. Es lässt das Modell nur das sehen, was zählt: die Funktionssignaturen, die geänderten Zeilen, die Fehlercodes, den Abhängigkeitsgraphen - befreit vom Rauschen, das das Reasoning verwässert.

10K Tokens reines Signal. Das ist die Zukunft des AI-Engineering.

Ein Rust-Binary. Null Cloud-Abhängigkeiten. Apache-2.0-lizenziert. In 60 Sekunden loslegen.