Résumé
La haute performance avec les LLMs ne passe pas par des fenêtres de contexte plus grandes. Il s'agit de maximiser l'entropie informationnelle par token. LeanCTX est le tampon d'intelligence qui garantit que chaque token porte un signal maximal.
En 2026, les outils de codage IA envoient des fichiers entiers, des sorties CLI brutes et des scans de projets non comprimés dans les fenêtres de contexte - à chaque fois. Le rapport signal/bruit est désastreux. D'après l'analyse des appels d'outils dans les sessions de codage multi-étapes, ~65 % des lectures de fichiers sont des relectures. Les modèles gaspillent leur attention sur du boilerplate à entropie informationnelle nulle.
Cet article soutient qu'une couche d'intelligence - une couche de compression transparente entre le développeur et le LLM - est la pièce manquante de la pile d'ingénierie IA. Nous présentons LeanCTX : un unique binaire Rust qui atteint jusqu'à 99 % de réduction de tokens par opération (relectures en cache) tout en préservant toute l'information nécessaire au raisonnement correct du modèle.
1. Le problème
Nous disposons de modèles avec des fenêtres de contexte d'un million de tokens et des chaînes de raisonnement couvrant des centaines d'étapes. Pourtant, la plupart des outils de codage IA envoient encore le fichier complet à chaque lecture. C'est comme envoyer la bibliothèque entière chaque fois que quelqu'un demande une seule page.
Le résultat : une attention diluée, du calcul gaspillé et un raisonnement qui perd le focus sur les nœuds logiques qui comptent vraiment. Chaque token redondant entre en compétition avec le signal réel dans le mécanisme d'attention - détournant le raisonnement du modèle des chemins de code qui nécessitent une analyse.
~65%
des lectures de fichiers sont des relectures
Basé sur les schémas d'appels d'outils dans les sessions de codage multi-étapes
$20–200
par mois en outils IA
Chaque outil IA a des limites strictes. 500 requêtes par jour. 45 messages par 5 heures. 1 500 requêtes premium par mois. Les tokens sont le nouvel or - mais la plupart des outils les gaspillent sur du code standard avec une entropie informationnelle nulle.
Le problème n'est pas le modèle. C'est l'entrée.
2. Densité informationnelle
Un contexte de 200K tokens rempli de boilerplate produit de moins bons résultats que 10K tokens de signal pur. Ce n'est pas de la spéculation - c'est le fonctionnement des mécanismes d'attention. Chaque octet de bruit éliminé est un octet de capacité de raisonnement gagné.
L'entropie informationnelle - mesurée en bits par token - est ce qui détermine si un modèle raisonne correctement. Les tokens à haute entropie portent des décisions, de la logique conditionnelle, des contrats API, de la gestion d'erreurs. Les tokens à faible entropie portent des espaces blancs, du boilerplate, des imports répétitifs et du formatage CLI verbeux.
10K tokens that outperform 200K.
L'objectif de chaque interaction avec la couche d'intelligence.
Prenons une relecture de fichier typique. Le modèle connaît déjà la structure du fichier, les exports, les types. Envoyer 3 500 tokens de code source complet quand une confirmation de cache de 13 tokens suffit, c'est un gaspillage de 99,6 % de la capacité de contexte.
La même logique s'applique à la sortie CLI. npm install génère plus de 800 tokens de messages de financement, d'avertissements de dépréciation et de formatage. Le contenu informationnel ? Une seule ligne : nom du paquet, version, nombre de dépendances, durée.
3. Le multiplicateur d'efficacité
Avec une compression moyenne de 80 % - atteignable avec les lectures en cache et le shell hook combinés - vous n'économisez pas 80 % du coût. Vous multipliez la capacité par 5. Même budget, même abonnement, cinq fois plus de production utile.
5x
capacité effective
80%
de consommation de tokens en moins
Moyenne typique sur une session avec cache + shell hook
Il ne s'agit pas seulement d'économiser de l'argent - même si c'est aussi le cas. Il s'agit de faire compter chaque interaction. Des sessions plus longues sans réinitialisation de la fenêtre de contexte. Un raisonnement plus profond car le modèle n'est pas distrait par le bruit. Moins de complétions échouées car le code pertinent est réellement dans la fenêtre d'attention.
La courbe de coût passe de linéaire à logarithmique. Chaque token de contexte supplémentaire apporte des rendements décroissants quand c'est du bruit, mais des rendements cumulatifs quand c'est du signal.
4. Architecture : la couche d'intelligence
LeanCTX implémente la couche d'intelligence en quatre couches composables. Chaque couche fonctionne indépendamment mais les effets se cumulent lorsqu'elles sont utilisées ensemble.
Couche de compression Implémenté
Signatures basées sur l'AST via tree-sitter (18 langages), chargement delta pour les fichiers en cache, cache de session avec suivi MD5, filtrage par entropie via analyse de Shannon. Envoie le squelette, pas la chair. Les relectures coûtent 13 tokens au lieu de milliers.
Routeur sémantique Implémenté
10 read modes + plages de lignes vous permettent de choisir la fidélité adaptée à chaque tâche. Le mode map pour la compréhension, le mode full pour l'édition, signatures pour la surface API, entropy pour le filtrage du bruit.
Gestionnaire de contexte Implémenté
Cache de session avec TTL automatique (vidage après 5 min d'inactivité), points de contrôle du contexte via ctx_compress, isolation des sous-agents avec fresh=true. Le modèle voit toujours l'état le plus récent, pas l'historique complet.
Garde-fou de qualité Fondation
Des entrées focalisées et à haute entropie signifient un raisonnement plus précis. Moins de bruit dans la fenêtre d'attention = plus d'attention sur les nœuds logiques = meilleure qualité de code. C'est le bénéfice émergent de toutes les autres couches fonctionnant ensemble.
Security Layer
PathJail sandboxing at the resolve_path chokepoint, bounded shell capture (200KB cap), TOCTOU-safe file edits, and memory output neutralization. Defense-in-depth against prompt injection attacks.
Build Integrity
Compile-time integrity seed embedded in the binary. Hash verification detects tampering. Checked automatically by lean-ctx doctor and reported in --version output.
Reciprocal Rank Fusion
Cache eviction uses RRF to fuse incomparable signals (recency, frequency, size) without weight tuning. Standard information retrieval technique (K=60) that produces monotonically correct rankings.
L'architecture est hybride : un serveur de contexte avec 58 outils intelligents qui remplacent les fonctions intégrées de l'éditeur (lectures de fichiers, listings de répertoires, recherche de code, détection d'intention, graphes de projet), plus un shell hook transparent qui comprime plus de 95 modèles CLI dans 34 catégories sans modifier votre flux de travail.
5. Le changement de paradigme
L'ancien paradigme envoie tout. Le nouveau paradigme n'envoie que le signal. Voici ce qui change lorsque vous introduisez une couche d'intelligence :
| Dimension | Avant | Après |
|---|---|---|
| Données envoyées | Fichiers complets, logs bruts | Signatures AST, diffs |
| Relectures | Fichier complet à chaque fois | 13 tokens (en cache) |
| Sortie CLI | Non compressé, verbeux | Compression par motifs (95+) |
| Latence | Élevée (charges utiles volumineuses) | Faible (charges utiles compactes) |
| Raisonnement | Distrait par le bruit | Focalisé sur les nœuds logiques |
| Courbe de coût | Linéaire | Logarithmique |
| Durée de session | S'épuise rapidement | Durée de vie 5x |
L'idée clé : il ne s'agit pas de voir moins. Il s'agit de voir uniquement ce qui compte. Le modèle reçoit la même information logique - signatures de fonctions, dépendances, lignes modifiées, messages d'erreur - sans le bruit qui dilue son raisonnement.
6. Principes de conception
Cinq principes guident chaque décision de conception dans LeanCTX :
Compression sans perte, pas troncature avec perte
Chaque compression préserve l'information dont le modèle a besoin. Les signatures AST conservent les contrats de fonctions intacts. Le mode diff montre exactement ce qui a changé. Le filtre ne supprime jamais rien de critique - chaque compression est réversible au niveau sémantique.
Transparence plutôt que magie
Chaque outil rapporte les comptages de tokens. ctx_benchmark mesure les économies exactes avec tiktoken (o200k_base). ctx_metrics suit les statistiques cumulées. lean-ctx gain affiche les économies cumulées avec estimation des coûts en USD. Vous savez toujours ce qui se passe.
Zéro dépendance cloud
Un seul binaire Rust. Pas de clés API, pas de comptes, pas de télémétrie, pas de collecte de données. Votre code ne quitte jamais votre machine. Licence Apache-2.0, entièrement open source. Fonctionne sur macOS, Linux et Windows avec des binaires natifs.
Composable, pas monolithique
58 outils intelligents qui font chacun une seule chose bien. Utilisez ctx_read pour les fichiers, ctx_shell pour le CLI, ctx_compress pour les points de contrôle. Combinez-les selon votre flux de travail. Compatible avec Cursor, GitHub Copilot, Claude Code, Windsurf, Crush, Codex, et plus encore.
Mesuré, pas estimé
Tous les comptages de tokens utilisent tiktoken avec l'encodage o200k_base - le même tokenizer utilisé par les modèles. Aucune approximation, aucune heuristique. Suivi des coûts en USD avec statistiques cumulées persistantes. Sélection de mode basée sur les données via ctx_analyze et ctx_benchmark.
7. Conclusion
Les limites de tokens, les quotas de requêtes et les tailles de fenêtres de contexte définissent le paysage du codage IA en 2026. La voie à suivre n'est pas des fenêtres de contexte plus grandes - c'est faire en sorte que chaque token porte une entropie informationnelle maximale.
LeanCTX est un minifieur sans perte pour la pensée humaine. Il ne fait pas voir moins au modèle. Il lui fait voir uniquement ce qui compte : les signatures de fonctions, les lignes modifiées, les codes d'erreur, le graphe de dépendances - débarrassés du bruit qui dilue le raisonnement.
10K tokens de signal pur. C'est l'avenir de l'ingénierie IA.
Un seul binaire Rust. Zéro dépendance cloud. Licence Apache-2.0. Démarrez en 60 secondes.