Manifiesto - LeanCTX

Resumen

El alto rendimiento con LLMs no se trata de ventanas de contexto más grandes. Se trata de maximizar la entropía de información por token. LeanCTX es el búfer de inteligencia que asegura que cada token lleve la máxima señal.

En 2026, las herramientas de codificación con IA envían archivos completos, salida cruda de CLI y escaneos de proyecto sin comprimir a las ventanas de contexto - cada vez. La relación señal-ruido es pésima. Según el análisis de llamadas de herramientas en sesiones de codificación de múltiples pasos, ~65% de las lecturas de archivos son re-lecturas. Los modelos desperdician atención en código repetitivo que no contiene entropía de información.

Este artículo argumenta que una Capa de Inteligencia - una capa de compresión transparente entre el desarrollador y el LLM - es la pieza faltante en la pila de ingeniería de IA. Presentamos LeanCTX: un único binario en Rust que logra hasta un 99% de reducción de tokens por operación (re-lecturas en cache) mientras preserva toda la información que el modelo necesita para razonar correctamente.

1. El problema

Tenemos modelos con ventanas de contexto de millones de tokens y cadenas de razonamiento que abarcan cientos de pasos. Sin embargo, la mayoría de las herramientas de IA siguen enviando el archivo completo en cada lectura. Es como enviar toda la biblioteca cada vez que alguien pide una sola página.

El resultado: atención diluida, cómputo desperdiciado y razonamiento que pierde el foco en los nodos lógicos que realmente importan. Cada token redundante compite con la señal real en el mecanismo de atención, desviando el razonamiento del modelo de las rutas de código que necesitan análisis.

~65%

de las lecturas de archivos son relecturas

Basado en patrones de llamadas a herramientas en sesiones de codificación de múltiples pasos

$20–200

al mes en herramientas de IA

Toda herramienta de IA tiene límites estrictos. 500 solicitudes por día. 45 mensajes cada 5 horas. 1,500 solicitudes premium por mes. Los tokens son el nuevo oro, pero la mayoría de las herramientas los desperdician en código repetitivo con cero entropía de información.

El problema no es el modelo. Es la entrada.

2. Densidad de información

Un contexto de 200K tokens lleno de código repetitivo produce peores resultados que 10K tokens de señal pura. Esto no es especulación - es cómo funcionan los mecanismos de atención. Cada byte de ruido eliminado es un byte de capacidad de razonamiento ganado.

La entropía de información - medida en bits por token - es lo que determina si un modelo razona correctamente. Los tokens de alta entropía contienen decisiones, lógica de ramificación, contratos de API, manejo de errores. Los tokens de baja entropía contienen espacios en blanco, código repetitivo, importaciones repetitivas y formato verboso de CLI.

10K tokens that outperform 200K.

El objetivo de cada interacción de la capa de inteligencia.

Considera una re-lectura típica de archivo. El modelo ya conoce la estructura del archivo, las exportaciones, los tipos. Enviar 3,500 tokens de código fuente completo cuando una confirmación de cache de 13 tokens es suficiente representa un desperdicio del 99.6% de la capacidad de contexto.

La misma lógica aplica a la salida de CLI. npm install genera más de 800 tokens de avisos de financiamiento, advertencias de deprecación y formato. ¿El contenido informativo? Una línea: nombre del paquete, versión, conteo de dependencias, tiempo de ejecución.

3. El multiplicador de eficiencia

Con un 80% de compresión promedio - alcanzable con lecturas en cache y shell hook combinados - no ahorras el 80% del costo. Multiplicas la capacidad por 5x. Mismo presupuesto, misma suscripción, cinco veces la producción útil.

capacidad efectiva

80%

menos consumo de tokens

Promedio típico por sesión con cache + shell hook

Esto no se trata solo de ahorrar dinero - aunque también lo hace. Se trata de que cada interacción cuente. Sesiones más largas sin reinicios de ventana de contexto. Razonamiento más profundo porque el modelo no se distrae con ruido. Menos completaciones fallidas porque el código relevante realmente está en la ventana de atención.

La curva de costos cambia de lineal a logarítmica. Cada token adicional de contexto proporciona rendimientos decrecientes cuando es ruido, pero rendimientos compuestos cuando es señal.

4. Arquitectura: La capa de inteligencia

LeanCTX implementa la capa de inteligencia como cuatro capas componibles. Cada capa opera de forma independiente pero se potencia cuando se usan juntas.

Capa de compresión Implementado

Firmas basadas en AST a través de tree-sitter (18 lenguajes), carga delta para archivos en cache, cache de sesión con seguimiento MD5, filtrado de entropía mediante análisis de Shannon. Envía el esqueleto, no la carne. Las re-lecturas cuestan 13 tokens en lugar de miles.

Enrutador semántico Implementado

10 read modes + rangos de líneas te permiten elegir la fidelidad adecuada por tarea. Modo map para comprensión, modo full para edición, signatures para superficie de API, entropy para filtrado de ruido.

Gestor de contexto Implementado

Cache de sesión con TTL automático (limpieza tras 5 min de inactividad), puntos de control de contexto mediante ctx_compress, aislamiento de subagentes con fresh=true. El modelo siempre ve el estado más reciente, no el historial completo.

Guardián de calidad Base

Entrada enfocada y de alta entropía significa razonamiento más preciso. Menos ruido en la ventana de atención = más atención en los nodos de lógica = mejor código de salida. Este es el beneficio emergente de todas las demás capas trabajando juntas.

Security Layer

PathJail sandboxing at the resolve_path chokepoint, bounded shell capture (200KB cap), TOCTOU-safe file edits, and memory output neutralization. Defense-in-depth against prompt injection attacks.

Build Integrity

Compile-time integrity seed embedded in the binary. Hash verification detects tampering. Checked automatically by lean-ctx doctor and reported in --version output.

Reciprocal Rank Fusion

Cache eviction uses RRF to fuse incomparable signals (recency, frequency, size) without weight tuning. Standard information retrieval technique (K=60) that produces monotonically correct rankings.

La arquitectura es híbrida: un servidor de contexto con 58 herramientas inteligentes que reemplazan las herramientas integradas del editor (lecturas de archivos, listados de directorios, búsqueda de código, detección de intenciones, grafos de proyecto), más un shell hook transparente que comprime más de 95 patrones de CLI en 34 categorías sin cambiar tu flujo de trabajo.

5. El cambio de paradigma

El paradigma anterior envía todo. El nuevo paradigma envía solo la señal. Esto es lo que cambia cuando introduces una capa de inteligencia:

Dimensión	Antes	Después
Datos enviados	Archivos completos, logs sin procesar	Firmas AST, diffs
Relecturas	Archivo completo cada vez	13 tokens (en cache)
Salida de CLI	Sin comprimir, verboso	Compresión por patrones (95+)
Latencia	Alta (cargas grandes)	Baja (cargas compactas)
Razonamiento	Distraído por el ruido	Enfocado en nodos lógicos
Curva de costo	Lineal	Logarítmica
Duración de sesión	Se consume rápido	5x de duración

La clave: no se trata de ver menos. Se trata de ver solo lo que importa. El modelo recibe la misma información lógica - firmas de funciones, dependencias, líneas modificadas, mensajes de error - sin el ruido que diluye su razonamiento.

6. Principios de diseño

Cinco principios guían cada decisión de diseño en LeanCTX:

Compresión sin pérdidas, no truncamiento con pérdidas

Cada compresión preserva la información que el modelo necesita. Las firmas AST mantienen intactos los contratos de funciones. El modo diff muestra exactamente qué cambió. El filtro nunca descarta nada crítico - cada compresión se revierte limpiamente a nivel semántico.

Transparencia sobre magia

Cada herramienta reporta el conteo de tokens. ctx_benchmark mide el ahorro exacto con tiktoken (o200k_base). ctx_metrics rastrea estadísticas acumuladas. lean-ctx gain muestra el ahorro acumulado con estimaciones de costo en USD. Siempre sabes lo que está sucediendo.

Cero dependencias en la nube

Un único binario en Rust. Sin claves de API, sin cuentas, sin telemetría, sin recopilación de datos. Tu código nunca sale de tu máquina. Licencia Apache-2.0, completamente de código abierto. Funciona en macOS, Linux y Windows con binarios nativos.

Componible, no monolítico

58 herramientas inteligentes donde cada una hace bien una sola cosa. Usa ctx_read para archivos, ctx_shell para CLI, ctx_compress para puntos de control. Combínalas según tu flujo de trabajo. Funciona con Cursor, GitHub Copilot, Claude Code, Windsurf, Crush, Codex y más.

Medido, no estimado

Todos los conteos de tokens usan tiktoken con la codificación o200k_base - el mismo tokenizador que usan los modelos. Sin aproximaciones, sin heurísticas. Seguimiento de costos en USD con estadísticas persistentes de por vida. Selección de modo basada en datos mediante ctx_analyze y ctx_benchmark.

7. Conclusión

Los límites de tokens, las cuotas de solicitudes y los tamaños de ventanas de contexto definen el panorama de la codificación con IA en 2026. El camino a seguir no son ventanas de contexto más grandes - sino hacer que cada token lleve la máxima entropía de información.

LeanCTX es un minificador sin pérdidas para el pensamiento humano. No hace que el modelo vea menos. Hace que el modelo solo vea lo que importa: las firmas de funciones, las líneas modificadas, los códigos de error, el grafo de dependencias - libre del ruido que diluye el razonamiento.

10K tokens de señal pura. Ese es el futuro de la ingeniería de IA.

Un binario en Rust. Cero dependencias en la nube. Licencia Apache-2.0. Comienza en 60 segundos.

Comenzar Leer el código fuente

Los tokens son el nuevo oro.Deja de desperdiciarlos.