Benchmark

No Confíes.
Verifica.

Ejecuta lean-ctx benchmark run en cualquier proyecto. Conteos reales de tokens. Métricas reales de precisión. Medido con tiktoken (o200k_base).

Por qué es fiable

Medido. Verificado.

El benchmark se ejecuta localmente, cuenta tokens con el tokenizer exacto y rechaza compresiones que caen por debajo del umbral de calidad.

Conteo exacto de tokens

Cuenta con el mismo tokenizer que usan los LLM modernos - sin estimaciones.

tiktoken o200k_base

Guardia de calidad

Puntúa preservación de AST, identificadores y estructura de líneas. Las salidas fallidas se bloquean automáticamente.

umbral: Q ≥ 95% · ρ ≥ 15%

Reproducible

Se ejecuta en tu repo. Mismos inputs → mismos números. Ideal para CI y regresiones.

offline · determinista
See the difference

Before & After

The same file. The same information. Dramatically fewer tokens.

Without lean-ctx
// src/auth.ts · mode=full
import { jwt, verify, sign } from 'jsonwebtoken';
import { bcrypt } from 'bcryptjs';
3,517 tokens
With lean-ctx (map mode)
// src/auth.ts · mode=map
exports: AuthService, validateToken, …
deps: jsonwebtoken, bcryptjs, ioredis
412 tokens

88% fewer tokens

Tres pasos para verificar tus ahorros

Cómo Funciona

01

Apunta a cualquier archivo o directorio

Indica un archivo, un directorio o un patrón glob. El motor de benchmark procesa todo lo que encuentra.

lean-ctx benchmark run src/
02

Medición exacta de tokens

Usa tiktoken con la codificación o200k_base (la misma que GPT-4o, Claude y los LLM modernos). Sin estimaciones - conteos reales de tokens.

tiktoken o200k_base
03

Ahorro por modo

Obtén puntuaciones de precisión y porcentajes de ahorro para cada modo de compresión. Elige el modo adecuado para cada caso de uso.

modes: 10
Salida real

Benchmark en Acción

Ejecuta el benchmark en cualquier archivo de tu proyecto. La salida muestra conteos exactos de tokens para cada modo de compresión, porcentaje de ahorro y puntuaciones de preservación de calidad.

Desglose por archivo - tokens antes y después de cada modo

Puntuaciones de calidad - AST, identificadores y líneas de código preservados

Totales agregados - ahorros a nivel de directorio con recomendación del mejor modo

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Elige el modo adecuado para cada tarea

Modos de Lectura Comparados

full 0%

Archivos que vas a editar

Todo - contenido completo en cache para relecturas a ~13 tokens

map 70–88%

Archivos solo de contexto

Grafo de dependencias, exports, firmas clave

signatures 55–93%

Exploración de superficie de API

Solo firmas de funciones/clases/tipos

diff 80–95%

Después de ediciones

Líneas modificadas con contexto mínimo

aggressive 75–90%

Archivos grandes con código repetitivo

Estructura y lógica, sintaxis eliminada

entropy 70–83%

Archivos con ruido (JSDoc, comentarios)

Solo líneas de alta entropía (filtrado Shannon + Jaccard)

task 65–85%

Task-focused reads (e.g. 'fix auth bug')

Task-relevant code + dependency context via Knowledge Graph + IB filter

auto 70–99%

Por defecto - lean-ctx elige automáticamente el mejor modo

Se adapta por archivo: tipo, bucket de tamaño, recencia, relevancia de la tarea

reference 80–95%

Documentación API y consulta de referencia

API pública, tipos, firmas, docstrings

lines:N-M 90–99%

Leer un rango de líneas específico - precisión quirúrgica

Líneas exactas solicitadas, más contexto mínimo alrededor

ctx_smart_read de lean-ctx selecciona automáticamente el modo óptimo usando predicción bayesiana basada en tipo de archivo, tamaño y contexto.

Stage

Advanced Compression Pipeline

Beyond mode selection, lean-ctx applies a multi-stage optimization pipeline that adapts to file type, session context, and task intent:

Thompson Sampling 5–15%

Learns optimal compression thresholds per file type using multi-armed bandit exploration (explore vs exploit)

AST Pruning 40–70%

Language-aware pruning via Tree-sitter - removes function bodies, comments, and boilerplate while preserving API signatures

IDF Dedup 10–30%

Cross-file deduplication using inverse document frequency - eliminates content already seen in the session

IB Filter 15–25%

Task-aware filtering using the Information Bottleneck principle - keeps only content relevant to the current task

Verbatim Compaction 5–20%

Collapses repetitive structures (imports, log lines, boilerplate) into counted summaries

These stages are cumulative - applied in sequence, they can reduce a 1000-line file to under 50 tokens while preserving all task-relevant information. The pipeline is fully automatic and requires no configuration.

Preservación verificada

Calidad de Compresión

Umbral de calidad (composite)

95%

La salida comprimida solo se usa si el score compuesto se mantiene en ≥ 95%.

Densidad mínima

15%

Bloquea salidas de baja información con una densidad mínima de señal del 15% (ρ).

Ponderación

50/30/20

Composite = AST 50% + identificadores 30% + líneas 20% - la estructura importa más.

Principio de densidad de información

Por qué menos tokens = Mayor densidad de señal

Los LLM tienen un presupuesto de atención fijo. Cada token en la ventana de contexto compite por pesos de atención. Llenar la ventana con código repetitivo significa menos atención para el código que importa.

Al eliminar el ruido antes de que llegue al modelo, lean-ctx incrementa la densidad de información de cada solicitud. El resultado: mayor relación señal-ruido, menos dilución de contexto, y el modelo se mantiene dentro de los límites útiles de contexto.

Mayor relación señal-ruido

10K tokens de contexto enfocado superan a 200K de código repetitivo. El modelo concentra su atención en la lógica, no en comentarios JSDoc ni en imports repetitivos.

Ruido de contexto reducido

El ruido en el contexto diluye la ventana de atención del modelo. Eliminarlo ayuda al modelo a mantenerse enfocado en la estructura real del código y reduce la posibilidad de alucinaciones.

Menor costo por respuesta

Menos tokens de entrada significa costos de API más bajos y más mensajes dentro de tu límite de uso. La misma cuota rinde más - para cada herramienta de IA que utilices.

Real-world examples

Measured on Real Code

Snapshots representativos - tus números variarán según el archivo y la base de código.

React Component 88%

450 lines - map mode

12,840 → 1,541
Rust Module 93%

820 lines - signatures mode

18,290 → 1,280
Express API 91%

1,200 lines - aggressive mode

31,500 → 2,835
Python ML Pipeline 83%

680 lines - entropy mode

15,400 → 2,618
TypeScript Config 95%

340 lines - diff mode

8,750 → 437
Transparency

Benchmark
Methodology

Every number on this page is reproducible. Here's exactly how we measure.

Tokenizer

All token counts use tiktoken with the o200k_base encoding — the same tokenizer used by GPT-4o, Claude, and modern LLMs. No estimates or approximations.

Quality Threshold

Compressed output is only used if the composite quality score stays at or above 95%. Composite = AST preservation (50%) + identifier preservation (30%) + line coverage (20%).

Reproduce Locally

Run lean-ctx benchmark run src/ on your own codebase. The output shows exact token counts for each compression mode, savings percentage, and quality preservation scores.

Disclaimer

Results vary by file type, size, language, and read mode. The "60-99%" range reflects real-world variance: small structured files compress more, large unstructured files compress less. Cached re-reads (~13 tokens) represent the best case.

Mide tus ahorros reales.

Instala lean-ctx y ejecuta benchmark run en tu código. Números reales, tus archivos, tus ahorros.

lean-ctx benchmark run src/

Works on any codebase. No config needed. Results in seconds.