Benchmark

No confíes.
Verifica.

Ejecuta lean-ctx benchmark run en cualquier proyecto. Recuentos reales de tokens. Métricas de precisión reales. Medido con tiktoken (o200k_base).

Cómo se mantiene honesto

Medido. Verificado.

Benchmark se ejecuta localmente, cuenta tokens con el tokenizador exacto y rechaza compresiones que caen por debajo de la barra de calidad.

Conteo exacto de tokens

Cuenta con el mismo tokenizador utilizado por los LLMs modernos: sin estimaciones, sin adivinanzas.

tiktoken o200k_base

Guardia de calidad

Puntuación la preservación del AST, identificadores y estructura de líneas. Los resultados fallidos se bloquean automáticamente.

umbral: Q ≥ 95% · ρ ≥ 15%

Reproducible

Se ejecuta en tu repositorio. Mismos inputs → mismos números. Ideal para CI y regresiones.

offline · determinístico
Ver la diferencia

Antes & Después

El mismo archivo. La misma información. Muchísimos menos tokens.

Sin LeanCTX
// src/auth.ts · mode=full
import { jwt, verify, sign } from 'jsonwebtoken';
import { bcrypt } from 'bcryptjs';
3,517 tokens
Con LeanCTX (modo map)
// src/auth.ts · mode=map
exports: AuthService, validateToken, …
deps: jsonwebtoken, bcryptjs, ioredis
412 tokens

88% menos tokens

Tres pasos para ahorros verificados

Señala. Mide. Verifica.

01

Señala cualquier archivo o directorio

Pasa un único archivo, un directorio o un patrón glob. El motor de benchmark procesa todo lo que encuentra.

lean-ctx benchmark run src/
02

Medición exacta de tokens

Utiliza tiktoken con la codificación o200k_base (igual que GPT-4o, Claude y los LLMs modernos). Sin estimaciones: conteos de tokens reales.

tiktoken o200k_base
03

Ahorro por modo

Obtén puntuaciones de precisión y porcentajes de ahorro para cada modo de compresión. Elige el modo adecuado para cada caso de uso.

modes: 10
Salida real

Benchmark en acción

Ejecuta el benchmark en cualquier archivo de tu proyecto. La salida muestra los recuentos exactos de tokens para cada modo de compresión, porcentaje de ahorro y puntuaciones de preservación de calidad.

Desglose por archivo - tokens antes y después de cada modo

Puntuaciones de calidad - AST, identificadores y líneas de código preservados

Totales agregados - ahorros a nivel de directorio con recomendación del mejor modo

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Elige el modo correcto para cada tarea

Modos de Lectura Comparado

full 0%

Archivos que editarás

Todo - contenido completo en caché para releer con ~13 tokens

map 70-90%

Solo archivos de contexto

Código: deps + exports + firmas. No código: esquemas estructurados (encabezados de Markdown, claves JSON/YAML/TOML, resúmenes de bloqueo)

signatures 55–93%

Exploración de la superficie API

Solo firmas de funciones/clases/tipos

diff 80–95%

Después de ediciones

Líneas modificadas con contexto circundante mínimo

aggressive 75–90%

Archivos boilerplate grandes

Estructura y lógica, sintaxis eliminada

entropy 70–83%

Archivos ruidosos (JSDoc, comentarios)

Solo líneas de alta entropía (filtrado Shannon + Jaccard)

task 65–85%

Lecturas enfocadas en tareas (ej. 'arreglar bug de autenticación')

Código relevante para la tarea + contexto de dependencia vía Knowledge Graph + filtro IB

auto 70–99%

Predeterminado - LeanCTX elige el mejor modo automáticamente

Se adapta por archivo: tipo, cubo de tamaño, antigüedad, relevancia de la tarea

reference 80–95%

Documentación API y búsqueda de referencias

API pública, tipos, firmas, docstrings

lines:N-M 90–99%

Leer un rango específico de líneas - precisión quirúrgica

Líneas exactas solicitadas, más contexto mínimo circundante

LeanCTX's ctx_smart_read de LeanCTX elige automáticamente el modo óptimo usando predicción bayesiana basada en tipo de archivo, tamaño y contexto.

Etapa

Pipeline Avanzado de Compresión

Más allá de la selección de modo, LeanCTX aplica un pipeline de optimización multi-etapa que se adapta al tipo de archivo, el contexto de la sesión y la intención de la tarea:

Thompson Sampling 5–15%

Aprende umbrales óptimos de compresión por tipo de archivo utilizando exploración de bandido multi-brazo (explorar vs explotar)

AST Pruning 40–70%

Poda consciente del lenguaje mediante Tree-sitter - elimina cuerpos de función, comentarios y código repetitivo mientras preserva las firmas de API

IDF Dedup 10–30%

Deduplicación entre archivos usando frecuencia inversa de documentos - elimina contenido ya visto en la sesión

IB Filter 15–25%

Filtrado sensible a la tarea utilizando el principio del cuello de botella de información - conserva solo el contenido relevante para la tarea actual

Verbatim Compaction 5–20%

Colapsa estructuras repetitivas (imports, líneas de registro, código repetitivo) en resúmenes contados

Estas etapas son acumulativas - aplicadas en secuencia, pueden reducir un archivo de 1000 líneas a menos de 50 tokens preservando toda la información relevante para la tarea. El pipeline es totalmente automático y no requiere configuración.

Preservación verificada

Compresión Calidad

Umbral de calidad (compuesto)

95%

La salida comprimida solo se utiliza si la puntuación de calidad compuesta se mantiene en o por encima del 95%.

Densidad mínima

15%

Bloquea la salida de baja información con una densidad mínima de señal del 15% (ρ).

Ponderación

50/30/20

Compuesto = AST 50% + identificadores 30% + líneas 20% - por lo que la estructura es lo más importante.

Principio de densidad de información

Por qué Menos Tokens = Mayor Densidad de Señal

Los LLMs tienen un presupuesto de atención fijo. Cada token en la ventana de contexto compite por pesos de atención. Llenar la ventana con código repetitivo significa menos atención en el código que importa.

Al eliminar ruido antes de que llegue al modelo, LeanCTX aumenta la densidad de información de cada solicitud. El resultado: una mayor relación señal-ruido, menos dilución del contexto y el modelo se mantiene dentro de límites de contexto útiles.

Mayor relación señal-ruido

10K tokens de contexto enfocado superan a 200K de código repetitivo. El modelo centra su atención en la lógica en lugar de comentarios JSDoc y código repetitivo de importación.

Ruido de contexto reducido

El ruido del contexto diluye la ventana de atención del modelo. Eliminarlo ayuda al modelo a mantenerse fundamentado en la estructura real del código y reduce la posibilidad de alucinación.

Men menor costo por respuesta

Menos tokens de entrada significan menores costos de API y más mensajes dentro de tu límite de tasa. La misma cuota llega más lejos, para cada herramienta de IA que utilizas.

Ejemplos del mundo real

Medido en Código Real

Instantáneas representativas - tus números variarán según el archivo y la base de código.

Componente React 88%

450 líneas - modo map

12,840 → 1,541
Módulo Rust 93%

820 líneas - modo signatures

18,290 → 1,280
API Express 91%

1,200 líneas - modo agresivo

31,500 → 2,835
Pipeline ML Python 83%

680 líneas - modo entropy

15,400 → 2,618
Configuración de TypeScript 95%

340 líneas - modo diff

8,750 → 437
Transparencia

Benchmark
Metodología

Cada número de esta página es reproducible. Aquí explicamos exactamente cómo medimos.

Tokenizer

Todos los conteos de tokens usan tiktoken con la codificación o200k_base, el mismo tokenizador utilizado por GPT-4o, Claude y LLMs modernos. Sin estimaciones ni aproximaciones.

Umbral de Calidad

La salida comprimida solo se utiliza si la puntuación de calidad compuesta se mantiene en o por encima del 95%. Compuesto = preservación AST (50%) + preservación de identificadores (30%) + cobertura de líneas (20%).

Reproducir Localmente

Ejecuta lean-ctx benchmark run src/ en tu propia base de código. La salida muestra los conteos exactos de tokens para cada modo de compresión, el porcentaje de ahorro y las puntuaciones de preservación de calidad.

Aviso Legal

Los resultados varían según el tipo de archivo, tamaño, lenguaje y modo de lectura. El rango "60-99%" refleja la variación del mundo real: los archivos estructurados pequeños se comprimen más, los archivos grandes no estructurados se comprimen menos. Las relecturas en caché (~13 tokens) representan el mejor caso.

Our Own Overhead, Measured

Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.

Deterministic Self-Verify

lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.

Mide tu ahorro real.

Instala LeanCTX y ejecuta benchmark run en tu base de código. Números reales, tus archivos, tus ahorros.

lean-ctx benchmark run src/

Funciona en cualquier base de código. Sin configuración. Resultados en segundos.