Benchmark

Não Confie.
Verifique.

Execute lean-ctx benchmark run em qualquer projeto. Contagens reais de tokens. Métricas reais de precisão. Medido com tiktoken (o200k_base).

Por que dá para confiar

Medido. Verificado.

O benchmark roda localmente, conta tokens com o tokenizer exato e rejeita compressões abaixo do limiar de qualidade.

Contagem exata de tokens

Conta com o mesmo tokenizer usado por LLMs modernos - sem estimativas.

tiktoken o200k_base

Guardrail de qualidade

Pontua preservação de AST, identificadores e estrutura de linhas. Saídas ruins são bloqueadas automaticamente.

limiar: Q ≥ 95% · ρ ≥ 15%

Reprodutível

Roda no seu repo. Mesmas entradas → mesmos números. Ótimo para CI e regressões.

offline · determinístico
See the difference

Before & After

The same file. The same information. Dramatically fewer tokens.

Without lean-ctx
// src/auth.ts · mode=full
import { jwt, verify, sign } from 'jsonwebtoken';
import { bcrypt } from 'bcryptjs';
3,517 tokens
With lean-ctx (map mode)
// src/auth.ts · mode=map
exports: AuthService, validateToken, …
deps: jsonwebtoken, bcryptjs, ioredis
412 tokens

88% fewer tokens

Três passos para economias verificadas

Como Funciona

01

Aponte para qualquer arquivo ou diretório

Passe um único arquivo, um diretório ou um padrão glob. O motor de benchmark processa tudo que encontrar.

lean-ctx benchmark run src/
02

Medição exata de tokens

Usa tiktoken com a codificação o200k_base (a mesma do GPT-4o, Claude e LLMs modernos). Sem estimativas - contagens reais de tokens.

tiktoken o200k_base
03

Economia por modo

Obtenha pontuações de precisão e percentuais de economia para cada modo de compressão. Escolha o modo certo para cada caso de uso.

modes: 10
Saída real

Benchmark em Ação

Execute o benchmark em qualquer arquivo do seu projeto. A saída mostra contagens exatas de tokens para cada modo de compressão, percentual de economia e pontuações de preservação de qualidade.

Detalhamento por arquivo - tokens antes e depois de cada modo

Pontuações de qualidade - AST, identificadores e linhas de código preservados

Totais agregados - economia em todo o diretório com recomendação do melhor modo

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Escolha o modo certo para cada tarefa

Modos de Leitura Comparados

full 0%

Arquivos que você vai editar

Tudo - conteúdo completo em cache para releituras a ~13 tokens

map 70–88%

Arquivos somente de contexto

Grafo de dependências, exports, assinaturas principais

signatures 55–93%

Exploração da superfície da API

Apenas assinaturas de funções/classes/tipos

diff 80–95%

Após edições

Linhas alteradas com contexto mínimo ao redor

aggressive 75–90%

Arquivos grandes com boilerplate

Estrutura e lógica, sintaxe removida

entropy 70–83%

Arquivos ruidosos (JSDoc, comentários)

Apenas linhas de alta entropia (filtragem Shannon + Jaccard)

task 65–85%

Leituras focadas na tarefa (ex: 'corrigir bug de autenticação')

Código relevante para a tarefa + contexto de dependências via Grafo de Conhecimento + filtro IB

auto 70–99%

Padrão - lean-ctx escolhe automaticamente o melhor modo

Adapta por arquivo: tipo, bucket de tamanho, recência, relevância da tarefa

reference 80–95%

Documentação de API e consulta de referência

API pública, tipos, assinaturas, docstrings

lines:N-M 90–99%

Ler um intervalo de linhas específico - precisão cirúrgica

Linhas exatas solicitadas, com contexto mínimo ao redor

O ctx_smart_read do lean-ctx seleciona automaticamente o modo ideal usando predição bayesiana com base no tipo, tamanho e contexto do arquivo.

Stage

Advanced Compression Pipeline

Beyond mode selection, lean-ctx applies a multi-stage optimization pipeline that adapts to file type, session context, and task intent:

Thompson Sampling 5–15%

Learns optimal compression thresholds per file type using multi-armed bandit exploration (explore vs exploit)

AST Pruning 40–70%

Language-aware pruning via Tree-sitter - removes function bodies, comments, and boilerplate while preserving API signatures

IDF Dedup 10–30%

Cross-file deduplication using inverse document frequency - eliminates content already seen in the session

IB Filter 15–25%

Task-aware filtering using the Information Bottleneck principle - keeps only content relevant to the current task

Verbatim Compaction 5–20%

Collapses repetitive structures (imports, log lines, boilerplate) into counted summaries

These stages are cumulative - applied in sequence, they can reduce a 1000-line file to under 50 tokens while preserving all task-relevant information. The pipeline is fully automatic and requires no configuration.

Preservação verificada

Qualidade da Compressão

Limite de qualidade (composite)

95%

A saída comprimida só é usada se a pontuação composta ficar em ≥ 95%.

Densidade mínima

15%

Bloqueia saídas de baixa informação com densidade mínima de sinal de 15% (ρ).

Peso

50/30/20

Composite = AST 50% + identificadores 30% + linhas 20% - a estrutura pesa mais.

Princípio da densidade de informação

Por Que Menos Tokens = Maior Densidade de Sinal

LLMs têm um orçamento fixo de atenção. Cada token na janela de contexto compete por pesos de atenção. Preencher a janela com boilerplate significa menos atenção no código que importa.

Ao remover o ruído antes que chegue ao modelo, o lean-ctx aumenta a densidade de informação de cada requisição. O resultado: maior proporção sinal-ruído, menos diluição de contexto, e o modelo permanece dentro dos limites úteis de contexto.

Maior proporção sinal-ruído

10K tokens de contexto focado superam 200K de boilerplate. O modelo direciona sua atenção para a lógica, não para comentários JSDoc e imports repetitivos.

Ruído de contexto reduzido

O ruído de contexto dilui a janela de atenção do modelo. Removê-lo ajuda o modelo a manter o foco na estrutura real do código e reduz a chance de alucinação.

Menor custo por resposta

Menos tokens de entrada significa custos de API mais baixos e mais mensagens dentro do seu limite de uso. A mesma cota rende mais - para qualquer ferramenta de IA que você utilizar.

Real-world examples

Measured on Real Code

Snapshots representativos - seus números variam por arquivo e codebase.

React Component 88%

450 lines - map mode

12,840 → 1,541
Rust Module 93%

820 lines - signatures mode

18,290 → 1,280
Express API 91%

1,200 lines - aggressive mode

31,500 → 2,835
Python ML Pipeline 83%

680 lines - entropy mode

15,400 → 2,618
TypeScript Config 95%

340 lines - diff mode

8,750 → 437
Transparency

Benchmark
Methodology

Every number on this page is reproducible. Here's exactly how we measure.

Tokenizer

All token counts use tiktoken with the o200k_base encoding — the same tokenizer used by GPT-4o, Claude, and modern LLMs. No estimates or approximations.

Quality Threshold

Compressed output is only used if the composite quality score stays at or above 95%. Composite = AST preservation (50%) + identifier preservation (30%) + line coverage (20%).

Reproduce Locally

Run lean-ctx benchmark run src/ on your own codebase. The output shows exact token counts for each compression mode, savings percentage, and quality preservation scores.

Disclaimer

Results vary by file type, size, language, and read mode. The "60-99%" range reflects real-world variance: small structured files compress more, large unstructured files compress less. Cached re-reads (~13 tokens) represent the best case.

Meça suas economias reais.

Instale o lean-ctx e execute benchmark run na sua base de código. Números reais, seus arquivos, suas economias.

lean-ctx benchmark run src/

Works on any codebase. No config needed. Results in seconds.