Benchmark

Не доверяйте.
Проверьте.

Запустите lean-ctx benchmark run в любом проекте. Реальные счетчики токенов. Реальные метрики точности. Измерено с помощью tiktoken (o200k_base).

Начать Поставить звезду на GitHub

Как это остается честным

Измерено. Подтверждено.

Benchmark выполняется локально, считает токены с использованием токенизатора в точности и отклоняет сжатия, которые падают ниже требуемого уровня качества.

Точный подсчет токенов

Подсчитывает с помощью того же токенизатора, что и современные LLMs — без оценок, без догадок.

tiktoken o200k_base

Контроль качества

Оценивает сохранение AST, идентификаторов и структуры строк. Выходные данные, не прошедшие проверку, блокируются автоматически.

порог: Q ≥ 95% · ρ ≥ 15%

Воспроизводимый

Работает над вашим репозиторием. Те же входные данные → те же числа. Отлично подходит для CI и отката изменений.

офлайн · детерминированный

Сравните разницу

До После

Тот же файл. Та же информация. Значительно меньше токенов.

Без LeanCTX

// src/auth.ts · mode=full

import { jwt, verify, sign } from 'jsonwebtoken';

import { bcrypt } from 'bcryptjs';

…

3,517 токенов

С LeanCTX (режим карты)

// src/auth.ts · mode=map

exports: AuthService, validateToken, …

deps: jsonwebtoken, bcryptjs, ioredis

…

412 токенов

На 88% меньше токенов

Три шага к подтвержденной экономии

Указать. Измерить. Подтвердить.

Указать любой файл или каталог

Передайте один файл, каталог или шаблон (glob). Движок бенчмарка обработает всё, что найдет.

lean-ctx benchmark run src/

Точное измерение токенов

Использует tiktoken с кодировкой o200k_base (та же, что и в GPT-4o, Claude и современных LLMs). Никаких оценок — реальный подсчет токенов.

tiktoken o200k_base

Экономия по режимам

Получите оценки точности и проценты экономии для каждого режима сжатия. Выберите правильный режим для каждого сценария использования.

modes: 10

Реальный вывод

Benchmark в действии

Запустите бенчмарк на любом файле вашего проекта. Результат показывает точное количество токенов для каждого режима сжатия, процент экономии и оценки сохранения качества.

Разбивка по файлам - токены до и после каждого режима

Оценки качества - Сохранен AST, идентификаторы и строки кода

Агрегированные итоги - экономия по всему каталогу с рекомендацией лучшего режима

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Выберите правильный режим для каждой задачи

Режимы чтения Сравнение

full 0%

Файлы, которые вы будете редактировать

Всё - полный контент кэшируется для повторного чтения (~13 токенов）

map 70-90%

Только контекстные файлы

Код: зависимости + экспорты + сигнатуры. Некод: структурированные наброски (заголовки Markdown, ключи JSON/YAML/TOML, сводки lock)

signatures 55–93%

Исследование API-поверхности

Только сигнатуры функций/классов/типов

diff 80–95%

После правок

Измененные строки с минимальным окружающим контекстом

aggressive 75–90%

Большие файлы шаблонного кода (boilerplate)

Структура и логика, синтаксис удален

entropy 70–83%

Шумные файлы (JSDoc, комментарии)

Только высокоэнтропийные строки (фильтрация Shannon + Jaccard)

task 65–85%

Чтение с фокусом на задачу (например, «исправить ошибку аутентификации»)

Код, релевантный задаче + контекст зависимостей через Knowledge Graph + фильтр IB

auto 70–99%

По умолчанию — LeanCTX автоматически выбирает лучший режим

Адаптируется для каждого файла: тип, размерный бакет, актуальность, релевантность задачи

reference 80–95%

Документация API и поиск по ссылкам

Публичный API, типы, сигнатуры, docstrings

lines:N-M 90–99%

Чтение определенного диапазона строк — хирургическая точность

Точные запрошенные строки плюс минимальный окружающий контекст

LeanCTX's ctx_smart_read от LeanCTX автоматически выбирает оптимальный режим, используя байесовское прогнозирование на основе типа файла, размера и контекста.

Этап

Усовершенствованный конвейер компрессии

Помимо выбора режима, LeanCTX применяет многоступенчатый оптимизационный конвейер, который адаптируется к типу файла, контексту сессии и намерению задачи:

Thompson Sampling 5–15%

Обучается оптимальным порогам компрессии для каждого типа файлов с использованием исследования по мультирукавному бандиту (исследование против использования)

AST Pruning 40–70%

Языково-зависимая обрезка через Tree-sitter — удаляет тела функций, комментарии и шаблонный код, сохраняя при этом сигнатуры API

IDF Dedup 10–30%

Дедупликация между файлами с использованием обратной частоты документа — устраняет контент, уже виденный в сессии

IB Filter 15–25%

Фильтрация, учитывающая задачу, с использованием принципа информационного бутылочного горлышка — сохраняет только контент, релевантный текущей задаче

Verbatim Compaction 5–20%

Сворачивает повторяющиеся структуры (импорты, строки логов, шаблонный код) в подсчитанные сводки

Эти этапы кумулятивны — применяются последовательно, и могут уменьшить файл из 1000 строк до менее чем 50 токенов, сохраняя при этом всю информацию, релевантную задаче. Конвейер полностью автоматический и не требует конфигурации.

Проверенное сохранение

Сжатие Качество

Порог качества (общий)

95%

Сжатый вывод используется только в том случае, если общий показатель качества остается на уровне 95% или выше.

Минимальная плотность

15%

Блокирует вывод с низкой информативностью при минимальной плотности сигнала в 15% (ρ).

Веса

50/30/20

Композит = AST 50% + идентификаторы 30% + строки 20% — поэтому структура имеет наибольшее значение.

Принцип информационной плотности

Почему меньше токенов = Более высокая плотность сигнала

LLMs имеют фиксированный бюджет внимания. Каждый токен в контекстном окне конкурирует за веса внимания. Заполнение окна шаблонным кодом означает меньшее внимание к важному коду.

Удаляя шум до того, как он достигнет модели, LeanCTX повышает информационную плотность каждого запроса. Результат: более высокое соотношение сигнала к шуму, меньше разбавления контекста и сохранение моделью полезных пределов контекста.

Более высокое соотношение сигнала к шуму

10K токенов сфокусированного контекста превосходят 200K шаблонного кода. Модель уделяет внимание логике, а не комментариям JSDoc и импортному шаблону.

Уменьшенный шум в контексте

Шум в контексте разбавляет окно внимания модели. Удаление шума помогает модели оставаться сосредоточенной на фактической структуре кода и снижает вероятность галлюцинаций.

Более низкая стоимость ответа

Меньшее количество входных токенов означает более низкие расходы на API и больше сообщений в рамках вашего лимита. Один и тот же квота позволяет использовать больше — для каждого AI-инструмента, который вы используете.

Примеры из реального мира

Измерено на Реальный код

Репрезентативные снимки — ваши числа будут варьироваться в зависимости от файла и кодовой базы.

Компонент React 88%

450 строк — режим карты

12,840 → 1,541

Модуль Rust 93%

820 строк — режим сигнатур

18,290 → 1,280

API Express 91%

1,200 строк — агрессивный режим

31,500 → 2,835

ML конвейер Python 83%

680 строк — режим энтропии

15,400 → 2,618

Конфигурация TypeScript 95%

340 строк - режим diff

8,750 → 437

Прозрачность

Бенчмарк
Методология

Каждое число на этой странице воспроизводимо. Вот как именно мы измеряем.

Tokenizer

Все подсчеты токенов используют tiktoken с кодировкой o200k_base — тот же токенизатор, который используется GPT-4o, Claude и современными LLM. Никаких оценок или приближений.

Порог качества

Сжатый вывод используется только в том случае, если общий показатель качества остается на уровне 95% или выше. Общий = сохранение AST (50%) + сохранение идентификаторов (30%) + покрытие строк (20%).

Воспроизвести локально

Запустите lean-ctx benchmark run src/ на вашей собственной кодовой базе. Результат покажет точные счетчики токенов для каждого режима сжатия, процент экономии и показатели сохранения качества.

Отказ от ответственности

Результаты варьируются в зависимости от типа файла, размера, языка и режима чтения. Диапазон «60-99%» отражает реальную вариативность: небольшие структурированные файлы сжимаются лучше, а большие неструктурированные — хуже. Кэшированное повторное чтение (~13 токенов) представляет наилучший случай.

Our Own Overhead, Measured

Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.

Deterministic Self-Verify

lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.

Измерьте вашу реальную экономию.

Установите LeanCTX и запустите benchmark run на вашей кодовой базе. Реальные цифры, ваши файлы, ваша экономия.

lean-ctx benchmark run src/

Работает с любой кодовой базой. Не требуется конфигурация. Результаты за секунды.

Начать Поставить звезду на GitHub

Не доверяйте.Проверьте.

Измерено. Подтверждено.

Точный подсчет токенов

Контроль качества

Воспроизводимый

До После

Указать. Измерить. Подтвердить.

Указать любой файл или каталог

Точное измерение токенов

Экономия по режимам

Benchmark в действии

Режимы чтения Сравнение

Усовершенствованный конвейер компрессии

Сжатие Качество

Почему меньше токенов = Более высокая плотность сигнала

Измерено на Реальный код

БенчмаркМетодология

Tokenizer

Порог качества

Воспроизвести локально

Отказ от ответственности

Our Own Overhead, Measured

Deterministic Self-Verify

Измерьте вашу реальную экономию.

Не доверяйте.
Проверьте.

Бенчмарк
Методология