Benchmark

Не доверяйте.
Проверьте.

Запустите lean-ctx benchmark run в любом проекте. Реальные счетчики токенов. Реальные метрики точности. Измерено с помощью tiktoken (o200k_base).

Как это остается честным

Измерено. Подтверждено.

Benchmark выполняется локально, считает токены с использованием токенизатора в точности и отклоняет сжатия, которые падают ниже требуемого уровня качества.

Точный подсчет токенов

Подсчитывает с помощью того же токенизатора, что и современные LLMs — без оценок, без догадок.

tiktoken o200k_base

Контроль качества

Оценивает сохранение AST, идентификаторов и структуры строк. Выходные данные, не прошедшие проверку, блокируются автоматически.

порог: Q ≥ 95% · ρ ≥ 15%

Воспроизводимый

Работает над вашим репозиторием. Те же входные данные → те же числа. Отлично подходит для CI и отката изменений.

офлайн · детерминированный
Сравните разницу

До После

Тот же файл. Та же информация. Значительно меньше токенов.

Без LeanCTX
// src/auth.ts · mode=full
import { jwt, verify, sign } from 'jsonwebtoken';
import { bcrypt } from 'bcryptjs';
3,517 токенов
С LeanCTX (режим карты)
// src/auth.ts · mode=map
exports: AuthService, validateToken, …
deps: jsonwebtoken, bcryptjs, ioredis
412 токенов

На 88% меньше токенов

Три шага к подтвержденной экономии

Указать. Измерить. Подтвердить.

01

Указать любой файл или каталог

Передайте один файл, каталог или шаблон (glob). Движок бенчмарка обработает всё, что найдет.

lean-ctx benchmark run src/
02

Точное измерение токенов

Использует tiktoken с кодировкой o200k_base (та же, что и в GPT-4o, Claude и современных LLMs). Никаких оценок — реальный подсчет токенов.

tiktoken o200k_base
03

Экономия по режимам

Получите оценки точности и проценты экономии для каждого режима сжатия. Выберите правильный режим для каждого сценария использования.

modes: 10
Реальный вывод

Benchmark в действии

Запустите бенчмарк на любом файле вашего проекта. Результат показывает точное количество токенов для каждого режима сжатия, процент экономии и оценки сохранения качества.

Разбивка по файлам - токены до и после каждого режима

Оценки качества - Сохранен AST, идентификаторы и строки кода

Агрегированные итоги - экономия по всему каталогу с рекомендацией лучшего режима

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Выберите правильный режим для каждой задачи

Режимы чтения Сравнение

full 0%

Файлы, которые вы будете редактировать

Всё - полный контент кэшируется для повторного чтения (~13 токенов)

map 70-90%

Только контекстные файлы

Код: зависимости + экспорты + сигнатуры. Некод: структурированные наброски (заголовки Markdown, ключи JSON/YAML/TOML, сводки lock)

signatures 55–93%

Исследование API-поверхности

Только сигнатуры функций/классов/типов

diff 80–95%

После правок

Измененные строки с минимальным окружающим контекстом

aggressive 75–90%

Большие файлы шаблонного кода (boilerplate)

Структура и логика, синтаксис удален

entropy 70–83%

Шумные файлы (JSDoc, комментарии)

Только высокоэнтропийные строки (фильтрация Shannon + Jaccard)

task 65–85%

Чтение с фокусом на задачу (например, «исправить ошибку аутентификации»)

Код, релевантный задаче + контекст зависимостей через Knowledge Graph + фильтр IB

auto 70–99%

По умолчанию — LeanCTX автоматически выбирает лучший режим

Адаптируется для каждого файла: тип, размерный бакет, актуальность, релевантность задачи

reference 80–95%

Документация API и поиск по ссылкам

Публичный API, типы, сигнатуры, docstrings

lines:N-M 90–99%

Чтение определенного диапазона строк — хирургическая точность

Точные запрошенные строки плюс минимальный окружающий контекст

LeanCTX's ctx_smart_read от LeanCTX автоматически выбирает оптимальный режим, используя байесовское прогнозирование на основе типа файла, размера и контекста.

Этап

Усовершенствованный конвейер компрессии

Помимо выбора режима, LeanCTX применяет многоступенчатый оптимизационный конвейер, который адаптируется к типу файла, контексту сессии и намерению задачи:

Thompson Sampling 5–15%

Обучается оптимальным порогам компрессии для каждого типа файлов с использованием исследования по мультирукавному бандиту (исследование против использования)

AST Pruning 40–70%

Языково-зависимая обрезка через Tree-sitter — удаляет тела функций, комментарии и шаблонный код, сохраняя при этом сигнатуры API

IDF Dedup 10–30%

Дедупликация между файлами с использованием обратной частоты документа — устраняет контент, уже виденный в сессии

IB Filter 15–25%

Фильтрация, учитывающая задачу, с использованием принципа информационного бутылочного горлышка — сохраняет только контент, релевантный текущей задаче

Verbatim Compaction 5–20%

Сворачивает повторяющиеся структуры (импорты, строки логов, шаблонный код) в подсчитанные сводки

Эти этапы кумулятивны — применяются последовательно, и могут уменьшить файл из 1000 строк до менее чем 50 токенов, сохраняя при этом всю информацию, релевантную задаче. Конвейер полностью автоматический и не требует конфигурации.

Проверенное сохранение

Сжатие Качество

Порог качества (общий)

95%

Сжатый вывод используется только в том случае, если общий показатель качества остается на уровне 95% или выше.

Минимальная плотность

15%

Блокирует вывод с низкой информативностью при минимальной плотности сигнала в 15% (ρ).

Веса

50/30/20

Композит = AST 50% + идентификаторы 30% + строки 20% — поэтому структура имеет наибольшее значение.

Принцип информационной плотности

Почему меньше токенов = Более высокая плотность сигнала

LLMs имеют фиксированный бюджет внимания. Каждый токен в контекстном окне конкурирует за веса внимания. Заполнение окна шаблонным кодом означает меньшее внимание к важному коду.

Удаляя шум до того, как он достигнет модели, LeanCTX повышает информационную плотность каждого запроса. Результат: более высокое соотношение сигнала к шуму, меньше разбавления контекста и сохранение моделью полезных пределов контекста.

Более высокое соотношение сигнала к шуму

10K токенов сфокусированного контекста превосходят 200K шаблонного кода. Модель уделяет внимание логике, а не комментариям JSDoc и импортному шаблону.

Уменьшенный шум в контексте

Шум в контексте разбавляет окно внимания модели. Удаление шума помогает модели оставаться сосредоточенной на фактической структуре кода и снижает вероятность галлюцинаций.

Более низкая стоимость ответа

Меньшее количество входных токенов означает более низкие расходы на API и больше сообщений в рамках вашего лимита. Один и тот же квота позволяет использовать больше — для каждого AI-инструмента, который вы используете.

Примеры из реального мира

Измерено на Реальный код

Репрезентативные снимки — ваши числа будут варьироваться в зависимости от файла и кодовой базы.

Компонент React 88%

450 строк — режим карты

12,840 → 1,541
Модуль Rust 93%

820 строк — режим сигнатур

18,290 → 1,280
API Express 91%

1,200 строк — агрессивный режим

31,500 → 2,835
ML конвейер Python 83%

680 строк — режим энтропии

15,400 → 2,618
Конфигурация TypeScript 95%

340 строк - режим diff

8,750 → 437
Прозрачность

Бенчмарк
Методология

Каждое число на этой странице воспроизводимо. Вот как именно мы измеряем.

Tokenizer

Все подсчеты токенов используют tiktoken с кодировкой o200k_base — тот же токенизатор, который используется GPT-4o, Claude и современными LLM. Никаких оценок или приближений.

Порог качества

Сжатый вывод используется только в том случае, если общий показатель качества остается на уровне 95% или выше. Общий = сохранение AST (50%) + сохранение идентификаторов (30%) + покрытие строк (20%).

Воспроизвести локально

Запустите lean-ctx benchmark run src/ на вашей собственной кодовой базе. Результат покажет точные счетчики токенов для каждого режима сжатия, процент экономии и показатели сохранения качества.

Отказ от ответственности

Результаты варьируются в зависимости от типа файла, размера, языка и режима чтения. Диапазон «60-99%» отражает реальную вариативность: небольшие структурированные файлы сжимаются лучше, а большие неструктурированные — хуже. Кэшированное повторное чтение (~13 токенов) представляет наилучший случай.

Our Own Overhead, Measured

Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.

Deterministic Self-Verify

lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.

Измерьте вашу реальную экономию.

Установите LeanCTX и запустите benchmark run на вашей кодовой базе. Реальные цифры, ваши файлы, ваша экономия.

lean-ctx benchmark run src/

Работает с любой кодовой базой. Не требуется конфигурация. Результаты за секунды.