Манифест

Аннотация

Высокая производительность с LLM - это не про большие контекстные окна. Это про максимизацию информационной энтропии на token. LeanCTX - это интеллектуальный буфер, гарантирующий, что каждый token несёт максимальный сигнал.

В 2026 году AI-инструменты для программирования отправляют полные файлы, необработанный вывод CLI и несжатые сканы проектов в контекстные окна - каждый раз заново. Соотношение сигнал/шум ужасное. По результатам анализа вызовов инструментов в многошаговых сессиях, ~65% чтений файлов - это повторные чтения. Модели тратят внимание на шаблонный код с нулевой информационной энтропией.

Данная статья утверждает, что интеллектуальный слой - прозрачный слой сжатия между разработчиком и LLM - это недостающий элемент в стеке AI-инженерии. Мы представляем LeanCTX: единый бинарный файл на Rust, который обеспечивает сокращение до 99% token на операцию (при кэшированных повторных чтениях), сохраняя всю информацию, необходимую модели для корректного рассуждения.

1. Проблема

У нас есть модели с контекстным окном в миллион токенов и цепочками рассуждений длиной в сотни шагов. Но большинство AI-инструментов для кодирования по-прежнему отправляют весь файл при каждом чтении. Это всё равно что отправлять целую библиотеку каждый раз, когда кто-то просит одну страницу.

Результат: размытое внимание, потраченные впустую вычисления и рассуждения, которые теряют фокус на логических узлах, действительно имеющих значение. Каждый избыточный токен конкурирует с реальным сигналом в механизме внимания - сбивая рассуждения модели с путей кода, которые требуют анализа.

~65%

чтений файлов - повторные

На основе паттернов вызова инструментов в многошаговых сессиях кодирования

$20–200

в месяц на AI-инструменты

У каждого AI-инструмента есть жёсткие лимиты. 500 запросов в день. 45 сообщений за 5 часов. 1 500 премиум-запросов в месяц. Токены - это новое золото, но большинство инструментов сжигают их на шаблонном коде с нулевой информационной энтропией.

Проблема не в модели. Проблема во входных данных.

2. Плотность информации

Контекст из 200K token, заполненный шаблонным кодом, даёт худшие результаты, чем 10K token чистого сигнала. Это не предположение - так работают механизмы внимания. Каждый убранный байт шума - это байт обретённой мощности рассуждения.

Информационная энтропия - измеряемая в битах на token - определяет, насколько корректно модель рассуждает. Token с высокой энтропией несут решения, ветвящуюся логику, API-контракты, обработку ошибок. Token с низкой энтропией несут пробелы, шаблонный код, повторяющиеся импорты и многословное форматирование CLI.

10K tokens that outperform 200K.

Цель каждого взаимодействия интеллектуального слоя.

Рассмотрим типичное повторное чтение файла. Модель уже знает структуру файла, экспорты, типы. Отправка 3500 token полного исходного кода, когда достаточно подтверждения из cache в 13 token - это 99,6% впустую потраченной ёмкости контекста.

Та же логика применима к выводу CLI. npm install генерирует 800+ token уведомлений о спонсировании, предупреждений об устаревании и форматирования. Информационное содержание? Одна строка: имя пакета, версия, количество зависимостей, время выполнения.

3. Множитель эффективности

При среднем сжатии 80% - достижимом при кэшированных чтениях и shell hook вместе - вы не просто экономите 80% стоимости. Вы увеличиваете мощность в 5 раз. Тот же бюджет, та же подписка, в пять раз больше полезного результата.

эффективная мощность

80%

меньше расхода token

Типичное среднее по сессии с кэшированием + shell hook

Дело не только в экономии - хотя это тоже. Дело в том, чтобы каждое взаимодействие было результативным. Более длинные сессии без сброса контекстного окна. Более глубокое рассуждение, потому что модель не отвлекается на шум. Меньше неудачных завершений, потому что релевантный код действительно находится в окне внимания.

Кривая затрат смещается от линейной к логарифмической. Каждый дополнительный token контекста даёт убывающую отдачу, если это шум, но нарастающую отдачу, если это сигнал.

4. Архитектура: Интеллектуальный слой

LeanCTX реализует интеллектуальный слой в виде четырёх компонуемых слоёв. Каждый слой работает независимо, но в сочетании они усиливают друг друга.

Слой сжатия Реализовано

AST-сигнатуры через tree-sitter (18 языков), дельта-загрузка для кэшированных файлов, кэширование сессий с отслеживанием MD5, фильтрация энтропии через анализ Шеннона. Отправляет скелет, а не всё тело. Повторные чтения стоят 13 token вместо тысяч.

Семантический маршрутизатор Реализовано

10 read modes + диапазоны строк позволяют выбрать нужную точность для каждой задачи. Режим map для понимания, full для редактирования, signatures для API-поверхности, entropy для фильтрации шума.

Менеджер контекста Реализовано

Кэш сессий с авто-TTL (очистка при 5 мин. простоя), контрольные точки контекста через ctx_compress, изоляция подагентов с fresh=true. Модель всегда видит актуальное состояние, а не полную историю.

Гарант качества Фундамент

Сфокусированный ввод с высокой энтропией обеспечивает более точное рассуждение. Меньше шума в окне внимания = больше внимания на логические узлы = лучший код на выходе. Это эмерджентное преимущество совместной работы всех остальных слоёв.

Security Layer

PathJail sandboxing at the resolve_path chokepoint, bounded shell capture (200KB cap), TOCTOU-safe file edits, and memory output neutralization. Defense-in-depth against prompt injection attacks.

Build Integrity

Compile-time integrity seed embedded in the binary. Hash verification detects tampering. Checked automatically by lean-ctx doctor and reported in --version output.

Reciprocal Rank Fusion

Cache eviction uses RRF to fuse incomparable signals (recency, frequency, size) without weight tuning. Standard information retrieval technique (K=60) that produces monotonically correct rankings.

Архитектура гибридная: контекстный сервер с 58 интеллектуальными инструментами, заменяющими встроенные функции редактора (чтение файлов, списки директорий, поиск по коду, определение намерений, графы проектов), плюс прозрачный shell hook, который сжимает 95+ паттернов CLI в 34 категориях без изменения рабочего процесса.

5. Сдвиг парадигмы

Старая парадигма отправляет всё. Новая парадигма отправляет только сигнал. Вот что меняется, когда вы вводите слой интеллектуальной обработки:

Параметр	До	После
Отправляемые данные	Полные файлы, необработанные логи	AST-сигнатуры, диффы
Повторное чтение	Полный файл каждый раз	13 токенов (из кэша)
Вывод CLI	Без сжатия, многословно	Сжатие по паттернам (95+)
Задержка	Высокая (большие данные)	Низкая (компактные данные)
Рассуждения	Отвлечение на шум	Фокус на логических узлах
Кривая стоимости	Линейная	Логарифмическая
Длительность сессии	Быстро исчерпывается	5-кратный ресурс

Ключевое понимание: речь не о том, чтобы видеть меньше. Речь о том, чтобы видеть только то, что важно. Модель получает ту же логическую информацию - сигнатуры функций, зависимости, изменённые строки, сообщения об ошибках - без шума, размывающего её рассуждения.

6. Принципы проектирования

Пять принципов определяют каждое проектное решение в LeanCTX:

Сжатие без потерь, а не обрезка с потерями

Каждое сжатие сохраняет информацию, необходимую модели. AST-сигнатуры сохраняют контракты функций. Режим diff показывает только изменения. Фильтр никогда не отбрасывает критически важное - каждое сжатие обратимо на семантическом уровне.

Прозрачность вместо магии

Каждый инструмент отчитывается о количестве token. ctx_benchmark измеряет точную экономию с помощью tiktoken (o200k_base). ctx_metrics отслеживает кумулятивную статистику. lean-ctx gain показывает экономию за всё время с оценкой стоимости в USD. Вы всегда знаете, что происходит.

Нулевая зависимость от облака

Один бинарный файл на Rust. Без API-ключей, без аккаунтов, без телеметрии, без сбора данных. Ваш код никогда не покидает вашу машину. Лицензия Apache-2.0, полностью открытый исходный код. Работает на macOS, Linux и Windows с нативными бинарными файлами.

Компонуемый, а не монолитный

58 интеллектуальных инструментов, каждый из которых делает одну вещь хорошо. Используйте ctx_read для файлов, ctx_shell для CLI, ctx_compress для контрольных точек. Комбинируйте под свой рабочий процесс. Работает с Cursor, GitHub Copilot, Claude Code, Windsurf, Crush, Codex и другими.

Измеряется, а не оценивается

Все подсчёты token используют tiktoken с кодировкой o200k_base - тот же токенизатор, что и модели. Без приближений, без эвристик. Отслеживание стоимости в USD с постоянной статистикой за всё время. Выбор режима на основе данных через ctx_analyze и ctx_benchmark.

7. Заключение

Лимиты token, квоты запросов и размеры контекстных окон определяют ландшафт AI-программирования в 2026 году. Путь вперёд - не большие контекстные окна, а максимальная информационная энтропия в каждом token.

LeanCTX - это минификатор человеческой мысли без потерь. Он не заставляет модель видеть меньше. Он заставляет модель видеть только то, что важно: сигнатуры функций, изменённые строки, коды ошибок, граф зависимостей - очищенные от шума, который размывает рассуждения.

10K token чистого сигнала. Таково будущее AI-инженерии.

Один бинарный файл на Rust. Нулевая зависимость от облака. Лицензия Apache-2.0. Начните за 60 секунд.

Начать Читать исходный код

Token - это новое золото.Хватит их тратить впустую.