宣言 - LeanCTX

摘要

LLM 的高性能不在于更大的上下文窗口，而在于最大化每个 token 的信息熵。LeanCTX 是确保每个 token 携带最大信号的智能缓冲层。

在 2026 年，AI 编码工具每次都将完整文件、原始 CLI 输出和未压缩的项目扫描发送到上下文窗口。信噪比极低。根据多步编码会话中的工具调用分析，约 65% 的文件读取是重复读取。模型在零信息熵的模板上浪费注意力。

本文论证，智能层--开发者和 LLM 之间的透明压缩层--是 AI 工程栈中缺失的一环。我们介绍 LeanCTX：一个单一 Rust 二进制文件，实现每次操作高达 99% 的 token 减少（缓存重新读取），同时保留模型正确推理所需的所有信息。

1. 问题

我们有百万 token 上下文窗口的模型和跨越数百步的推理链。然而大多数 AI 编码工具仍在每次读取时发送完整文件。这就像每次有人问一页时都发送整个图书馆。

结果是：注意力被稀释，算力被浪费，推理在真正重要的逻辑节点上失去焦点。每个冗余 token 都在注意力机制中与实际信号竞争--将模型的推理推离需要分析的代码路径。

~65%

的文件读取是重复读取

基于多步编码会话中的工具调用模式

$20–200

每月花在 AI 工具上

每个 AI 工具都有硬性限制。每天 500 次请求。每 5 小时 45 条消息。每月 1,500 次高级请求。Token 是新的黄金--但大多数工具在零信息熵的模板上消耗它们。

问题不在于模型。在于输入。

2. 信息密度

一个充满模板的 20 万 token 上下文产生的结果比 1 万个纯信号 token 更差。这不是推测--这是注意力机制的工作方式。去除的每一字节噪音就是获得的一字节推理能力。

信息熵--以每 token 比特为单位--决定了模型是否正确推理。高熵 token 携带决策、分支逻辑、API 契约、错误处理。低熵 token 携带空白、模板、重复导入和冗长的 CLI 格式。

10K tokens that outperform 200K.

每次智能层交互的目标。

考虑一次典型的文件重新读取。模型已经知道文件结构、导出和类型。当 13 个 token 的缓存确认就够用时，发送 3,500 个 token 的完整源代码是 99.6% 的上下文容量浪费。

同样的逻辑适用于 CLI 输出。npm install 生成 800+ 个 token 的赞助通知、弃用警告和格式化。信息内容？一行：包名、版本、依赖数量、耗时。

3. 效率乘数

在 80% 的平均压缩率下--通过缓存读取和 shell hook 结合可以实现--你不只是节省了 80% 的成本。你将容量提升了 5 倍。相同的预算，相同的订阅，五倍的生产力输出。

有效容量

80%

更少的 token 消耗

使用缓存 + shell hook 的典型会话级平均值

这不仅仅是关于省钱--虽然确实如此。而是关于让每次交互都有意义。更长的会话而不需要重置上下文窗口。更深入的推理因为模型不被噪音干扰。更少的失败补全因为相关代码实际上在注意力窗口中。

成本曲线从线性变为对数。当上下文是噪音时，每增加一个 token 回报递减；但当上下文是信号时，回报叠加增长。

4. 架构：智能层

LeanCTX 将智能层实现为四个可组合的层。每层独立运行，但组合使用时效果叠加。

压缩层已实现

通过 tree-sitter（18 种语言）进行基于 AST 的签名提取、缓存文件的增量加载、带 MD5 追踪的会话缓存、通过 Shannon 分析的熵过滤。发送骨架而非全部内容。重新读取仅需 13 个 token 而非数千个。

语义路由器已实现

10 read modes + 行范围让你为每个任务选择合适的保真度。map 模式用于理解，full 模式用于编辑，signatures 用于 API 接口，entropy 用于噪音过滤。

上下文管理器已实现

带自动 TTL（5 分钟空闲清除）的会话缓存、通过 ctx_compress 的上下文检查点、使用 fresh=true 的子智能体隔离。模型始终看到最新状态，而非完整历史。

质量护栏基础

聚焦的高熵输入意味着更精准的推理。注意力窗口中的噪音更少 = 逻辑节点上的注意力更多 = 更好的代码输出。这是所有其他层协同工作的涌现效益。

Security Layer

PathJail sandboxing at the resolve_path chokepoint, bounded shell capture (200KB cap), TOCTOU-safe file edits, and memory output neutralization. Defense-in-depth against prompt injection attacks.

Build Integrity

Compile-time integrity seed embedded in the binary. Hash verification detects tampering. Checked automatically by lean-ctx doctor and reported in --version output.

Reciprocal Rank Fusion

Cache eviction uses RRF to fuse incomparable signals (recency, frequency, size) without weight tuning. Standard information retrieval technique (K=60) that produces monotonically correct rankings.

架构是混合的：一个拥有 58 个智能工具的上下文服务器替换编辑器内置功能（文件读取、目录列表、代码搜索、意图检测、项目图谱），加上一个透明 shell hook，在 34 个类别中压缩 95+ CLI 模式而不改变你的工作流。

5. 范式转变

旧范式发送一切。新范式只发送信号。以下是引入智能层后的变化：

维度	之前	之后
发送的数据	完整文件、原始日志	AST 签名、diff
重复读取	每次完整文件	13 个 token（缓存）
CLI 输出	未压缩，冗长	模式压缩（95+）
延迟	高（大载荷）	低（紧凑载荷）
推理	被噪音干扰	聚焦于逻辑节点
成本曲线	线性	对数
会话长度	快速消耗	5 倍寿命

关键洞察：这不是关于看到更少。而是关于只看到重要的。模型接收相同的逻辑信息--函数签名、依赖、变更行、错误消息--没有稀释推理的噪音。

6. 设计原则

五项原则指导 LeanCTX 中的每一个设计决策：

无损压缩，而非有损截断

每次压缩都保留模型所需的信息。AST 签名保持函数契约完整。Diff 模式精确显示变更内容。过滤器永远不会丢弃关键内容--每次压缩在语义层面都是可逆的。

透明优于魔术

每个工具都报告 token 计数。ctx_benchmark 使用 tiktoken（o200k_base）测量精确节省。ctx_metrics 追踪累积统计。lean-ctx gain 显示终身节省及美元成本估算。你始终知道发生了什么。

零云依赖

单个 Rust 二进制文件。无 API 密钥，无账户，无遥测，无数据收集。你的代码永远不离开你的机器。Apache-2.0 许可，完全开源。在 macOS、Linux 和 Windows 上以原生二进制文件运行。

可组合，而非单体

58 个智能工具，每个做好一件事。使用 ctx_read 读取文件，ctx_shell 执行 CLI，ctx_compress 创建检查点。为你的工作流混合搭配。适用于 Cursor、GitHub Copilot、Claude Code、Windsurf、Crush、Codex 等。

测量，而非估算

所有 token 计数使用 tiktoken 的 o200k_base 编码--与模型使用的相同分词器。无近似，无启发式。持久化的终身统计带美元成本追踪。通过 ctx_analyze 和 ctx_benchmark 进行数据驱动的模式选择。

7. 结论

Token 限制、请求配额和上下文窗口大小定义了 2026 年的 AI 编码格局。前进的道路不是更大的上下文窗口--而是让每个 token 携带最大信息熵。

LeanCTX 是人类思维的无损压缩器。它不是让模型看到更少，而是让模型只看到重要的内容：函数签名、变更行、错误码、依赖图--去除稀释推理的噪音。

1 万个纯信号 token。这就是 AI 工程的未来。

单个 Rust 二进制文件。零云依赖。Apache-2.0 许可。 60 秒内开始使用。

开始使用阅读源码

Token 是新的黄金。别浪费它们。

摘要