Güvenmeyin.
Doğrulayın.
Herhangi bir projede lean-ctx benchmark run çalıştırın. Gerçek belirteç sayıları. Gerçek doğruluk metrikleri. tiktoken (o200k_base) ile ölçülmüştür.
Ölçülmüş. Doğrulanmış.
Benchmark yerel olarak çalışır, tam tokenizer ile token sayar ve kalite seviyesinin altına düşen sıkıştırmaları reddeder.
Tam token sayısı
Modern LLM'ler tarafından kullanılan aynı tokenizer ile sayım yapar - tahmin yok, varsayım yok.
tiktoken o200k_base Kalite koruması
AST korumasını, tanımlayıcıları ve satır yapısını puanlar. Başarısız çıktılar otomatik olarak engellenir.
eşik: Q ≥ %95 · ρ ≥ 15% Tekrarlanabilir
Deponuzda çalışır. Aynı girdiler → aynı sayılar. CI ve regresyonlar için harika.
çevrimdışı · deterministik Önce & Sonra
Aynı dosya. Aynı bilgi. Dramatik şekilde daha az token.
%88 daha az token
İşaretle. Ölç. Doğrula.
Herhangi bir dosyaya veya dizine işaret et
Tek bir dosya, bir dizin veya bir glob deseni verin. Benchmark motoru bulduğu her şeyi işler.
lean-ctx benchmark run src/ Kesin token ölçümü
o200k_base kodlamasıyla tiktoken kullanır (GPT-4o, Claude ve modern LLM'lerle aynı). Tahmin yok - gerçek token sayıları.
tiktoken o200k_base Mod başına tasarruf
Her sıkıştırma modu için doğruluk puanları ve tasarruf yüzdeleri alın. Her kullanım durumu için doğru modu seçin.
modes: 10 Benchmark aksiyonda
Projenizdeki herhangi bir dosyada kıyaslamayı çalıştırın. Çıktı, her sıkıştırma modu için kesin belirteç sayılarını, tasarruf yüzdesini ve kalite koruma puanlarını gösterir.
Dosya bazında döküm - her moddan önce ve sonra belirteçler
Kalite puanları - AST, tanımlayıcılar ve kod satırları korunur
Birleştirilmiş toplamlar - en iyi mod önerisiyle dizin genelinde tasarruf
$ lean-ctx benchmark run src/auth.ts
◆ lean-ctx Benchmark
────────────────────────────────────────
src/auth.ts (123 lines, 3,517 tokens)
────────────────────────────────────────
Mode Tokens Saved Rate
full 3,517 0 0%
map 412 3,105 88%
signatures 252 3,265 93%
diff 187 3,330 95%
aggressive 298 3,219 92%
entropy 312 3,205 91%
────────────────────────────────────────
Quality: AST 98% | Idents 97% | Lines 96%
Encoding: tiktoken o200k_base | Time: 12ms
Okuma Modları Karşılaştırıldı
full 0% Düzenleyeceğiniz dosyalar
Her şey - yeniden okumalar için tam içerik ~13 jeton önbelleğe alınır
map 70-90% Sadece bağlam dosyaları
Kod: deps + exports + imzalar. Kod dışı: yapılandırılmış taslaklar (Markdown başlıkları, JSON/YAML/TOML anahtarları, kilit özetleri)
signatures 55–93% API yüzeyi keşfi
Yalnızca fonksiyon/sınıf/tip imzaları
diff 80–95% Düzenlemelerden sonra
Minimum çevre bağlamıyla değiştirilen satırlar
aggressive 75–90% Büyük kalıp (boilerplate) dosyaları
Yapı ve mantık, sözdizimi kaldırılmış
entropy 70–83% Gürültülü dosyalar (JSDoc, yorumlar)
Yüksek entropili satırlar yalnızca (Shannon + Jaccard filtrelemesi)
task 65–85% Göreve odaklanmış okumalar (örneğin, 'auth hatasını düzelt')
Görevle ilgili kod + Bilgi Grafiği aracılığıyla bağımlılık bağlamı + IB filtresi
auto 70–99% Varsayılan - LeanCTX en iyi modu otomatik olarak seçer
Dosyaya göre uyarlanır: tür, boyut kovası, güncellik, görev uygunluğu
reference 80–95% API belgeleri ve referans araması
Public API, tipler, imzalar, docstringler
lines:N-M 90–99% Belirli bir satır aralığını okuma - cerrahi hassasiyet
İstenen tam satırlar, artı minimum çevre bağlamı
LeanCTX'in ctx_smart_read, dosya türüne, boyutuna ve bağlama dayalı Bayesyen tahmin kullanarak optimal modu otomatik olarak seçer.
Gelişmiş Sıkıştırma Hattı
Mod seçimin ötesinde, LeanCTX dosya türüne, oturum bağlamına ve görev amacına uyum sağlayan çok aşamalı bir optimizasyon hattı uygular:
Çok kollu bandit keşfi kullanarak (keşfet vs sömür) dosya türü başına optimal sıkıştırma eşiklerini öğrenir
Tree-sitter aracılığıyla dil farkındalıklı budama - API imzalarını korurken fonksiyon gövdelerini, yorumları ve standart kod parçacıklarını kaldırır
Ters belge sıklığı kullanarak çapraz dosya yinelenmesini ortadan kaldırır - oturumda zaten görülen içeriği elimine eder
Bilgi Boğazı ilkesini kullanarak görev farkındalıklı filtreleme - yalnızca mevcut görevle ilgili içeriği tutar
Tekrarlayan yapıları (import'lar, log satırları, standart kod parçacıkları) sayılmış özetlere dönüştürür
Bu aşamalar birikimlidir - sırayla uygulanarak 1000 satırlık bir dosyayı tüm görevle ilgili bilgileri koruyarak 50 tokenin altına düşürebilir. Hat tamamen otomatik ve herhangi bir yapılandırma gerektirmez.
Sıkıştırma Kalite
Kalite eşiği (bileşik)
Sıkıştırılmış çıktı yalnızca bileşik kalite puanı %95 veya üzerinde kaldığında kullanılır.
Minimum yoğunluk
Minimum bir sinyal yoğunluğu (%15, ρ) ile düşük bilgi çıkışlarını engeller.
Ağırlıklandırma
Bileşik = AST %50 + tanımlayıcılar %30 + satırlar %20 - bu yüzden yapı en önemli şey.
Daha Az Token = Neden Daha Yüksek Sinyal Yoğunluğu
LLM'ler sabit bir dikkat bütçesine sahiptir. Bağlam penceresindeki her token, dikkat ağırlıkları için yarışır. Pencereyi standart kodlarla doldurmak, önemli olan koda daha az dikkat anlamına gelir.
Gürültüyü modele ulaşmadan önce kaldırarak LeanCTX, her isteğin bilgi yoğunluğunu artırır. Sonuç: daha yüksek sinyal-gürültü oranı, daha az bağlam seyreltilmesi ve modelin kullanışlı bağlam limitleri içinde kalması.
Odaklanmış 10K jetonluk bağlam, 200K kalıp koddan daha iyidir. Model, dikkatini JSDoc yorumları ve import kalıp kodu yerine mantığa harcar.
Bağlam gürültüsü modelin dikkat penceresini sulandırır. Bunu kaldırmak, modelin gerçek kod yapısına odaklanmasına yardımcı olur ve halüsinasyon olasılığını azaltır.
Daha az girdi belirteci, daha düşük API maliyeti ve hız limitiniz dahilinde daha fazla mesaj anlamına gelir. Aynı kota, kullandığınız her yapay zeka aracı için daha uzağa gider.
Şu üzerinde ölçüldü Gerçek Kod
Temsili anlık görüntüler - rakamlarınız dosya ve kod tabanına göre değişecektir.
450 satır - harita modu
12,840 → 1,541 820 satır - imza modu
18,290 → 1,280 1,200 satır - agresif mod
31,500 → 2,835 680 satır - entropi modu
15,400 → 2,618 340 satır - diff modu
8,750 → 437 Benchmark
Metodoloji
Bu sayfadaki her sayı tekrarlanabilirdir. Nasıl ölçtüğümüz tam olarak burada anlatılıyor.
Tokenizer
Tüm token sayıları, GPT-4o, Claude ve modern LLM'ler tarafından kullanılan aynı tokenizer olan tiktoken ile o200k_base kodlamasını kullanır. Tahmin veya yaklaşıklık yok.
Kalite Eşiği
Sıkıştırılmış çıktı, bileşik kalite puanı %95'te veya üzerinde kaldığı takdirde kullanılır. Bileşik = AST koruması (50%) + tanımlayıcı koruması (30%) + satır kapsamı (20%).
Yerel Olarak Tekrarla
Kendi kod tabanınızda lean-ctx benchmark run src/ çalıştırın. Çıktı, her sıkıştırma modu için kesin token sayılarını, tasarruf yüzdesini ve kalite koruma puanlarını gösterir.
Yasal Uyarı
Sonuçlar dosya türüne, boyutuna, diline ve okuma moduna göre değişir. "60-99%" aralığı gerçek dünya varyasyonunu yansıtır: küçük yapılandırılmış dosyalar daha fazla sıkıştırır, büyük yapılandırılmamış dosyalar daha az sıkıştırır. Önbelleğe alınmış yeniden okumalar (~13 token) en iyi senaryoyu temsil eder.
Our Own Overhead, Measured
Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.
Deterministic Self-Verify
lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.
Ölçün gerçek tasarrufunuzu.
LeanCTX'ı kurun ve kod tabanınızda benchmark run çalıştırın. Gerçek sayılar, dosyalarınız, tasarrufunuz.
lean-ctx benchmark run src/ Herhangi bir kod tabanında çalışır. Yapılandırmaya gerek yok. Sonuçlar saniyeler içinde.