Jangan Percaya.
Verifikasi.
Jalankan lean-ctx benchmark run di proyek mana pun. Hitungan token nyata. Metrik akurasi nyata. Diukur dengan tiktoken (o200k_base).
Diukur. Diverifikasi.
Benchmark berjalan secara lokal, menghitung token dengan tokenizer yang tepat, dan menolak kompresi yang turun di bawah standar kualitas.
Hitungan token yang tepat
Menghitung dengan tokenizer yang sama yang digunakan oleh LLM modern - tanpa perkiraan, tanpa tebakan.
tiktoken o200k_base Penjaga kualitas
Menilai pelestarian AST, pengidentifikasi, dan struktur baris. Output yang gagal diblokir secara otomatis.
ambang batas: Q ≥ 95% · ρ ≥ 15% Dapat direproduksi
Berjalan pada repo Anda. Input yang sama → angka yang sama. Bagus untuk CI dan regresi.
offline · deterministik Sebelum & Sesudah
File yang sama. Informasi yang sama. Token jauh lebih sedikit.
88% token lebih sedikit
Tunjuk. Ukur. Verifikasi.
Tunjuk ke file atau direktori mana pun
Lewatkan satu file, sebuah direktori, atau pola glob. Mesin benchmark memproses semua yang ditemukannya.
lean-ctx benchmark run src/ Pengukuran token yang tepat
Menggunakan tiktoken dengan encoding o200k_base (sama seperti GPT-4o, Claude, dan LLM modern). Tanpa perkiraan - hitungan token nyata.
tiktoken o200k_base Penghematan per mode
Dapatkan skor akurasi dan persentase penghematan untuk setiap mode kompresi. Pilih mode yang tepat untuk setiap kasus penggunaan.
modes: 10 Benchmark dalam Aksi
Jalankan benchmark pada file apa pun di proyek Anda. Output menunjukkan hitungan token yang tepat untuk setiap mode kompresi, persentase penghematan, dan skor pelestarian kualitas.
Rincian per-file - token sebelum dan sesudah setiap mode
Skor kualitas - AST, identifier, dan baris kode dipertahankan
Total teragregasi - penghematan seluruh direktori dengan rekomendasi mode terbaik
$ lean-ctx benchmark run src/auth.ts
◆ lean-ctx Benchmark
────────────────────────────────────────
src/auth.ts (123 lines, 3,517 tokens)
────────────────────────────────────────
Mode Tokens Saved Rate
full 3,517 0 0%
map 412 3,105 88%
signatures 252 3,265 93%
diff 187 3,330 95%
aggressive 298 3,219 92%
entropy 312 3,205 91%
────────────────────────────────────────
Quality: AST 98% | Idents 97% | Lines 96%
Encoding: tiktoken o200k_base | Time: 12ms
Mode Bacaan Dibandingkan
full 0% File yang akan Anda edit
Semuanya - konten penuh di-cache untuk dibaca ulang pada ~13 token
map 70-90% Hanya file konteks
Kode: deps + exports + signatures. Non-kode: garis besar terstruktur (heading Markdown, kunci JSON/YAML/TOML, ringkasan lock)
signatures 55–93% Eksplorasi permukaan API
Hanya tanda tangan fungsi/kelas/tipe
diff 80–95% Setelah pengeditan
Baris yang berubah dengan konteks sekitar minimal
aggressive 75–90% File boilerplate besar
Struktur dan logika, sintaks dihapus
entropy 70–83% File bising (JSDoc, komentar)
Hanya baris ber-entropi tinggi (penyaringan Shannon + Jaccard)
task 65–85% Pembacaan fokus pada tugas (misalnya, 'perbaiki bug otentikasi')
Kode yang relevan dengan tugas + konteks dependensi melalui Knowledge Graph + filter IB
auto 70–99% Default - LeanCTX memilih mode terbaik secara otomatis
Beradaptasi per file: tipe, bucket ukuran, kebaruan, relevansi tugas
reference 80–95% Dokumentasi API dan pencarian referensi
API publik, tipe, tanda tangan, docstrings
lines:N-M 90–99% Membaca rentang baris tertentu - presisi bedah
Baris yang diminta secara tepat, ditambah konteks minimal di sekitarnya
LeanCTX's ctx_smart_read dari LeanCTX secara otomatis memilih mode optimal menggunakan prediksi Bayesian berdasarkan tipe file, ukuran, dan konteks.
Pipa Kompresi Tingkat Lanjut
Melampaui pemilihan mode, LeanCTX menerapkan pipa optimisasi multi-tahap yang beradaptasi dengan tipe file, konteks sesi, dan niat tugas:
Mempelajari ambang batas kompresi optimal per tipe file menggunakan eksplorasi bandit multi-lengan (eksplor vs eksploit)
Pemangkasan sadar bahasa melalui Tree-sitter - menghapus badan fungsi, komentar, dan boilerplate sambil mempertahankan tanda tangan API
Deduplikasi lintas-file menggunakan frekuensi dokumen terbalik - menghilangkan konten yang sudah terlihat dalam sesi
Penyaringan sadar tugas menggunakan prinsip Information Bottleneck - hanya menyimpan konten yang relevan dengan tugas saat ini
Mengkolapskan struktur berulang (impor, baris log, boilerplate) menjadi ringkasan terhitung
Tahap-tahap ini kumulatif - diterapkan secara berurutan, mereka dapat mengurangi file 1000 baris menjadi di bawah 50 token sambil mempertahankan semua informasi yang relevan dengan tugas. Pipa ini sepenuhnya otomatis dan tidak memerlukan konfigurasi.
Kompresi Kualitas
Ambang batas kualitas (komposit)
Output terkompresi hanya digunakan jika skor kualitas komposit tetap di 95% atau di atasnya.
Kepadatan minimum
Memblokir output berinformasi rendah dengan kepadatan sinyal minimum 15% (ρ).
Pembobotan
Komposit = AST 50% + pengenal 30% + baris 20% - jadi struktur paling penting.
Mengapa Token Lebih Sedikit = Kepadatan Sinyal Lebih Tinggi
LLM memiliki anggaran perhatian tetap. Setiap token dalam jendela konteks bersaing untuk bobot perhatian. Mengisi jendela dengan boilerplate berarti perhatian yang lebih sedikit pada kode yang penting.
Dengan menghilangkan kebisingan sebelum mencapai model, LeanCTX meningkatkan kepadatan informasi dari setiap permintaan. Hasilnya: rasio sinyal-ke-kebisingan yang lebih tinggi, dilusi konteks yang lebih sedikit, dan model tetap dalam batas konteks yang berguna.
10K token konteks fokus mengungguli 200K boilerplate. Model memfokuskan perhatiannya pada logika alih-alih komentar JSDoc dan boilerplate impor.
Kebisingan konteks mengencerkan jendela perhatian model. Menghilangkannya membantu model tetap berpegangan pada struktur kode aktual dan mengurangi kemungkinan halusinasi.
Token input yang lebih sedikit berarti biaya API yang lebih rendah dan lebih banyak pesan dalam batas rate limit Anda. Kuota yang sama akan lebih jauh - untuk setiap alat AI yang Anda gunakan.
Diukur pada Kode Nyata
Potret representatif - angka Anda akan bervariasi berdasarkan file dan codebase.
450 baris - mode peta
12,840 → 1,541 820 baris - mode tanda tangan
18,290 → 1,280 1.200 baris - mode agresif
31,500 → 2,835 680 baris - mode entropi
15,400 → 2,618 340 baris - mode diff
8.750 → 437 Benchmark
Metodologi
Setiap angka di halaman ini dapat direproduksi. Berikut adalah cara kami mengukur secara tepat.
Tokenizer
Semua hitungan token menggunakan tiktoken dengan encoding o200k_base, tokenizer yang sama digunakan oleh GPT-4o, Claude, dan LLM modern. Tanpa perkiraan atau aproksimasi.
Ambang Batas Kualitas
Output terkompresi hanya digunakan jika skor kualitas komposit tetap pada atau di atas 95%. Komposit = preservasi AST (50%) + preservasi pengenal (30%) + cakupan baris (20%).
Reproduksi Lokal
Jalankan lean-ctx benchmark run src/ pada codebase Anda sendiri. Output menunjukkan hitungan token yang tepat untuk setiap mode kompresi, persentase penghematan, dan skor preservasi kualitas.
Penafian
Hasil bervariasi tergantung jenis file, ukuran, bahasa, dan mode baca. Rentang "60-99%" mencerminkan varians dunia nyata: file terstruktur kecil lebih banyak terkompresi, file tidak terstruktur besar kurang terkompresi. Pembaca ulang yang di-cache (~13 token) mewakili kasus terbaik.
Our Own Overhead, Measured
Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.
Deterministic Self-Verify
lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.
Ukur penghematan aktual Anda.
Instal LeanCTX dan jalankan benchmark run pada codebase Anda. Angka nyata, file Anda, penghematan Anda.
lean-ctx benchmark run src/ Berfungsi pada basis kode apa pun. Tidak perlu konfigurasi. Hasil dalam hitungan detik.