Benchmark

Jangan Percaya.
Verifikasi.

Jalankan lean-ctx benchmark run di proyek mana pun. Hitungan token nyata. Metrik akurasi nyata. Diukur dengan tiktoken (o200k_base).

Cara kerjanya jujur

Diukur. Diverifikasi.

Benchmark berjalan secara lokal, menghitung token dengan tokenizer yang tepat, dan menolak kompresi yang turun di bawah standar kualitas.

Hitungan token yang tepat

Menghitung dengan tokenizer yang sama yang digunakan oleh LLM modern - tanpa perkiraan, tanpa tebakan.

tiktoken o200k_base

Penjaga kualitas

Menilai pelestarian AST, pengidentifikasi, dan struktur baris. Output yang gagal diblokir secara otomatis.

ambang batas: Q ≥ 95% · ρ ≥ 15%

Dapat direproduksi

Berjalan pada repo Anda. Input yang sama → angka yang sama. Bagus untuk CI dan regresi.

offline · deterministik
Lihat perbedaannya

Sebelum & Sesudah

File yang sama. Informasi yang sama. Token jauh lebih sedikit.

Tanpa LeanCTX
// src/auth.ts · mode=full
import { jwt, verify, sign } from 'jsonwebtoken';
import { bcrypt } from 'bcryptjs';
3,517 token
Dengan LeanCTX (mode peta)
// src/auth.ts · mode=map
exports: AuthService, validateToken, …
deps: jsonwebtoken, bcryptjs, ioredis
412 token

88% token lebih sedikit

Tiga langkah menuju penghematan terverifikasi

Tunjuk. Ukur. Verifikasi.

01

Tunjuk ke file atau direktori mana pun

Lewatkan satu file, sebuah direktori, atau pola glob. Mesin benchmark memproses semua yang ditemukannya.

lean-ctx benchmark run src/
02

Pengukuran token yang tepat

Menggunakan tiktoken dengan encoding o200k_base (sama seperti GPT-4o, Claude, dan LLM modern). Tanpa perkiraan - hitungan token nyata.

tiktoken o200k_base
03

Penghematan per mode

Dapatkan skor akurasi dan persentase penghematan untuk setiap mode kompresi. Pilih mode yang tepat untuk setiap kasus penggunaan.

modes: 10
Output nyata

Benchmark dalam Aksi

Jalankan benchmark pada file apa pun di proyek Anda. Output menunjukkan hitungan token yang tepat untuk setiap mode kompresi, persentase penghematan, dan skor pelestarian kualitas.

Rincian per-file - token sebelum dan sesudah setiap mode

Skor kualitas - AST, identifier, dan baris kode dipertahankan

Total teragregasi - penghematan seluruh direktori dengan rekomendasi mode terbaik

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

Pilih mode yang tepat untuk setiap tugas

Mode Bacaan Dibandingkan

full 0%

File yang akan Anda edit

Semuanya - konten penuh di-cache untuk dibaca ulang pada ~13 token

map 70-90%

Hanya file konteks

Kode: deps + exports + signatures. Non-kode: garis besar terstruktur (heading Markdown, kunci JSON/YAML/TOML, ringkasan lock)

signatures 55–93%

Eksplorasi permukaan API

Hanya tanda tangan fungsi/kelas/tipe

diff 80–95%

Setelah pengeditan

Baris yang berubah dengan konteks sekitar minimal

aggressive 75–90%

File boilerplate besar

Struktur dan logika, sintaks dihapus

entropy 70–83%

File bising (JSDoc, komentar)

Hanya baris ber-entropi tinggi (penyaringan Shannon + Jaccard)

task 65–85%

Pembacaan fokus pada tugas (misalnya, 'perbaiki bug otentikasi')

Kode yang relevan dengan tugas + konteks dependensi melalui Knowledge Graph + filter IB

auto 70–99%

Default - LeanCTX memilih mode terbaik secara otomatis

Beradaptasi per file: tipe, bucket ukuran, kebaruan, relevansi tugas

reference 80–95%

Dokumentasi API dan pencarian referensi

API publik, tipe, tanda tangan, docstrings

lines:N-M 90–99%

Membaca rentang baris tertentu - presisi bedah

Baris yang diminta secara tepat, ditambah konteks minimal di sekitarnya

LeanCTX's ctx_smart_read dari LeanCTX secara otomatis memilih mode optimal menggunakan prediksi Bayesian berdasarkan tipe file, ukuran, dan konteks.

Tahap

Pipa Kompresi Tingkat Lanjut

Melampaui pemilihan mode, LeanCTX menerapkan pipa optimisasi multi-tahap yang beradaptasi dengan tipe file, konteks sesi, dan niat tugas:

Thompson Sampling 5–15%

Mempelajari ambang batas kompresi optimal per tipe file menggunakan eksplorasi bandit multi-lengan (eksplor vs eksploit)

AST Pruning 40–70%

Pemangkasan sadar bahasa melalui Tree-sitter - menghapus badan fungsi, komentar, dan boilerplate sambil mempertahankan tanda tangan API

IDF Dedup 10–30%

Deduplikasi lintas-file menggunakan frekuensi dokumen terbalik - menghilangkan konten yang sudah terlihat dalam sesi

IB Filter 15–25%

Penyaringan sadar tugas menggunakan prinsip Information Bottleneck - hanya menyimpan konten yang relevan dengan tugas saat ini

Verbatim Compaction 5–20%

Mengkolapskan struktur berulang (impor, baris log, boilerplate) menjadi ringkasan terhitung

Tahap-tahap ini kumulatif - diterapkan secara berurutan, mereka dapat mengurangi file 1000 baris menjadi di bawah 50 token sambil mempertahankan semua informasi yang relevan dengan tugas. Pipa ini sepenuhnya otomatis dan tidak memerlukan konfigurasi.

Preservasi terverifikasi

Kompresi Kualitas

Ambang batas kualitas (komposit)

95%

Output terkompresi hanya digunakan jika skor kualitas komposit tetap di 95% atau di atasnya.

Kepadatan minimum

15%

Memblokir output berinformasi rendah dengan kepadatan sinyal minimum 15% (ρ).

Pembobotan

50/30/20

Komposit = AST 50% + pengenal 30% + baris 20% - jadi struktur paling penting.

Prinsip kepadatan informasi

Mengapa Token Lebih Sedikit = Kepadatan Sinyal Lebih Tinggi

LLM memiliki anggaran perhatian tetap. Setiap token dalam jendela konteks bersaing untuk bobot perhatian. Mengisi jendela dengan boilerplate berarti perhatian yang lebih sedikit pada kode yang penting.

Dengan menghilangkan kebisingan sebelum mencapai model, LeanCTX meningkatkan kepadatan informasi dari setiap permintaan. Hasilnya: rasio sinyal-ke-kebisingan yang lebih tinggi, dilusi konteks yang lebih sedikit, dan model tetap dalam batas konteks yang berguna.

Rasio sinyal-ke-kebisingan yang lebih tinggi

10K token konteks fokus mengungguli 200K boilerplate. Model memfokuskan perhatiannya pada logika alih-alih komentar JSDoc dan boilerplate impor.

Pengurangan kebisingan konteks

Kebisingan konteks mengencerkan jendela perhatian model. Menghilangkannya membantu model tetap berpegangan pada struktur kode aktual dan mengurangi kemungkinan halusinasi.

Biaya per jawaban yang lebih rendah

Token input yang lebih sedikit berarti biaya API yang lebih rendah dan lebih banyak pesan dalam batas rate limit Anda. Kuota yang sama akan lebih jauh - untuk setiap alat AI yang Anda gunakan.

Contoh dunia nyata

Diukur pada Kode Nyata

Potret representatif - angka Anda akan bervariasi berdasarkan file dan codebase.

Komponen React 88%

450 baris - mode peta

12,840 → 1,541
Modul Rust 93%

820 baris - mode tanda tangan

18,290 → 1,280
API Express 91%

1.200 baris - mode agresif

31,500 → 2,835
Pipeline ML Python 83%

680 baris - mode entropi

15,400 → 2,618
Konfigurasi TypeScript 95%

340 baris - mode diff

8.750 → 437
Transparansi

Benchmark
Metodologi

Setiap angka di halaman ini dapat direproduksi. Berikut adalah cara kami mengukur secara tepat.

Tokenizer

Semua hitungan token menggunakan tiktoken dengan encoding o200k_base, tokenizer yang sama digunakan oleh GPT-4o, Claude, dan LLM modern. Tanpa perkiraan atau aproksimasi.

Ambang Batas Kualitas

Output terkompresi hanya digunakan jika skor kualitas komposit tetap pada atau di atas 95%. Komposit = preservasi AST (50%) + preservasi pengenal (30%) + cakupan baris (20%).

Reproduksi Lokal

Jalankan lean-ctx benchmark run src/ pada codebase Anda sendiri. Output menunjukkan hitungan token yang tepat untuk setiap mode kompresi, persentase penghematan, dan skor preservasi kualitas.

Penafian

Hasil bervariasi tergantung jenis file, ukuran, bahasa, dan mode baca. Rentang "60-99%" mencerminkan varians dunia nyata: file terstruktur kecil lebih banyak terkompresi, file tidak terstruktur besar kurang terkompresi. Pembaca ulang yang di-cache (~13 token) mewakili kasus terbaik.

Our Own Overhead, Measured

Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.

Deterministic Self-Verify

lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.

Ukur penghematan aktual Anda.

Instal LeanCTX dan jalankan benchmark run pada codebase Anda. Angka nyata, file Anda, penghematan Anda.

lean-ctx benchmark run src/

Berfungsi pada basis kode apa pun. Tidak perlu konfigurasi. Hasil dalam hitungan detik.