Benchmark

لا تثق بـ.
تحقق.

قم بتشغيل lean-ctx benchmark run في أي مشروع. عدد رموز حقيقي. مقاييس دقة حقيقية. يتم قياسها باستخدام tiktoken (o200k_base).

ابدأ الآن إضافة إلى النجوم على GitHub

كيف يبقى صادقًا

مقاس. مُتحقق.

يتم تشغيل Benchmark محليًا، ويحسب الرموز المميزة باستخدام المرمز الدقيق، ويرفض الضغطات التي تقل عن مستوى الجودة.

العد الدقيق للرموز المميزة

يحسب باستخدام نفس المرمز المستخدم في نماذج LLMs الحديثة - لا تقديرات، ولا تخمين.

tiktoken o200k_base

حارس الجودة

يسجل حفظ شجرة بناء الجملة (AST)، والمعرفات، وهيكل الأسطر. يتم حظر المخرجات الفاشلة تلقائيًا.

العتبة: Q ≥ 95% · ρ ≥ 15%

قابل للاستنساخ

يعمل على مستودعك. نفس المدخلات ← نفس الأرقام. ممتاز لـ CI والتراجعات.

غير متصل بالإنترنت · حتمي

شاهد الفرق

قبل و بعد

نفس الملف. نفس المعلومات. عدد أقل بكثير من الرموز المميزة.

بدون LeanCTX

// src/auth.ts · mode=full

import { jwt, verify, sign } from 'jsonwebtoken';

import { bcrypt } from 'bcryptjs';

…

3,517 رمزًا

مع LeanCTX (وضع الخريطة)

// src/auth.ts · mode=map

exports: AuthService, validateToken, …

deps: jsonwebtoken, bcryptjs, ioredis

…

412 رمزًا

توفير 88% من الرموز المميزة

ثلاث خطوات لتحقيق وفورات مؤكدة

الإشارة. القياس. التحقق.

الإشارة إلى أي ملف أو دليل

مرّر ملفًا واحدًا، أو دليلًا، أو نمطًا عامًا (glob). تقوم محرك الاختبار بمعالجة كل ما يجده.

lean-ctx benchmark run src/

قياس الرموز بدقة

يستخدم tiktoken مع ترميز o200k_base (نفسه المستخدم في GPT-4o و Claude ونماذج اللغة الكبيرة الحديثة). لا تقديرات - عداد رموز حقيقي.

tiktoken o200k_base

التوفير حسب الوضع

احصل على درجات الدقة ونسب التوفير لكل وضع ضغط. اختر الوضع المناسب لكل حالة استخدام.

modes: 10

الإخراج الفعلي

Benchmark قيد العمل

قم بتشغيل الاختبار المعياري على أي ملف في مشروعك. يعرض الإخراج عدد الرموز الدقيق لكل وضع ضغط، ونسبة التوفير، ودرجات الحفاظ على الجودة.

تفصيل لكل ملف - الرموز قبل وبعد كل وضع

درجات الجودة - حفظ هياكل الشجرة النحوية (AST)، والمعرفات، وأسطر التعليمات البرمجية

إجمالي مجمع - التوفير على مستوى الدليل مع أفضل توصية بالوضع

lean-ctx benchmark run

$ lean-ctx benchmark run src/auth.ts

◆ lean-ctx Benchmark

────────────────────────────────────────

src/auth.ts (123 lines, 3,517 tokens)

────────────────────────────────────────

Mode Tokens Saved Rate

full 3,517 0 0%

map 412 3,105 88%

signatures 252 3,265 93%

diff 187 3,330 95%

aggressive 298 3,219 92%

entropy 312 3,205 91%

────────────────────────────────────────

Quality: AST 98% | Idents 97% | Lines 96%

Encoding: tiktoken o200k_base | Time: 12ms

اختر الوضع المناسب لكل مهمة

أوضاع القراءة مقارنة بـ

full 0%

الملفات التي ستقوم بتحريرها

كل شيء - محتوى كامل مخزن لإعادة القراءة عند ~13 رمزًا

map 70-90%

ملفات السياق فقط

الكود: التبعيات + التصديرات + التوقيعات. غير الكود: المخططات الهيكلية (عناوين Markdown، مفاتيح JSON/YAML/TOML، ملخصات القفل)

signatures 55–93%

استكشاف واجهة برمجة التطبيقات (API surface)

توقيعات الدوال/الفئات/الأنواع فقط

diff 80–95%

بعد التعديلات

الأسطر المتغيرة بأقل سياق محيط

aggressive 75–90%

ملفات البنية التحتية (boilerplate) الكبيرة

الهيكل والمنطق، مع تجريد بناء الجملة

entropy 70–83%

الملفات الصاخبة (JSDoc، التعليقات)

أسطر ذات إنتروبيا عالية فقط (تصفية Shannon + Jaccard)

task 65–85%

القراءات المركزة على المهمة (مثل 'إصلاح خطأ المصادقة')

الكود ذو الصلة بالمهمة + سياق التبعيات عبر Knowledge Graph + فلتر IB

auto 70–99%

افتراضي - يختار LeanCTX الوضع الأفضل تلقائيًا

يتكيف حسب الملف: النوع، وحجم الدفعة، والحداثة، وملاءمة المهمة

reference 80–95%

توثيق واجهة برمجة التطبيقات والبحث المرجعي

واجهة برمجة تطبيقات عامة، أنواع، توقيعات، سلاسل التوثيق

lines:N-M 90–99%

قراءة نطاق أسطر محدد - دقة جراحية

الأسطر المطلوبة بالضبط، بالإضافة إلى الحد الأدنى من السياق المحيط

يختار ctx_smart_read من LeanCTX تلقائيًا الوضع الأمثل باستخدام التنبؤ البايزي بناءً على نوع الملف وحجمه والسياق.

المرحلة

خط أنابيب الضغط المتقدم

ما وراء اختيار الوضع، يطبق LeanCTX خط أنابيب تحسين متعدد المراحل يتكيف مع نوع الملف وسياق الجلسة وقصد المهمة:

Thompson Sampling 5–15%

يتعلم عتبات الضغط المثلى لكل نوع ملف باستخدام استكشاف السارق ذي الأذرع المتعددة (استكشاف مقابل استغلال)

AST Pruning 40–70%

تقليم واعي باللغة عبر Tree-sitter - يزيل أجساد الدوال، والتعليقات، والتكوينات النمطية مع الحفاظ على توقيعات واجهة برمجة التطبيقات

IDF Dedup 10–30%

إزالة التكرار عبر الملفات باستخدام تردد المستند العكسي - يقضي على المحتوى الذي شوهد بالفعل في الجلسة

IB Filter 15–25%

التصفية الواعية بالمهمة باستخدام مبدأ عنق الزجاجة للمعلومات - يحتفظ فقط بالمحتوى ذي الصلة بالمهمة الحالية

Verbatim Compaction 5–20%

يُقلص الهياكل المتكررة (الاستيرادات، أسطر السجل، التكوينات النمطية) إلى ملخصات محسوبة

هذه المراحل تراكمية - يتم تطبيقها بالتتابع، ويمكنها تقليل ملف من 1000 سطر إلى أقل من 50 رمزًا مع الحفاظ على جميع المعلومات ذات الصلة بالمهمة. خط الأنابيب تلقائي بالكامل ولا يتطلب أي تكوين.

حفظ مُتحقق منه

الضغط الجودة

عتبة الجودة (مركبة)

95%

يُستخدم الإخراج المضغوط فقط إذا بقيت درجة الجودة المركبة عند 95% أو أعلى.

الكثافة الدنيا

15%

يحظر المخرجات منخفضة المعلومات بحد أدنى لكثافة الإشارة يبلغ 15% (ρ).

الوزن

50/30/20

المركب = AST 50% + المعرفات 30% + الأسطر 20% - لذا، الهيكل هو الأكثر أهمية.

مبدأ كثافة المعلومات

لماذا يعني عدد رموز أقل = كثافة إشارة أعلى

تتمتع نماذج اللغة الكبيرة بميزانية انتباه ثابتة. يتنافس كل رمز في نافذة السياق على أوزان الانتباه. ملء النافذة بالتعليمات النمطية يعني اهتمامًا أقل بالكود المهم.

من خلال إزالة الضوضاء قبل وصولها إلى النموذج، يزيد LeanCTX من كثافة المعلومات لكل طلب. والنتيجة: نسبة إشارة إلى ضوضاء أعلى، وتخفيف سياقي أقل، ويظل النموذج ضمن حدود السياق المفيد.

نسبة إشارة إلى ضوضاء أعلى

تتفوق 10K رمز سياقي مركز على 200K من الكود النمطي (boilerplate). يركز النموذج انتباهه على المنطق بدلاً من تعليقات JSDoc والكود النمطي للاستيراد.

تقليل ضوضاء السياق

يخفف ضجيج السياق من نافذة انتباه النموذج. إزالته تساعد النموذج على البقاء متجذرًا في هيكل الكود الفعلي وتقلل من فرصة الهلوسة.

تكلفة أقل للإجابة الواحدة

تعني عدد رموز الإدخال الأقل تكاليف واجهة برمجة تطبيقات أقل والمزيد من الرسائل ضمن حدك المسموح به. الحصة نفسها تذهب أبعد - لكل أداة ذكاء اصطناعي تستخدمها.

أمثلة واقعية

تم القياس على رمز حقيقي

لقطات تمثيلية - ستختلف أرقامك حسب الملف وقاعدة التعليمات البرمجية.

مكون React 88%

450 سطرًا - وضع الخريطة

12,840 → 1,541

وحدة Rust 93%

820 سطرًا - وضع التوقيعات

18,290 → 1,280

واجهة برمجة تطبيقات Express 91%

1,200 سطر - الوضع العدواني

31,500 → 2,835

خط أنابيب ML بايثون 83%

680 سطرًا - وضع الإنتروبيا

15,400 → 2,618

ملف TypeScript التكويني 95%

340 سطرًا - وضع الفرق

8,750 → 437

الشفافية

المقاييس
المنهجية

كل رقم في هذه الصفحة قابل للاستنساخ. وإليك بالضبط كيف نقوم بالقياس.

Tokenizer

تستخدم جميع عدادات التوكنز tiktoken مع الترميز o200k_base، وهو نفس أداة الترميز المستخدمة بواسطة GPT-4o وClaude ونماذج اللغة الكبيرة الحديثة. لا تقديرات أو تقريبات.

عتبة الجودة

يُستخدم الإخراج المضغوط فقط إذا ظل مجموع درجة الجودة عند أو فوق 95%. المجموع = الحفاظ على AST (50%) + الحفاظ على المعرفات (30%) + تغطية السطور (20%).

إعادة الإنتاج محليًا

قم بتشغيل lean-ctx benchmark run src/ على قاعدة التعليمات البرمجية الخاصة بك. تُظهر المخرجات عدادات التوكنز الدقيقة لكل وضع ضغط، ونسبة التوفير، ودرجات الحفاظ على الجودة.

إخلاء المسؤولية

تختلف النتائج حسب نوع الملف وحجمه ولغته ووضع القراءة. يعكس نطاق "60-99%" التباين في العالم الحقيقي: تضغط الملفات المنظمة الصغيرة أكثر، بينما تضغط الملفات غير المنظمة الكبيرة أقل. تمثل عمليات إعادة القراءة المخزنة مؤقتًا (~13 توكن) أفضل حالة.

Our Own Overhead, Measured

Savings claims must be net of what LeanCTX itself injects. The fixed per-session footprint (advertised tool schemas + MCP instructions) is ~2.1K tokens, measured in an isolated environment with lean-ctx doctor overhead and enforced in CI via --gate — it can only shrink. lean-ctx gain reports savings net of this overhead.

Deterministic Self-Verify

lean-ctx benchmark dual-arm --json replays a pinned 15-turn agent session through a stateless arm and the long-lived proxy rail, prices both with real tokenizer counts and published per-model rates, and fingerprints the run with a BLAKE3 digest — anyone can reproduce the exact figures, no live model needed.

قياس توفيرك الفعلي.

ثبّت LeanCTX وقم بتشغيل benchmark run على قاعدة التعليمات البرمجية الخاصة بك. أرقام حقيقية، ملفاتك، وتوفيرك.

lean-ctx benchmark run src/

يعمل على أي قاعدة تعليمات برمجية. لا يتطلب تكوين. النتائج في ثوانٍ.

ابدأ الآن إضافة إلى النجوم على GitHub

لا تثق بـ.تحقق.

مقاس. مُتحقق.

العد الدقيق للرموز المميزة

حارس الجودة

قابل للاستنساخ

قبل و بعد

الإشارة. القياس. التحقق.

الإشارة إلى أي ملف أو دليل

قياس الرموز بدقة

التوفير حسب الوضع

Benchmark قيد العمل

أوضاع القراءة مقارنة بـ

خط أنابيب الضغط المتقدم

الضغط الجودة

لماذا يعني عدد رموز أقل = كثافة إشارة أعلى

تم القياس على رمز حقيقي

المقاييسالمنهجية

Tokenizer

عتبة الجودة

إعادة الإنتاج محليًا

إخلاء المسؤولية

Our Own Overhead, Measured

Deterministic Self-Verify

قياس توفيرك الفعلي.

لا تثق بـ.
تحقق.

المقاييس
المنهجية