Google-র TurboQuant কি সত্যিই কাজ করে? GitHub-এ প্রকাশিত ওপেন সোর্স ইমপ্লিমেন্টেশন ও ICLR 2026 পেপারের বেঞ্চমার্ক রিজাল্ট বিশ্লেষণ করে দেখা যাক — কম্প্রেশন, স্পিড ও নির্ভুলতায় TurboQuant কতটা কার্যকর। RTX 3090 ও RTX 5090 GPU-তে টেস্ট করা ডেটা সহ।
RTX 5090-তে পারফরম্যান্স — Qwen3.5-27B মডেল
| মেট্রিক | Baseline (bf16) | TurboQuant (3b key/2b val) |
|---|---|---|
| Prefill টোকেন/সেকেন্ড | ১,৮০৪ | ১,৯০৭ (+৫.৭%) |
| Decode টোকেন/সেকেন্ড | ১.২৬৪ | ১.৩০৩ (+৩.১%) |
| KV Cache মুক্ত মেমোরি | — | ৩০ GB |
| সর্বোচ্চ টোকেন ক্যাপাসিটি | ৪,৫৭,০৭২ | ৯,১৪,১৪৪ (২x) |
একটি RTX 5090 GPU-তে TurboQuant ৩০ GB মেমোরি বাঁচিয়ে টোকেন ক্যাপাসিটি দ্বিগুণ করেছে — মানে একই GPU-তে দ্বিগুণ লম্বা কনভারসেশন চালানো সম্ভব। Prefill ও Decode স্পিডও কমেনি, বরং কিছুটা বেড়েছে।
8x RTX 3090-তে MoE মডেল — ১,৩১,০০০ কনটেক্সটে
| কনটেক্সট দৈর্ঘ্য | Baseline KV/GPU | TurboQuant KV/GPU | সাশ্রয় |
|---|---|---|---|
| ৮,০০০ টোকেন | ৫৫.৭ MB | ৩৮.৫ MB | ৩০.৯% |
| ৩২,০০০ টোকেন | ১৯১.৫ MB | ১৩২.৩ MB | ৩০.৯% |
| ১,৩১,০০০ টোকেন | ৭৫৫.৭ MB | ৫২১.৯ MB | ৩০.৯% |
MoE (Mixture of Experts) মডেলে TurboQuant শুধু full-attention লেয়ার কম্প্রেস করে (linear-attention লেয়ার করা যায় না), তাই সাশ্রয় ৩০.৯%। Dense transformer মডেলে সাশ্রয় ৭৭% (৪.৪x কম্প্রেশন)। সবচেয়ে গুরুত্বপূর্ণ — ১,৩১,০০০ টোকেন কনটেক্সটেও Needle-in-Haystack টেস্টে সব needle পাওয়া গেছে — নির্ভুলতা অক্ষুণ্ণ।
H100 GPU-তে Attention স্পিড — ৮x দ্রুত
Google Research-র পেপার অনুযায়ী H100 GPU-তে ৪-bit TurboQuant ৩২-bit unquantized keys-এর তুলনায় ৮x পর্যন্ত দ্রুত attention logits গণনা করে। এটি JAX baseline-এর বিরুদ্ধে মাপা হয়েছে। ৩-bit-এও ৬x+ স্পিডআপ পাওয়া গেছে। মানে একই হার্ডওয়্যারে আরও বেশি ইউজার সার্ভ করা সম্ভব।
নির্ভুলতা যাচাই — LongBench ও Needle-in-Haystack
| টেস্ট | ফলাফল |
|---|---|
| LongBench (QA, কোড, সামারি) | Baseline-এর সমান স্কোর |
| Needle-in-Haystack | সব দৈর্ঘ্যে PASS |
| ৫-Needle মাল্টি-ফ্যাক্ট | ৫/৫ পাওয়া গেছে |
| Golden Ratio Completion | Perplexity ১.০৫–১.৩৫ |
| Key Compression cos_sim (৩-bit) | ১.০০০০০০ (শূন্য ক্ষতি) |
৩-bit key compression-এ cosine similarity ১.০০০০০০ — কার্যত শূন্য ক্ষতি। তবে ২-bit value quantization-এ cos_sim ০.৯৪০ — এটি bottleneck। ৪-bit value ব্যবহার করলে cos_sim ০.৯৯৭ — quality-sensitive কাজে এটি সুপারিশযোগ্য।
সীমাবদ্ধতা — সৎ মূল্যায়ন
GitHub-র Adversarial Audit অনুযায়ী কিছু সতর্কতা — ১) “৫.১x কম্প্রেশন” দাবিতে Pi/S matrices ও ring buffer গণনা করা হয়নি — সৎ কম্প্রেশন ~৪.৬x (৪k টোকেন) থেকে ~৫x (৩২k+)। ২) ২-bit value quantization quality bottleneck — quality-sensitive কাজে ৪-bit ব্যবহার করুন। ৩) MoE ও linear-attention মডেলে সুবিধা কম। ৪) Hybrid decode-এ সব compressed token float32-এ expand হয় — fused Triton kernels এখনও পুরোপুরি ইন্টিগ্রেটেড নয়। তবু, এই সীমাবদ্ধতা সত্ত্বেও TurboQuant বর্তমানে সেরা KV cache compression পদ্ধতি।
উপসংহার
বেঞ্চমার্ক স্পষ্ট — TurboQuant ৬x মেমোরি সাশ্রয়, ৮x স্পিড বৃদ্ধি ও শূন্য নির্ভুলতা ক্ষতি (৩-bit key) প্রমাণ করেছে। RTX 3090 থেকে H100 পর্যন্ত কাজ করে। কিছু সীমাবদ্ধতা আছে, কিন্তু ওপেন সোর্স হওয়ায় কমিউনিটি সেগুলো সমাধান করবে। আরও জানতে TurboQuant কী — সহজ ব্যাখ্যা পড়ুন।
TurboQuant কত কম্প্রেশন দেয়?
Dense transformer-এ ৪.৪x–৫x কম্প্রেশন, KV Cache মেমোরি ৬x পর্যন্ত কম।
TurboQuant-এ নির্ভুলতা কমে কি?
৩-bit key-তে cosine similarity ১.০০০০০০ — শূন্য ক্ষতি। ২-bit value-তে কিছুটা কমে (০.৯৪০), ৪-bit-এ প্রায় শূন্য ক্ষতি (০.৯৯৭)।
কোন GPU-তে TurboQuant কাজ করে?
RTX 3090, RTX 5090 ও H100 GPU-তে পরীক্ষিত। vLLM 0.18.0, PyTorch 2.10, CUDA 12.8 সাপোর্ট করে।






