Google-র TurboQuant কি সত্যিই কাজ করে? GitHub-এ প্রকাশিত ওপেন সোর্স ইমপ্লিমেন্টেশন ও ICLR 2026 পেপারের বেঞ্চমার্ক রিজাল্ট বিশ্লেষণ করে দেখা যাক — কম্প্রেশন, স্পিড ও নির্ভুলতায় TurboQuant কতটা কার্যকর। RTX 3090 ও RTX 5090 GPU-তে টেস্ট করা ডেটা সহ।

RTX 5090-তে পারফরম্যান্স — Qwen3.5-27B মডেল

মেট্রিকBaseline (bf16)TurboQuant (3b key/2b val)
Prefill টোকেন/সেকেন্ড১,৮০৪১,৯০৭ (+৫.৭%)
Decode টোকেন/সেকেন্ড১.২৬৪১.৩০৩ (+৩.১%)
KV Cache মুক্ত মেমোরি৩০ GB
সর্বোচ্চ টোকেন ক্যাপাসিটি৪,৫৭,০৭২৯,১৪,১৪৪ (২x)

একটি RTX 5090 GPU-তে TurboQuant ৩০ GB মেমোরি বাঁচিয়ে টোকেন ক্যাপাসিটি দ্বিগুণ করেছে — মানে একই GPU-তে দ্বিগুণ লম্বা কনভারসেশন চালানো সম্ভব। Prefill ও Decode স্পিডও কমেনি, বরং কিছুটা বেড়েছে।

8x RTX 3090-তে MoE মডেল — ১,৩১,০০০ কনটেক্সটে

কনটেক্সট দৈর্ঘ্যBaseline KV/GPUTurboQuant KV/GPUসাশ্রয়
৮,০০০ টোকেন৫৫.৭ MB৩৮.৫ MB৩০.৯%
৩২,০০০ টোকেন১৯১.৫ MB১৩২.৩ MB৩০.৯%
১,৩১,০০০ টোকেন৭৫৫.৭ MB৫২১.৯ MB৩০.৯%

MoE (Mixture of Experts) মডেলে TurboQuant শুধু full-attention লেয়ার কম্প্রেস করে (linear-attention লেয়ার করা যায় না), তাই সাশ্রয় ৩০.৯%। Dense transformer মডেলে সাশ্রয় ৭৭% (৪.৪x কম্প্রেশন)। সবচেয়ে গুরুত্বপূর্ণ — ১,৩১,০০০ টোকেন কনটেক্সটেও Needle-in-Haystack টেস্টে সব needle পাওয়া গেছে — নির্ভুলতা অক্ষুণ্ণ।

H100 GPU-তে Attention স্পিড — ৮x দ্রুত

Google Research-র পেপার অনুযায়ী H100 GPU-তে ৪-bit TurboQuant ৩২-bit unquantized keys-এর তুলনায় ৮x পর্যন্ত দ্রুত attention logits গণনা করে। এটি JAX baseline-এর বিরুদ্ধে মাপা হয়েছে। ৩-bit-এও ৬x+ স্পিডআপ পাওয়া গেছে। মানে একই হার্ডওয়্যারে আরও বেশি ইউজার সার্ভ করা সম্ভব

নির্ভুলতা যাচাই — LongBench ও Needle-in-Haystack

টেস্টফলাফল
LongBench (QA, কোড, সামারি)Baseline-এর সমান স্কোর
Needle-in-Haystackসব দৈর্ঘ্যে PASS
৫-Needle মাল্টি-ফ্যাক্ট৫/৫ পাওয়া গেছে
Golden Ratio CompletionPerplexity ১.০৫–১.৩৫
Key Compression cos_sim (৩-bit)১.০০০০০০ (শূন্য ক্ষতি)

৩-bit key compression-এ cosine similarity ১.০০০০০০ — কার্যত শূন্য ক্ষতি। তবে ২-bit value quantization-এ cos_sim ০.৯৪০ — এটি bottleneck। ৪-bit value ব্যবহার করলে cos_sim ০.৯৯৭ — quality-sensitive কাজে এটি সুপারিশযোগ্য।

সীমাবদ্ধতা — সৎ মূল্যায়ন

GitHub-র Adversarial Audit অনুযায়ী কিছু সতর্কতা — ১) “৫.১x কম্প্রেশন” দাবিতে Pi/S matrices ও ring buffer গণনা করা হয়নি — সৎ কম্প্রেশন ~৪.৬x (৪k টোকেন) থেকে ~৫x (৩২k+)। ২) ২-bit value quantization quality bottleneck — quality-sensitive কাজে ৪-bit ব্যবহার করুন। ৩) MoE ও linear-attention মডেলে সুবিধা কম। ৪) Hybrid decode-এ সব compressed token float32-এ expand হয় — fused Triton kernels এখনও পুরোপুরি ইন্টিগ্রেটেড নয়। তবু, এই সীমাবদ্ধতা সত্ত্বেও TurboQuant বর্তমানে সেরা KV cache compression পদ্ধতি

উপসংহার

বেঞ্চমার্ক স্পষ্ট — TurboQuant ৬x মেমোরি সাশ্রয়, ৮x স্পিড বৃদ্ধি ও শূন্য নির্ভুলতা ক্ষতি (৩-bit key) প্রমাণ করেছে। RTX 3090 থেকে H100 পর্যন্ত কাজ করে। কিছু সীমাবদ্ধতা আছে, কিন্তু ওপেন সোর্স হওয়ায় কমিউনিটি সেগুলো সমাধান করবে। আরও জানতে TurboQuant কী — সহজ ব্যাখ্যা পড়ুন।

TurboQuant কত কম্প্রেশন দেয়?

Dense transformer-এ ৪.৪x–৫x কম্প্রেশন, KV Cache মেমোরি ৬x পর্যন্ত কম।

TurboQuant-এ নির্ভুলতা কমে কি?

৩-bit key-তে cosine similarity ১.০০০০০০ — শূন্য ক্ষতি। ২-bit value-তে কিছুটা কমে (০.৯৪০), ৪-bit-এ প্রায় শূন্য ক্ষতি (০.৯৯৭)।

কোন GPU-তে TurboQuant কাজ করে?

RTX 3090, RTX 5090 ও H100 GPU-তে পরীক্ষিত। vLLM 0.18.0, PyTorch 2.10, CUDA 12.8 সাপোর্ট করে।

Leave a Comment