Google-র TurboQuant কীভাবে AI মডেলের মেমোরি ৬ গুণ কমায়? এটা জাদু নয়, বরং দুটো গাণিতিকভাবে প্রমাণিত প্রযুক্তির সংমিশ্রণ — PolarQuant ও QJL (Quantized Johnson-Lindenstrauss)। সহজ উদাহরণ সহ বুঝুন প্রতিটি ধাপ কীভাবে কাজ করে এবং কেন এটি আগের কম্প্রেশন পদ্ধতির চেয়ে ভালো।
ধাপ ১: PolarQuant — “কার্তেসিয়ান থেকে পোলার”-এ রূপান্তর
সাধারণত ডেটা কার্তেসিয়ান কোঅর্ডিনেটে (X, Y, Z) সংরক্ষিত হয় — যেমন “৩ ব্লক পূর্বে, ৪ ব্লক উত্তরে”। PolarQuant প্রথমে ডেটাকে পোলার কোঅর্ডিনেটে রূপান্তরিত করে — “৫ ব্লক দূরে, ৩৭ ডিগ্রি কোণে”। এতে দুটো তথ্য পাওয়া যায়: ব্যাসার্ধ (ডেটার শক্তি কতটা) ও কোণ (ডেটার অর্থ/দিক কোনটি)। কোণগুলো একটি পরিচিত, ঘনীভূত প্যাটার্ন অনুসরণ করে — তাই সেগুলো খুব দক্ষভাবে কম্প্রেস করা যায়। সবচেয়ে গুরুত্বপূর্ণ — PolarQuant-এ “নরমালাইজেশন” ধাপ বাদ পড়ে (যা অন্যান্য পদ্ধতিতে প্রতিটি ব্লকে ১–২ বিট অতিরিক্ত মেমোরি খায়)। ফলে মেমোরি ওভারহেড শূন্য।
ধাপ ২: QJL — ১ বিটে ত্রুটি শূন্য
PolarQuant-এ কম্প্রেশনের পর যে সামান্য ত্রুটি থাকে, সেটি দূর করতে আসে QJL (Quantized Johnson-Lindenstrauss)। এটি একটি গাণিতিক কৌশল যা প্রতিটি সংখ্যাকে শুধু +১ বা -১ (একটি মাত্র বিট) হিসেবে প্রকাশ করে। শুনতে অদ্ভুত লাগলেও, এটি ডেটা পয়েন্টগুলোর মধ্যকার দূরত্ব ও সম্পর্ক সংরক্ষণ করে — Johnson-Lindenstrauss Transform-এর গাণিতিক প্রমাণ অনুযায়ী। QJL একটি বিশেষ unbiased estimator ব্যবহার করে — হাই-প্রিসিশন কোয়েরির সাথে লো-প্রিসিশন ডেটা মিলিয়ে সঠিক attention score বের করে। ফলে শূন্য মেমোরি ওভারহেড ও শূন্য bias।
TurboQuant = PolarQuant + QJL — দুটো মিলে কী হয়?
TurboQuant প্রথমে ডেটা ভেক্টরকে র্যান্ডমলি ঘোরায় (random orthogonal rotation) — এতে ডেটার জ্যামিতি সরল হয়। তারপর PolarQuant মূল কম্প্রেশন করে (বেশিরভাগ বিট ব্যবহার করে)। শেষে QJL মাত্র ১ বিট ব্যবহার করে বাকি ত্রুটি দূর করে। তিন ধাপ মিলে ফলাফল — ৩ বিটে কম্প্রেস করা ডেটা যা ৩২ বিটের সমান নির্ভুল। GitHub-এ ওপেন সোর্স কোড পাওয়া যায় যেখানে Lloyd-Max optimal scalar quantizer, Triton kernels ও vLLM ইন্টিগ্রেশন দেওয়া আছে।
আগের পদ্ধতির চেয়ে কেন ভালো?
| বিষয় | পুরনো Quantization | TurboQuant |
|---|---|---|
| মেমোরি ওভারহেড | ১–২ বিট/সংখ্যা অতিরিক্ত | শূন্য |
| নরমালাইজেশন | প্রতি ব্লকে দরকার | দরকার নেই |
| ট্রেনিং | মডেল ফাইন-টিউনিং লাগে | লাগে না |
| কম্প্রেশন (KV Cache) | ৪–৮ বিট | ৩ বিট |
| নির্ভুলতা ক্ষতি | কিছুটা থাকে | শূন্য |
| গাণিতিক প্রমাণ | বেশিরভাগে নেই | ICLR 2026 পেপারে প্রমাণিত |
উপসংহার
TurboQuant শুধু একটি ইঞ্জিনিয়ারিং সমাধান নয় — গাণিতিকভাবে প্রমাণিত (Theorems 1–3), শূন্য ওভারহেড ও শূন্য নির্ভুলতা ক্ষতি সহ কম্প্রেশন অ্যালগরিদম। PolarQuant কোণ-ভিত্তিক কম্প্রেশন ও QJL-র ১-বিট ত্রুটি সংশোধন মিলে এটি AI কম্প্রেশনের নতুন মানদণ্ড। আরও জানতে TurboQuant কী — সহজ ব্যাখ্যা পড়ুন।
PolarQuant কী?
ডেটাকে কার্তেসিয়ান থেকে পোলার কোঅর্ডিনেটে রূপান্তরিত করে কম্প্রেস করার পদ্ধতি — মেমোরি ওভারহেড শূন্য।
QJL কী?
Quantized Johnson-Lindenstrauss — মাত্র ১ বিট ব্যবহার করে কম্প্রেশনের ত্রুটি দূর করে, শূন্য bias সহ।
TurboQuant-এ কি মডেল ফাইন-টিউনিং লাগে?
না, TurboQuant training-free — মডেল পরিবর্তন ছাড়াই সরাসরি কাজ করে।
TurboQuant কি গাণিতিকভাবে প্রমাণিত?
হ্যাঁ, ICLR 2026 পেপারে Theorem 1–3 দিয়ে distortion bounds, unbiasedness ও scaling প্রমাণিত।






