Google-র TurboQuant কীভাবে AI মডেলের মেমোরি ৬ গুণ কমায়? এটা জাদু নয়, বরং দুটো গাণিতিকভাবে প্রমাণিত প্রযুক্তির সংমিশ্রণ — PolarQuant ও QJL (Quantized Johnson-Lindenstrauss)। সহজ উদাহরণ সহ বুঝুন প্রতিটি ধাপ কীভাবে কাজ করে এবং কেন এটি আগের কম্প্রেশন পদ্ধতির চেয়ে ভালো।

ধাপ ১: PolarQuant — “কার্তেসিয়ান থেকে পোলার”-এ রূপান্তর

সাধারণত ডেটা কার্তেসিয়ান কোঅর্ডিনেটে (X, Y, Z) সংরক্ষিত হয় — যেমন “৩ ব্লক পূর্বে, ৪ ব্লক উত্তরে”। PolarQuant প্রথমে ডেটাকে পোলার কোঅর্ডিনেটে রূপান্তরিত করে — “৫ ব্লক দূরে, ৩৭ ডিগ্রি কোণে”। এতে দুটো তথ্য পাওয়া যায়: ব্যাসার্ধ (ডেটার শক্তি কতটা) ও কোণ (ডেটার অর্থ/দিক কোনটি)। কোণগুলো একটি পরিচিত, ঘনীভূত প্যাটার্ন অনুসরণ করে — তাই সেগুলো খুব দক্ষভাবে কম্প্রেস করা যায়। সবচেয়ে গুরুত্বপূর্ণ — PolarQuant-এ “নরমালাইজেশন” ধাপ বাদ পড়ে (যা অন্যান্য পদ্ধতিতে প্রতিটি ব্লকে ১–২ বিট অতিরিক্ত মেমোরি খায়)। ফলে মেমোরি ওভারহেড শূন্য

ধাপ ২: QJL — ১ বিটে ত্রুটি শূন্য

PolarQuant-এ কম্প্রেশনের পর যে সামান্য ত্রুটি থাকে, সেটি দূর করতে আসে QJL (Quantized Johnson-Lindenstrauss)। এটি একটি গাণিতিক কৌশল যা প্রতিটি সংখ্যাকে শুধু +১ বা -১ (একটি মাত্র বিট) হিসেবে প্রকাশ করে। শুনতে অদ্ভুত লাগলেও, এটি ডেটা পয়েন্টগুলোর মধ্যকার দূরত্ব ও সম্পর্ক সংরক্ষণ করে — Johnson-Lindenstrauss Transform-এর গাণিতিক প্রমাণ অনুযায়ী। QJL একটি বিশেষ unbiased estimator ব্যবহার করে — হাই-প্রিসিশন কোয়েরির সাথে লো-প্রিসিশন ডেটা মিলিয়ে সঠিক attention score বের করে। ফলে শূন্য মেমোরি ওভারহেড ও শূন্য bias

TurboQuant = PolarQuant + QJL — দুটো মিলে কী হয়?

TurboQuant প্রথমে ডেটা ভেক্টরকে র‍্যান্ডমলি ঘোরায় (random orthogonal rotation) — এতে ডেটার জ্যামিতি সরল হয়। তারপর PolarQuant মূল কম্প্রেশন করে (বেশিরভাগ বিট ব্যবহার করে)। শেষে QJL মাত্র ১ বিট ব্যবহার করে বাকি ত্রুটি দূর করে। তিন ধাপ মিলে ফলাফল — ৩ বিটে কম্প্রেস করা ডেটা যা ৩২ বিটের সমান নির্ভুলGitHub-এ ওপেন সোর্স কোড পাওয়া যায় যেখানে Lloyd-Max optimal scalar quantizer, Triton kernels ও vLLM ইন্টিগ্রেশন দেওয়া আছে।

আগের পদ্ধতির চেয়ে কেন ভালো?

বিষয়পুরনো QuantizationTurboQuant
মেমোরি ওভারহেড১–২ বিট/সংখ্যা অতিরিক্তশূন্য
নরমালাইজেশনপ্রতি ব্লকে দরকারদরকার নেই
ট্রেনিংমডেল ফাইন-টিউনিং লাগেলাগে না
কম্প্রেশন (KV Cache)৪–৮ বিট৩ বিট
নির্ভুলতা ক্ষতিকিছুটা থাকেশূন্য
গাণিতিক প্রমাণবেশিরভাগে নেইICLR 2026 পেপারে প্রমাণিত

উপসংহার

TurboQuant শুধু একটি ইঞ্জিনিয়ারিং সমাধান নয় — গাণিতিকভাবে প্রমাণিত (Theorems 1–3), শূন্য ওভারহেড ও শূন্য নির্ভুলতা ক্ষতি সহ কম্প্রেশন অ্যালগরিদম। PolarQuant কোণ-ভিত্তিক কম্প্রেশন ও QJL-র ১-বিট ত্রুটি সংশোধন মিলে এটি AI কম্প্রেশনের নতুন মানদণ্ড। আরও জানতে TurboQuant কী — সহজ ব্যাখ্যা পড়ুন।

PolarQuant কী?

ডেটাকে কার্তেসিয়ান থেকে পোলার কোঅর্ডিনেটে রূপান্তরিত করে কম্প্রেস করার পদ্ধতি — মেমোরি ওভারহেড শূন্য।

QJL কী?

Quantized Johnson-Lindenstrauss — মাত্র ১ বিট ব্যবহার করে কম্প্রেশনের ত্রুটি দূর করে, শূন্য bias সহ।

TurboQuant-এ কি মডেল ফাইন-টিউনিং লাগে?

না, TurboQuant training-free — মডেল পরিবর্তন ছাড়াই সরাসরি কাজ করে।

TurboQuant কি গাণিতিকভাবে প্রমাণিত?

হ্যাঁ, ICLR 2026 পেপারে Theorem 1–3 দিয়ে distortion bounds, unbiasedness ও scaling প্রমাণিত।

Leave a Comment