LLM API کے اخراجات کو آدھا کرنا: 2026 میں پروڈکشن ورک لوڈز کے لیے ماڈل راؤٹنگ گائیڈ

آپ کے بل میں چھپا ہوا لاگت کا مسئلہ

اپنے پروڈکشن کوڈ میں ماڈل کے پیرامیٹر پر نظر ڈالیں۔ زیادہ تر ٹیموں کے لیے جن کی LLM ورک لوڈ پروٹو ٹائپ سے نکل کر حقیقی ٹریفک تک پہنچ چکی ہے، یہ پیرامیٹر ایک بار سیٹ ہوتا ہے (عام طور پر اس وقت دستیاب سب سے طاقتور ماڈل پر) اور پھر دوبارہ کبھی نہیں دیکھا جاتا۔ ہر کوئری، پیچیدگی سے قطع نظر، اسی ماڈل پر جاتی ہے۔ اور یہی وہ جگہ ہے جہاں خاموش اخراجاتی تجاوز چھپا ہوتا ہے۔

کسی بھی غیر معمولی پروڈکشن ورک لوڈ میں، کوئریز یکساں طور پر مشکل نہیں ہوتیں۔ ایک کسٹمر سپورٹ اسسٹنٹ کو 80% کوئریز مل سکتی ہیں جو سادہ لوک اپس، کلاسیفیکیشنز، یا مختصر فالو اپس ہوتی ہیں، اور 20% جنہیں واقعی فرنٹیئر ریزننگ کی ضرورت ہوتی ہے۔ ایک کوڈنگ اسسٹنٹ مسلسل چھوٹے ریفیکٹرز سنبھال سکتا ہے اور ساتھ ہی ملٹی فائل آرکیٹیکچرل تبدیلیوں کی لمبی ٹیل۔ ایک کانٹینٹ پائپ لائن ہر اُس کام کے مقابلے میں سینکڑوں سمریزیشن ٹاسکس پروسس کر سکتی ہے جسے ساختہ تخلیقی تحریر درکار ہو۔ کام کی شکل غیر ہموار ہے، مگر ماڈل کی طرف روٹنگ یکساں ہے۔

اگر آپ آج GPT-5.5 پر ماہانہ 100M tokens چلا رہے ہیں اور ان میں سے 70% کوئریز سستے ماڈل سے اتنی ہی اچھی طرح حل ہو سکتی ہیں، تو آپ تقریباً $600 ماہانہ اُس قابلیت کے لیے ادا کر رہے ہیں جسے آپ استعمال نہیں کر رہے۔ زیادہ حجم پر یہی پیٹرن لکیری انداز میں بڑھتا ہے: ہر 1B tokens پر، غیر روٹڈ سیٹ اپ اور روٹڈ سیٹ اپ کے درمیان فرق ماہانہ کئی ہزار ڈالر بنتا ہے۔

روٹنگ اس عدم توازن کا انجینئرنگ جواب ہے۔ اصول سادہ ہے: ہر کوئری کو اُس سستے ماڈل پر بھیجیں جو اسے سنبھال سکے، اور صرف ضرورت پڑنے پر زیادہ باصلاحیت ماڈل کی طرف ایسکلیٹ کریں۔ نفاذ میں ہی اصل سمجھوتے ہوتے ہیں، اور زیادہ تر شائع شدہ رہنما ان کا مناسب احاطہ نہیں کرتے۔ یہ تحریر تین ایسے پیٹرنز پر روشنی ڈالتی ہے جو پروڈکشن میں واقعی کام کرتے ہیں، وہ لاگت کا حساب جس سے کیس مضبوط بنتا ہے، وہ فیلئر موڈز جو آپ کو پکڑ سکتے ہیں، اور ایک مائیگریشن پلے بک جس سے آپ واحد ماڈل سیٹ اپ سے روٹڈ سیٹ اپ کی طرف بغیر اپنی ایپلیکیشن دوبارہ لکھے جا سکتے ہیں۔

اس مضمون میں جس قیمتوں کے ڈیٹا کا حوالہ دیا گیا ہے وہ ہمراہ تحریر (The 2026 LLM API pricing comparison) سے آتا ہے، جو پورے متن میں حوالہ دی گئی فی ماڈل ریٹس قائم کرتی ہے۔ جہاں بھی اس گائیڈ میں لاگت کا عدد درج ہے، وہ اسی ڈیٹا سے ماخوذ ہے۔

وہ تین روٹنگ پیٹرنز جو پروڈکشن میں کام کرتے ہیں

LLM ٹریفک کی روٹنگ کے تین قائم شدہ پیٹرنز ہیں۔ ان میں نفاذی پیچیدگی، لیٹنسی اوورہیڈ، اور ان بچتوں کی نوعیت میں فرق ہوتا ہے جنہیں یہ ممکن بناتے ہیں۔ زیادہ تر پروڈکشن سسٹمز بالآخر تینوں کا امتزاج استعمال کرتے ہیں؛ ہر ایک کی طاقت سمجھنا آپ کو کام کے ترتیب دینے میں مدد دیتا ہے۔

پیٹرن 1: جامد قواعد

سب سے سادہ پیٹرن۔ آپ ایسے قواعد لکھتے ہیں جو درخواست کی قابلِ مشاہدہ خصوصیات کی بنیاد پر کوئریز کو مختلف ماڈلز پر روٹ کرتے ہیں: ان پٹ کی لمبائی، یوزر ٹئیر، کوئری کی قسم (اگر آپ کے پاس پہلے سے کلاسیفائر ہے)، API اینڈ پوائنٹ، یا بزنس لاجک۔ مختصر کوئریز سستے ماڈل پر؛ طویل کوئریز مضبوط ماڈل پر۔ فری ٹئیر یوزرز کو سستا ماڈل؛ پیڈ یوزرز کو مہنگا ماڈل۔ کوڈ جنریشن کی درخواستیں کوڈ ٹیو نڈ ماڈل پر؛ باقی سب جنرل پرپس ماڈل پر۔

جامد روٹنگ قابلِ پیش گوئی، ڈیبگ ایبل، اور عملاً صفر لیٹنسی اوورہیڈ رکھتی ہے: روٹنگ کا فیصلہ چند لائنوں کے مقامی کوڈ میں ہوتا ہے۔ حدِ بالا بھی کم ہے: آپ اُن خصوصیات پر روٹنگ کرتے ہیں جو ماڈل کے چلنے سے پہلے مشاہدہ ہو سکتی ہیں، یعنی آپ "کوئری حقیقتاً کتنی مشکل ہے" پر روٹنگ نہیں کر سکتے کیونکہ وہ ابھی معلوم نہیں۔ ایسے ورک لوڈز میں جہاں ان پٹ کی خصوصیات مشکل سے اچھی طرح منسلک ہوں (طویل دستاویزات عموماً مشکل؛ کوڈ عموماً نثر سے مختلف؛ پیڈ یوزرز کی کوئریز عموماً زیادہ مطالبہ رکھتی ہیں)، جامد قواعد بہت کم انجینئرنگ محنت سے دستیاب بچت کا 30–50% پکڑ سکتے ہیں۔

پیٹرن 2: کاسکیڈ

سب سے وسیع الاطلاق پیٹرن۔ آپ پہلے کوئری کو سستے ماڈل پر بھیجتے ہیں؛ اگر جواب معیار کی حد پر پورا اترتا ہے تو وہی واپس کرتے ہیں؛ اگر نہیں، تو زیادہ باصلاحیت ماڈل کی طرف ایسکلیٹ کرتے ہیں اور اس کا جواب استعمال کرتے ہیں۔ بچت اس لیے ہے کہ جن کوئریز کو سستا ماڈل سنبھال لیتا ہے، ان پر آپ سستے ماڈل کی ہی قیمت ادا کرتے ہیں۔

کاسکیڈ پیٹرن کی امتیازی خصوصیت یہ ہے کہ روٹنگ کا فیصلہ ماڈل کے آؤٹ پٹ سے آگاہ ہوتا ہے، صرف ان پٹ سے نہیں: آپ سستے ماڈل کو کام کرنے دیتے ہیں، پھر جانچتے ہیں کہ کوشش کافی اچھی تھی یا نہیں۔ یہ جانچ کئی طریقوں سے کی جا سکتی ہے: خود ماڈل کے کانفیڈنس اسکورز، ساختہ آؤٹ پٹ کی توثیق (کیا جواب متوقع اسکیما کے مطابق پارس ہوتا ہے؟)، خود جانچ پرامپٹس (کسی چھوٹے ماڈل سے پوچھنا کہ کیا جواب سوال کا جواب دیتا ہے)، یا ڈاؤن اسٹریم رویے کے سگنلز (کیا یوزر نے جواب قبول کیا یا دوبارہ پوچھا؟)۔

کاسکیڈ وہ پیٹرن ہے جسے زیادہ تر پروڈکشن سسٹمز بالآخر اپناتے ہیں کیونکہ یہ اُن بچتوں کو بھی پکڑ لیتا ہے جو جامد قواعد نہیں کر سکتے۔ سمجھوتہ یہ ہے کہ جو کوئریز ایسکلیٹ ہوتی ہیں، اُن پر آپ سستے ماڈل کی کال بھی دیتے ہیں اور فلیگ شپ کی بھی، اس لیے بچت اس پر منحصر ہے کہ کتنی کوئریز سستے درجے پر کامیاب ہوتی ہیں۔ اسی پیٹرن پر ہم اس مضمون میں آگے تفصیل سے کام کرتے ہیں۔

پیٹرن 3: کلاسیفائر مبنی روٹنگ

سب سے زیادہ ممکنہ فائدہ اور سب سے زیادہ انجینئرنگ کی سرمایہ کاری۔ ایک چھوٹا، تیز ماڈل (اکثر کسی سب-فرنٹیئر ماڈل کا فائن ٹیونڈ ورژن، یا ایک ڈیدی کیٹڈ کلاسیفائر) ہر آنے والی کوئری کو دیکھتا ہے اور اندازہ لگاتا ہے کہ کون سا ڈاؤن اسٹریم ماڈل اسے سنبھالے۔ کلاسیفائر کوئری کی قسم پر فیصلہ کر سکتا ہے ("یہ کوڈ جنریشن ٹاسک لگ رہا ہے؛ کوڈ ٹیونڈ ماڈل پر روٹ کرو")، مشکل کے اندازے پر ("یہ مشکل ریزننگ کوئری ہے؛ GPT-5.5 پر روٹ کرو")، یا تاریخی ٹریفک اور نتائج پر تربیت یافتہ لرنڈ روٹنگ پالیسی پر۔

کلاسیفائر مبنی روٹنگ کاسکیڈ سے بہتر کارکردگی دکھا سکتی ہے کیونکہ روٹنگ کا فیصلہ کسی مہنگے ماڈل کے چلنے سے پہلے ہوتا ہے، لہٰذا آپ اُن کوئریز پر سستے ماڈل کا "ٹیکس" نہیں دیتے جو ویسے بھی فلیگ شپ پر جانا تھیں۔ قیمت وہ انجینئرنگ محنت ہے جو کلاسیفائر بنانے، ٹرین کرنے اور برقرار رکھنے پر لگتی ہے، ساتھ ہی روٹنگ کال کی معمولی لیٹنسی۔ بہت ہائی والیوم ورک لوڈز میں یہ سمجھوتہ اپنا خرچ پورا کر دیتا ہے؛ چھوٹے ورک لوڈز میں عموماً نہیں۔

شروع کس پیٹرن سے کریں: اگر آپ کے ورک لوڈ میں واضح روٹنگ سگنلز ہیں (ان پٹ لمبائی، یوزر ٹئیر، اینڈ پوائنٹ) تو پہلے جامد قواعد۔ اگر نہیں، یا جب آپ واضح جامد قواعد سے بچت نچوڑ چکیں تو کاسکیڈ۔ کلاسیفائر مبنی تبھی جب جامد اور کاسکیڈ دونوں موجود ہوں اور ورک لوڈ کا حجم انجینئرنگ سرمایہ کاری کو جائز ٹھہراتا ہو۔ سیدھا کلاسیفائر مبنی پر جانا کلاسک اوور انجینئرنگ جال ہے جس پر اکثر ٹیمیں پچھتاتی ہیں۔

روٹنگ شروع کرنے سے پہلے کیا ناپیں

جس چیز کی پیمائش نہیں، اسے آپ بہتر نہیں کر سکتے۔ پروڈکشن سسٹم میں کوئی بھی روٹنگ لاجک شامل کرنے سے پہلے، موجودہ واحد ماڈل ورک لوڈ کو اس طرح انسٹرومنٹ کریں کہ آپ کے پاس موازنہ کے لیے بیس لائن ہو۔ انسٹرومنٹیشن پیچیدہ ہونے کی ضرورت نہیں: ہر درخواست کا سادہ لاگ جس میں چند فیلڈز ہوں، آغاز کے لیے کافی ہے۔

کم از کم مفید انسٹرومنٹیشن:

فی درخواست: استعمال شدہ ماڈل، ان پٹ ٹوکن گنتی، آؤٹ پٹ ٹوکن گنتی، لاگت (ٹوکن گنتی اور ریٹ کارڈ سے حساب)، اینڈ ٹو اینڈ لیٹنسی، ریسپانس اسٹیٹس (success / error / partial)، اور اگر موجود ہو تو کوئری-ٹائپ لیبل۔
فی مکالمہ یا فی صارف: سیشن کی مدت، ری ٹرائی گنتی (اس بات کا سگنل کہ یوزر نے پہلا جواب قبول نہیں کیا)، فالو اپ کی شرح (سگنل کہ جواب کو وضاحت درکار تھی)۔
ایک ہیلڈ آؤٹ ایویلیوایشن سیٹ: 100–500 نمائندہ کوئریز جنہیں آپ کسی بھی ماڈل پر دوبارہ چلا سکیں، معتمد حوالہ جاتی آؤٹ پٹس کے ساتھ۔ یہی طریقہ ہے جس سے آپ ناپتے ہیں کہ کوئی امیدوار سستا ماڈل آپ کے ورک لوڈ پر قابلِ قبول معیار دیتا ہے یا نہیں۔ اس کے بغیر، ہر روٹنگ فیصلہ اندازہ ہے۔

ایویلیوایشن سیٹ وہ جگہ ہے جہاں اکثر ٹیمیں کم سرمایہ کاری کرتی ہیں، اور یہ کسی بھی روٹنگ پروجیکٹ کے لیے سب سے زیادہ لیوریج والا انفراسٹرکچر ہے۔ Promptfoo یا Helicone evals جیسے ہلکے ٹولز تیزی سے اسے قائم کر سکتے ہیں؛ ابتدائی مرحلے کے ورک لوڈز کے لیے، 50 کوئریز کا ہاتھ سے مرتب کردہ سیٹ اور دستی گریڈنگ بھی شروع کرنے کو کافی ہے۔

انسٹرومنٹیشن کے بعد، موجودہ ورک لوڈ کو کم از کم ایک ہفتہ اسی طرح چلائیں تاکہ بیس لائن قائم ہو۔ ڈیٹا کی ساخت (آپ کی ان پٹ لمبائی کی تقسیم کتنی ٹیڑی ہے، کتنے فیصد کوئریز مختصر اور سادہ ہیں، کتنے فیصد مشکل لگتی ہیں) آپ کو بتاتی ہے کہ کس روٹنگ پیٹرن سے آغاز کریں۔

کاسکیڈ پیٹرن تفصیل سے، لاگت کے حساب کے ساتھ

کاسکیڈ پیٹرن زیادہ تفصیل کا مستحق ہے کیونکہ یہ سب سے وسیع الاطلاق ہے اور وہی ہے جسے زیادہ تر ٹیمیں پہلے یا دوسرے نمبر پر نافذ کرتی ہیں۔ یہی وہ جگہ ہے جہاں لاگت کا کیس ٹھوس ہوتا ہے۔

ایک نمائندہ پروڈکشن ورک لوڈ پر غور کریں جو آج Claude Sonnet 4.6 پر چل رہا ہے: ماہانہ 100 ملین ٹوکنز، 80% ان پٹ اور 20% آؤٹ پٹ، لسٹ پرائسنگ کے مطابق $475 ماہانہ بل۔ فرض کریں ہم اس کے سامنے ایک کاسکیڈ متعارف کراتے ہیں: کوئریز پہلے Claude Haiku 4.5 پر جاتی ہیں، اور صرف تب Sonnet 4.6 پر ایسکلیٹ ہوتی ہیں جب Haiku کا جواب کسی کوالٹی چیک میں ناکام ہو۔ Haiku 4.5 کے نرخ فی ملین ٹوکنز ان پٹ $1.00 اور آؤٹ پٹ $5.00 ہیں، جو Sonnet کے ریٹ کا ایک تہائی ہیں۔

لاگت کا حساب دو پیرا میٹرز پر منحصر ہے: کتنے فیصد کوئریز Haiku درجے پر کامیاب ہوتی ہیں (ہم اسے کامیابی کی شرح کہتے ہیں)، اور کامیاب و ایسکلیٹڈ کوئریز کے ان پٹ/آؤٹ پٹ تناسب میں کتنا فرق ہے۔ سادگی کے لیے، فرض کریں دونوں کا ان پٹ/آؤٹ پٹ تناسب یکساں ہے، اور کامیابی کی شرح 70% ہے، یعنی Haiku کا جواب 70% کوئریز پر کافی ہے، اور 30% Sonnet پر ایسکلیٹ ہوتی ہیں۔

منظرنامہ	لاگت کا حساب	ماہانہ بل	بچت
واحد ماڈل: 100% Sonnet 4.6	100M tokens × Sonnet کے نرخ	$475	n/a
کاسکیڈ: 70% Haiku، 30% Haiku→Sonnet	100M Haiku + 30M Sonnet	$237	50%
کامیابی کی 80% شرح کے ساتھ کاسکیڈ	100M Haiku + 20M Sonnet	$190	60%
کامیابی کی 60% شرح کے ساتھ کاسکیڈ	100M Haiku + 40M Sonnet	$285	40%

اس سے آپ کو کیا معلوم ہوتا ہے. معتدل 70% کامیابی کی شرح پر بھی (یعنی Haiku ہر 10 میں 7 بار درست جواب دیتا ہے)، کاسکیڈ بل آدھا کر دیتا ہے۔ وجہ یہ ہے کہ سستے ماڈل کی کال فلیگ شپ کال کے مقابلے میں اتنی سستی ہے کہ جو 30% کوئریز ایسکلیٹ ہوتی ہیں ان پر دونوں کالز کی قیمت پھر بھی اس سے کہیں کم ہے جتنا ہر کوئری پر فلیگ شپ کی قیمت۔ بریک ایون پوائنٹ (جہاں کاسکیڈ کی لاگت واحد ماڈل کے برابر ہو) تقریباً 33% کامیابی کی شرح کے آس پاس ہے۔ اس سے کم پر سیدھا جانا بہتر؛ اس سے زیادہ پر کاسکیڈ جیت رہا ہے۔

کم از کم قابلِ عمل کاسکیڈ نفاذ

ذیل میں پیٹرن کا سب سے سادہ ورژن ہے، Python میں OpenAI مطابقت رکھنے والے کلائنٹ کے ساتھ (جو کسی بھی فراہم کنندہ کے خلاف کام کرتا ہے جو OpenAI-مطابق اینڈ پوائنٹ مہیا کرتا ہے، بشمول Claude بذریعہ Anthropic کی مطابقتی پرت، Gemini، اور CometAPI کا متحدہ اینڈ پوائنٹ)۔ ساخت جان بوجھ کر سادہ رکھی گئی ہے؛ پروڈکشن نفاذ میں آبزرویبیلٹی، ایرر ہینڈلنگ، اور زیادہ نفیس کوالٹی چیکس شامل کیے جاتے ہیں۔

from openai import OpenAI
import json

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.cometapi.com/v1",  # یا آپ کے منتخب فراہم کنندہ کا
)

CHEAP_MODEL = "claude-haiku-4-5"
FLAGSHIP_MODEL = "claude-sonnet-4-6"


def cascade(messages, output_schema=None):
    """
    ایک کوئری کو کاسکیڈ سے گزاریں۔
    واپس کرتا ہے (response, model_used, escalated)۔
    """

    # مرحلہ 1: سستے ماڈل کو آزمائیں
    cheap_response = client.chat.completions.create(
        model=CHEAP_MODEL,
        messages=messages,
        response_format=output_schema,
    )

    cheap_text = cheap_response.choices[0].message.content

    # مرحلہ 2: جانچیں کہ سستے ماڈل کا جواب کافی اچھا ہے یا نہیں
    if is_acceptable(cheap_text, output_schema):
        return cheap_text, CHEAP_MODEL, False

    # مرحلہ 3: فلیگ شپ پر ایسکلیٹ کریں
    flagship_response = client.chat.completions.create(
        model=FLAGSHIP_MODEL,
        messages=messages,
        response_format=output_schema,
    )

    flagship_text = flagship_response.choices[0].message.content

    return flagship_text, FLAGSHIP_MODEL, True


def is_acceptable(response_text, output_schema=None):
    """
    کوالٹی گیٹ۔
    True واپس کرتا ہے اگر سستے ماڈل کا آؤٹ پٹ کافی اچھا ہو۔
    """

    if not response_text or len(response_text.strip()) < 10:
        return False

    if output_schema:
        # ساختہ آؤٹ پٹ: اسے اسکیما کے مطابق پارس ہونا چاہیے
        try:
            parsed = json.loads(response_text)
            return validate_schema(parsed, output_schema)

        except (json.JSONDecodeError, ValueError):
            return False

    # فری فارم جوابات کے لیے، اپنا کوالٹی سگنل لگائیں:
    # - ماڈل سے confidence score
    # - کسی چھوٹے ماڈل کو self-evaluation پرامپٹ
    # - رولز بیسڈ چیکس (لمبائی، فارمیٹ، refusal patterns)

    return True

یہ نقطۂ آغاز ہے، تیار نفاذ نہیں۔ پروڈکشن کے لیے تین چیزیں شامل کریں:

ایک حقیقی کوالٹی گیٹ۔ اوپر دیا گیا is_acceptable دانستہ طور پر کم سے کم ہے۔ عمل میں، گیٹ کاسکیڈ کا سب سے اہم جز ہے: زیادہ نرم ہوا تو کم معیار کے جوابات شپ ہوں گے؛ زیادہ سخت ہوا تو بہت زیادہ ایسکلیٹ ہوگا اور بچت ضائع ہو گی۔ زیادہ تر پروڈکشن کاسکیڈز ساختہ آؤٹ پٹ ویلیڈیشن، انکار کی شناخت (سستے ماڈل کا کہنا "میں جواب نہیں دے سکتا")، اور چھوٹے ماڈل سے گریڈنگ کے لیے خود جانچ کا امتزاج استعمال کرتے ہیں۔
فی درخواست آبزرویبیلٹی۔ لاگ کریں کہ کون سا ماڈل استعمال ہوا، کیا درخواست ایسکلیٹ ہوئی، ہر درجے پر لیٹنسی کیا تھی، اور لاگت کیا بنی۔ یہی آپ کو ایک ہفتے بعد بتاتا ہے کہ کاسکیڈ چلانے پر کامیابی کی شرح وہی ہے جو آپ نے فرض کی تھی یا نہیں۔
ایویلیوایشن کے لیے کینری راستہ۔ ٹریفک کا ایک چھوٹا فیصد (مثلاً 5%) فلیگ شپ سے گزاریں حتیٰ کہ جب کاسکیڈ سستے درجے پر کامیاب ہو۔ محفوظ رکھے گئے گریڈنگ ٹاسک پر دونوں جوابات کا موازنہ کریں۔ یہی خاموش معیار میں کمی کو پکڑتا ہے؛ اگلا سیکشن دیکھیں۔

جہاں روٹنگ ناکام پڑتی ہے

اوپر دیا گیا لاگت کی بچت کا حساب حقیقی ہے، مگر یہ پرامید کیس بھی ہے۔ تین فیلئر موڈز اکثر ٹیموں کو پکڑتے ہیں، اور انہیں ایمانداری سے نام دینا وہ فرق ہے جو قدر بڑھانے والی روٹنگ کو اس سے الگ کرتا ہے جو چپکے سے پروڈکٹ کا معیار گراتی ہے۔

ایسکلیٹڈ درخواستوں پر لیٹنسی اوورہیڈ

جب کوئی کوئری ایسکلیٹ ہوتی ہے، تو فلیگ شپ کال شروع ہونے سے پہلے آپ سستے ماڈل کی کال کی قیمت اور وقت دیتے ہیں۔ اگر سستا ماڈل 800ms لیتا ہے اور فلیگ شپ 1.5s، تو ایسکلیٹڈ کوئری اینڈ ٹو اینڈ 2.3s لے گی۔ لیٹنسی حساس ورک لوڈز میں یہ اہم ہے۔ سد باب یہ ہیں کہ تیز سستا ماڈل منتخب کریں (Haiku 4.5 اور Gemini 3 Flash اسی کے لیے ڈیزائن ہیں)، سستے ماڈل کی کال پر جارحانہ ٹائم آؤٹس رکھیں، اور ان کوئریز کے لیے متوازی کالز پر غور کریں جن کے ایسکلیٹ ہونے کا زیادہ امکان ہے۔ کچھ ٹیمیں ڈالر بچت کی وجہ سے لیٹنسی لاگت قبول کرتی ہیں؛ دیگر جامد قواعد سے ظاہر طور پر مشکل کوئریز کو کاسکیڈ سے گزارنے سے گریز کرتی ہیں۔

خاموش معیار میں کمی

سب سے مہلک فیلئر موڈ۔ سستا ماڈل ایسے جوابات پیدا کرتا ہے جو آپ کے کوالٹی گیٹ سے گزر جاتے ہیں مگر فلیگ شپ کے جوابات سے باریک فرق سے بدتر ہوتے ہیں: کچھ کم درست، کچھ کم مددگار، کنارے کے کیسز کو نظر انداز کرنے کے زیادہ امکانات۔ یوزرز فوراً شکایت نہیں کرتے؛ آپ جو میٹرکس دیکھتے ہیں (ریسپانس لیٹنسی، ایرر ریٹ، گیٹ پاس ریٹ) سب ٹھیک نظر آتے ہیں؛ مگر ڈاؤن اسٹریم میٹرکس (یوزر ریٹینشن، کنورژن ریٹ، سپورٹ ایسکلیشنز) ڈرِفٹ کرتے ہیں۔ جب تک آپ کو احساس ہوتا ہے، آپ ہفتوں تک کم معیار شپ کر چکے ہوتے ہیں۔

دفاع وہی کینری راستہ ہے: ٹریفک کا محفوظ رکھا گیا فیصد جو کاسکیڈ کے ساتھ ساتھ فلیگ شپ سے بھی گزرتا ہے، دونوں جوابات کو ایویلیوایشن rubric کے خلاف گریڈ کیا جاتا ہے۔ گریڈنگ خود کسی ماڈل سے (LLM بطور جج) یا نمونہ جاتی انسانی جائزے سے ہو سکتی ہے۔ مقصد یہ ہے کہ کاسکیڈ کے اپنے گیٹ سے آزاد ایک مسلسل کوالٹی سگنل برقرار رکھا جائے، تاکہ کمی اس سگنل میں ڈرِفٹ کے طور پر سامنے آئے نہ کہ ڈاؤن اسٹریم حیرت کے طور پر۔

کوڈ اور آبزرویبیلٹی میں پیچیدگی کی قیمت

روٹنگ گراف میں ہر اضافی ماڈل ایک نیا ماڈل ہے جسے evaluate، مانیٹر، اور اپ ڈیٹ کرنا ہوتا ہے جب اس کا فراہم کنندہ نیا ورژن جاری کرے۔ دو درجے کا کاسکیڈ سنبھالا جا سکتا ہے؛ پانچ ماڈلز والا کلاسیفائر مبنی راؤٹر جس میں کوڈ، RAG، چیٹ، ایجنٹس اور کنارے کے کیسز کے لیے الگ راستے ہوں، اُس واحد ماڈل سیٹ اپ سے معنوی طور پر زیادہ پیچیدہ ہے جسے یہ بدلتا ہے۔ پیچیدگی اُس وقت قابلِ قدر ہے جب ورک لوڈ کا حجم اسے جائز ٹھہرائے؛ اس سے کم پر، روٹنگ لیئر کی دیکھ بھال میں لگنے والا انجینئرنگ وقت اُس بچت سے بڑھ سکتا ہے جو یہ پیدا کرتی ہے۔ اپنے والیوم تھریشولڈ پر ایماندار رہیں۔

ایگریگیٹرز کیسے مدد کرتے ہیں (اور کہاں نہیں کرتے)

LLM ایگریگیٹرز (ایسی سروسز جو متعدد ماڈلز کو ایک واحد OpenAI-مطابق API کے پیچھے مہیا کرتی ہیں) روٹنگ کے ساتھ دو مختلف طریقوں سے تعامل کرتی ہیں۔ دونوں کو سمجھنا مفید ہے کیونکہ سوال کہ "کیا میں اپنی روٹنگ اسٹیک میں ایگریگیٹر چاہتا ہوں؟" کا جواب اسی پر منحصر ہے کہ آپ کس تعامل کی پرواہ کرتے ہیں۔

حقیقی مدد: انضمام کا ٹیکس ختم کرنا

براہ راست فراہم کنندہ APIs پر کاسکیڈ یا کلاسیفائر مبنی راؤٹر بنانا متعدد SDKs، متعدد توثیقی شناختیں، متعدد بلنگ سطوح، اور فراہم کنندہ مخصوص نکھروں (ٹائم آؤٹ رویہ، ایرر فارمیٹس، ریٹ لمٹ سیمینٹکس) کا انتظام کرنا ہوتا ہے۔ ملٹی ماڈل روٹنگ سیٹ اپ کے لیے یہ اوورہیڈ حقیقی ہے۔ CometAPI جیسے ایگریگیٹر ہر ماڈل کو ایک واحد OpenAI-مطابق اینڈ پوائنٹ کے پیچھے پیش کرتے ہیں، جس کا مطلب ہے روٹنگ کے لیے کوڈ کی تبدیلی صرف model پیرامیٹر بدلنا ہے، نہ فراہم کنندہ بدلنا، نہ الگ keys، نہ الگ آبزرویبیلٹی لیئر۔ جن ٹیموں کے لیے روٹنگ کی راہ میں بنیادی رکاوٹ انٹیگریشن لاگت ہے نہ کہ معیار کی جانچ کی لاگت، ان کے لیے یہ فیصلہ کن ہے۔

جس سے محتاط رہیں: بلٹ اِن روٹنگ لیئرز

کچھ ایگریگیٹرز "smart routing" یا "model optimiser" فیچر پیش کرتے ہیں جو آپ کے لیے کوئری کی بنیاد پر ماڈل چنتا ہے۔ یہ پروٹو ٹائپنگ کے لیے مفید ہو سکتا ہے مگر عموماً پروڈکشن کے لیے غلط ڈیفالٹ ہے۔ وجہ یہ ہے کہ روٹنگ کا فیصلہ آپ کی اسٹیک کی سب سے ورک لوڈ مخصوص چیزوں میں سے ہے: "کس حد تک مشکل ہونے پر ایسکلیٹ کرنا ہے" آپ کے ایویلیوایشن معیار، لیٹنسی بجٹ، کوالٹی بار، اور لاگت کی حد پر منحصر ہے۔ ایک عمومی روٹنگ لیئر ان میں سے کسی کو نہیں جان سکتی۔ زیادہ تر پروڈکشن سسٹمز ایک ہلکے، شفاف ایگریگیٹر (جو وہی ماڈلز ایک کریڈنشل اور ایک بل پر دکھائے جو آپ براہ راست حاصل کرتے) کے ساتھ بہتر ہوتے ہیں، اور اس کے اوپر اپنی روٹنگ لاجک رکھتے ہیں، بہ نسبت کسی بلیک باکس روٹنگ لیئر کے جسے وہ ٹیون نہ کر سکیں۔

مائیگریشن پلے بک

واحد ماڈل پروڈکشن ورک لوڈ سے روٹڈ سیٹ اپ تک پہنچنے کا محفوظ، مرحلہ وار راستہ۔ اصول یہ ہے کہ انفرادی طور پر واپس پلٹنے کے قابل تبدیلیاں کریں اور ہر تبدیلی کے اثر کو ناپیں، اگلا قدم اٹھانے سے پہلے۔

موجودہ ورک لوڈ کو انسٹرومنٹ کریں۔ ہر درخواست کو ماڈل، ان پٹ/آؤٹ پٹ ٹوکنز، لاگت، لیٹنسی، اور کوئری-ٹائپ لیبل کے ساتھ لاگ کریں۔ کم از کم ایک ہفتہ چلائیں تاکہ بیس لائن قائم ہو۔ اس کے بغیر، ہر اگلا قدم اندازہ ہے۔
ایویلیوایشن سیٹ بنائیں۔ 100–500 نمائندہ کوئریز معتمد حوالہ جاتی آؤٹ پٹس کے ساتھ تیار کریں۔ یہی ہیلڈ آؤٹ سیٹ ہے جس سے آپ ہر قدم پر کاسکیڈ اور واحد ماڈل بیس لائن کا تقابل کریں گے۔
سب سے زیادہ والیوم والی کوئری ٹائپ شناخت کریں۔ انسٹرومنٹیشن ڈیٹا سے وہ کیٹیگری تلاش کریں جس کا ٹریفک میں سب سے بڑا حصہ ہے۔ یہیں آپ کاسکیڈ کی پائلٹ چلائیں گے۔ یہ لازماً سب سے آسان کیٹیگری نہیں، بس سب سے زیادہ والیوم والی ہونی چاہیے، کیونکہ بچت وہیں مرتکز ہوتی ہے۔
اسی ایک کوئری ٹائپ کے لیے کاسکیڈ پروٹو ٹائپ بنائیں۔ دو درجے: پہلے سستا ماڈل، کوالٹی گیٹ ناکام ہونے پر فلیگ شپ۔ پہلے ایویلیوایشن سیٹ پر چلائیں۔ واحد ماڈل بیس لائن کے مقابلے میں لاگت اور معیار کا موازنہ کریں۔ اگر معیار برقرار اور لاگت کم ہو تو آگے بڑھیں؛ اگر معیار گرے تو گیٹ سخت کریں اور دوبارہ آزمائیں۔
ٹریفک کے فیصد کے پیچھے رول آؤٹ کریں۔ منتخب کوئری ٹائپ کے لیے 5–10% پروڈکشن ٹریفک سے آغاز کریں۔ کم از کم ایک ہفتہ چلائیں۔ کاسکیڈ کی ایسکلیشن شرح، فی درخواست لاگت، ہر درجے پر لیٹنسی، اور کینری راستے کی کوالٹی تقابل کو مانیٹر کریں۔ اگر میٹرکس پروٹو ٹائپ کی پیش گوئی سے میل کھاتے ہوں تو 25%، پھر 50%، پھر 100% تک بڑھائیں۔
اگلی کوئری ٹائپ کے لیے دہرائیں۔ جب پہلی کوئری ٹائپ مکمل طور پر مائیگریٹ ہو جائے اور بچت حاصل ہو، تو اگلی سب سے زیادہ والیوم والی کیٹیگری پر جائیں۔ ہر کاسکیڈ جداگانہ فیصلہ ہے؛ یہ فرض نہ کریں کہ جو پیٹرن ایک کیٹیگری پر کام کر گیا وہ دوسری پر بھی کرے گا۔
مسلسل کوالٹی کینری شامل کریں۔ جب متعدد کوئری ٹائپس کاسکیڈ پر چل رہی ہوں، تو ہیلڈ آؤٹ کینری راستہ مستقل طور پر قائم کریں، 5% ٹریفک گریڈنگ کے لیے فلیگ شپ سے گزاریں۔ یہی خاموش کمی کا ابتدائی انتباہی نظام ہے، اور یہی ماڈلز کے اپ ڈیٹ ہوتے ہوئے روٹنگ لیئر کو قابلِ اعتماد رکھتا ہے۔

جب روٹنگ فائدہ مند نہیں ہوتی

ایماندارانہ اعتراف۔ ایسے ورک لوڈز بھی ہیں جہاں روٹنگ میں انجینئرنگ کی سرمایہ کاری واپس نہیں آتی، اور انہیں پہلے پہچان لینا وقت بچاتا ہے:

واحد ماڈل والے ورک لوڈز جہاں واقعاً ایک ہی ماڈل ہر چیز کے لیے درست جواب ہے۔ اگر آپ کا ایویلیوایشن سیٹ سستے درجے پر پورے ورک لوڈ میں معنی خیز معیار کی کمی دکھاتا ہے، تو کاسکیڈ کے پاس کام کرنے کو کچھ نہیں۔ کوڈ جنریشن ورک لوڈ جس کی رکاوٹ استدلالی صلاحیت ہو ایک مثال ہے: Haiku گیٹ پر بہت زیادہ ناکام ہوگا جس سے کاسکیڈ بچت نہیں دے گا۔
بہت کم والیوم والے ورک لوڈز۔ تقریباً $200/ماہ سے کم LLM اخراجات پر، روٹنگ لیئر بنانے اور برقرار رکھنے میں لگنے والا انجینئرنگ وقت عموماً بچت سے زیادہ ہوتا ہے۔ تھریشولڈ ورک لوڈ مخصوص ہے، مگر حقیقی ہے۔ ایمانداری سے جانچیں کہ کیا آپ کا خرچ اتنا ہے کہ یہ کام جائز ہو۔
ریگولیٹڈ ماحول جہاں باضابطہ ریکارڈ والے فراہم کنندہ کی اہمیت ہو۔ اگر آپ کی کمپلائنس پوزیشن لازم کرتی ہے کہ تمام پروڈکشن ٹریفک ایک مخصوص فراہم کنندہ کے ذریعے ہی جائے، تو ملٹی ماڈل روٹنگ گفتگو کو مشکل بنا دیتی ہے۔ پھر بھی فراہم کنندہ کے اندر روٹنگ کے اختیارات ہو سکتے ہیں (Anthropic پر Sonnet → Opus؛ OpenAI پر GPT-5 nano → GPT-5.5)، مگر کراس-پرووائیڈر روٹنگ کا جواز مشکل ہوتا ہے۔

ایماندارانہ فریم: روٹنگ تب فائدہ دیتی ہے جب آپ کا ورک لوڈ ہائی والیوم ہو، آپ کی کوئریز یکساں طور پر مشکل نہ ہوں، اور آپ کے پاس وہ ایویلیوایشن انفراسٹرکچر ہو جو بتا سکے کہ کاسکیڈ قابلِ قبول معیار دے رہا ہے۔ زیادہ تر بامعنی سکیل کے پروڈکشن ورک لوڈز اس تفصیل پر پورا اترتے ہیں؛ کچھ نہیں اترتے اور ایک ہی ماڈل پر قائم رہ کر تیز شپ کرتے ہیں۔ دونوں انتخاب قابلِ دفاع ہیں۔

آگے کہاں جائیں: اگر آپ نے ابھی تک اس مضمون کی بنیاد بننے والا فی ماڈل ریٹ کارڈ نہیں دیکھا تو ہمراہ تحریر، The 2026 LLM API Pricing Comparison: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash and DeepSeek V4، نقطہ آغاز ہے۔ یہی قیمتوں کا ڈیٹا ہے جو اس گائیڈ کے لاگت کے حساب کو آپ کے مخصوص ورک لوڈ پر ٹھوس بناتا ہے۔