پچھلے چند مہینوں کے دوران، AI کا منظرنامہ تیزی سے بدل گیا ہے: OpenAI نے GPT-5 کو ڈویلپرز کو بھیج دیا اور اپنے ریئل ٹائم اسٹیک کو تازہ کیا۔ انتھروپک اپڈیٹ شدہ کلاڈ اور اس کی ڈیٹا کے استعمال کی پالیسیاں؛ اور گوگل نے جیمنی کو گھر اور سمارٹ ڈیوائس ایکو سسٹم میں مزید گہرائی میں دھکیل دیا۔ یہ تبدیلیاں اہمیت رکھتی ہیں کیونکہ وہ بدلتے ہیں کہ آپ کن ماڈلز تک پہنچنا چاہتے ہیں اور آپ ان کی نگرانی کیسے کریں گے — بالکل وہی جگہ جہاں ایک "متحد API + مشاہداتی" جوڑا جیسا LiteLLM + CometAPI چمکتا ہے۔
اس گائیڈ میں، آپ کو انضمام کا ایک عملی، کوڈ ہیوی واک تھرو ملے گا۔ لائٹ ایل ایل ایم ساتھ CometAPI (جو ایک بولتا ہے۔ OpenAI سے مطابقت رکھتا ہے۔ dialect)، کورنگ انسٹالیشن، بنیادی کالز، async اور سٹریمنگ، اور تعیناتی کی تجاویز۔ راستے میں، ہم آپ کے انضمام کے انتخاب کے لیے جدید ترین ماڈل اپ ڈیٹس کا کیا مطلب بنتے ہیں۔
LiteLLM کیا ہے؟
LiteLLM ایک اوپن سورس Python SDK اور پراکسی (LLM گیٹ وے) ہے جو بہت سے ماڈل فراہم کنندگان (OpenAI، Anthropic، Vertex/Google، AWS Bedrock، Hugging Face، وغیرہ) کے لیے ایک واحد، مستقل API کو ظاہر کرتا ہے۔ یہ فراہم کنندہ کے فرق کو معمول بناتا ہے (ان پٹ فارمیٹ، غلطیاں، آؤٹ پٹ شکلیں)، دوبارہ کوشش/فال بیک/روٹنگ منطق فراہم کرتا ہے، اور ہلکے وزن والے SDK دونوں کو سپورٹ کرتا ہے۔ اور انفرا اسٹیکس میں مرکزی LLM روٹنگ کے لیے ایک پراکسی سرور۔ دوسرے الفاظ میں: بہت سے ماڈلز کو کال کرنے کے لیے ایک API۔
نمایاں کریں:
- یونیفائیڈ ازگر کے افعال جیسے
completion,responses,embeddings. - اوپن اے آئی کے موافق روٹنگ (تاکہ وہ کلائنٹ جو اوپن اے آئی اسٹائل API بولتے ہیں دوسرے فراہم کنندگان کی طرف اشارہ کیا جاسکتا ہے)۔
- Async + اسٹریمنگ سپورٹ (async ریپر جیسے
acompletion، اورstream=Trueکٹے ہوئے جوابات کے لیے)۔
LiteLLM ماڈل اور اینڈ پوائنٹس کا نقشہ کیسے بناتے ہیں۔
- استعمال
completion()(مطابقت پذیری) اورacompletion()(async) چیٹ/کمپلیشن اسٹائل کالز کے لیے Python SDK میں۔ - OpenAI سے ہم آہنگ اینڈ پوائنٹس کے لیے، LiteLLM سپورٹ کرتا ہے۔
api_base/api_keyاوور رائڈ کریں تاکہ SDK OpenAI طرز کے راستے کو مارنا جانتا ہو۔
CometAPI کیا ہے؟
CometAPI ایک "بہت سے ماڈلز کے لیے ایک API" سروس ہے جو ظاہر کرتی ہے۔ سینکڑوں ماڈل (بشمول OpenAI GPT-5، Anthropic Claude، xAI Grok، Qwen، GLM، اور امیج/ویڈیو جنریٹرز) ایک کے ذریعے OpenAI سے مطابقت رکھتا ہے۔ REST انٹرفیس۔ چونکہ یہ مطابقت رکھتا ہے، آپ عام طور پر اپنے OpenAI کلائنٹ کو CometAPI کی طرف اشارہ کر سکتے ہیں۔ base_url اور وہی درخواست/جواب سکیما رکھیں—اسے ڈراپ ان متبادل بنائیں یا فریق اول کے APIs کا تکمیل کریں۔
ترکیب: یہ مطابقت بالکل وہی ہے جس کی LiteLLM کی توقع ہے۔ آپ OpenAI طرز کی کالز کا استعمال کرتے ہوئے LiteLLM کے ذریعے CometAPI ماڈلز کا حوالہ دے سکتے ہیں، یا انہیں LiteLLM پراکسی کے ذریعے روٹ کر سکتے ہیں۔
base_urlاوور رائیڈ کرتا ہے۔
LiteLLM کو CometAPI کے ساتھ ضم کرنے کی شرائط
اس سے پہلے کہ آپ LiteLLM کو CometAPI سے جوڑ سکیں، آپ کو کچھ چیزوں کی ضرورت ہوگی:
ازگر کا ماحول
- Python 3.8+ (تجویز کردہ: ایک ورچوئل ماحول بذریعہ
venvorconda). pipاپ گریڈ شدہ:python -m pip install --upgrade pip
LiteLLM انسٹال ہوا۔ pip install litellm (اختیاری: انسٹال کریں۔ litellm اگر آپ LiteLLM پراکسی سرور چلانا چاہتے ہیں۔)
CometAPI اکاؤنٹ اور API کلید
- میں سائن اپ کریں۔ cometapi.com.
- اپنے حاصل کریں API کلیدی آپ کے ڈیش بورڈ سے۔
- اسے ماحولیاتی متغیر کے طور پر اسٹور کریں:
export COMETAPI_KEY="sk-xxxx"
OpenAI کے موافق APIs کی بنیادی تفہیم
- CometAPI بے نقاب OpenAI طرز کے اختتامی پوائنٹس کی طرح
/v1/chat/completions. - LiteLLM مقامی طور پر اس فارمیٹ کی حمایت کرتا ہے، لہذا کسی حسب ضرورت کلائنٹ کی ضرورت نہیں ہے۔
میں بنیادی تکمیل کال کیسے کروں (LiteLLM → CometAPI استعمال کرتے ہوئے)؟
CometAPI ماڈل کو پیغامات بھیجنے کے لیے LiteLLM کی تکمیل کا فنکشن استعمال کریں۔ آپ cometapi/gpt-5 یا cometapi/gpt-4o جیسے ماڈلز کی وضاحت کر سکتے ہیں۔
طریقہ 1: API کلید (تجویز کردہ) کے لیے ماحولیاتی متغیر استعمال کریں۔
from litellm import completion
import os
# Option A: use env var
os.environ = "sk_xxx" # CometAPI key
# Direct call with explicit api_base + api_key
resp = completion(
model="cometapi/gpt-5",
api_key=os.environ,
api_base="https://www.cometapi.com/console/", # CometAPI base URL
messages=[
{"role":"system", "content":"You are a concise assistant."},
{"role":"user", "content":"Explain why model-aggregation is useful in 3 bullets."}
],
max_tokens=200,
temperature=0.2
)
print(resp.choices.message)
اگر آپ چاہیں تو سیٹ بھی کر سکتے ہیں۔ OPENAI_API_KEY/OPENAI_API_BASE LiteLLM کئی فراہم کنندہ کنونشنز کو قبول کرتا ہے۔ SDK دستاویزات کا اپنا ورژن چیک کریں۔
طریقہ 2: API کلید کو واضح طور پر پاس کریں:
: مثال کے طور پر
from litellm import completion
import os
# Define your messages (array of dictionaries with 'content' and 'role')
messages =
api_key = 'your-cometapi-key-here' # Alternative: Store it in a variable for explicit passing
# CometAPI call - Method 2: Explicitly passing API key
response_2 = completion(model="cometapi/gpt-4o", messages=messages, api_key=api_key)
# Print the responses
print(response_2.choices.message.content)
LiteLLM → CometAPI کے ساتھ غیر مطابقت پذیر اور سٹریمنگ کالز کیسے کام کرتی ہیں؟
غیر مطابقت پذیر کالز
- مطلب: ایک غیر مطابقت پذیر کال اس وقت ہوتی ہے جب کچھ کرنے کی درخواست کی جاتی ہے (جیسے ڈیٹا حاصل کرنا یا کوئی کام چلانا)، لیکن آگے بڑھنے سے پہلے اس کے ختم ہونے کا انتظار کرنے کے بجائے، پروگرام دوسرے کوڈ پر عمل درآمد جاری رکھتا ہے۔
- کلیدی خیال: "بلاک نہ کریں، انتظار کرتے ہوئے کام کرتے رہیں۔"
- مثال کے طور پر:
- ویب ایپس میں: UI کو منجمد کیے بغیر API سے ڈیٹا حاصل کرنا۔
- ازگر میں: استعمال کرنا
async/awaitساتھasyncio. - جاوا اسکرپٹ میں: استعمال کرنا
Promisesorasync/await.
کیس استعمال کریں۔: مرکزی دھاگے کو مسدود نہ کرکے کارکردگی اور ردعمل کو بہتر بناتا ہے۔
سٹریمنگ کالز
- مطلب: ایک سٹریمنگ کال کا مطلب ہے کہ تمام ڈیٹا کے تیار ہونے کا انتظار کرنے اور پھر اسے ایک ہی بار میں واپس بھیجنے کے بجائے، سرور دستیاب ہوتے ہی ڈیٹا کے ٹکڑوں کو بھیجتا ہے۔
- کلیدی خیال: "ڈیٹا ٹکڑے ٹکڑے کرکے بھیجیں جب یہ تیار ہو رہا ہو۔"
- مثال کے طور پر:
- پوری ویڈیو فائل ڈاؤن لوڈ ہونے سے پہلے یوٹیوب ویڈیو دیکھنا۔
- ریئل ٹائم چیٹ ایپس یا اسٹاک ٹکر اپ ڈیٹس۔
- APIs میں: ماڈل کے مکمل آؤٹ پٹ کا انتظار کرنے کے بجائے، کلائنٹ کو الفاظ/ٹوکن آہستہ آہستہ موصول ہوتے ہیں (جیسے ChatGPT ٹیکسٹ کو کیسے چلاتا ہے)۔
An غیر مطابقت پذیر اسٹریمنگ کال meBoth LiteLLM اور CometAPI سٹریمنگ اور غیر مطابقت پذیر استعمال کو سپورٹ کرتے ہیں۔ LiteLLM بے نقاب stream=True ٹکڑوں کا ایک تکرار کرنے والا وصول کرنے کے لیے، اور acompletion() async کے استعمال کے لیے۔ جب آپ کم تاخیر والے جزوی آؤٹ پٹس چاہتے ہیں تو اسٹریمنگ کا استعمال کریں (UI انٹرایکٹیویٹی، ٹوکن بہ ٹوکن پروسیسنگ)۔ جب کہ درخواست بلاک کیے بغیر کی جاتی ہے، اور نتائج بتدریج ڈیلیور کیے جاتے ہیں کیونکہ وہ تیار ہوتے ہیں۔ نان بلاکنگ یا ریئل ٹائم ایپلی کیشنز کے لیے، غیر مطابقت پذیر کالوں کے لیے LiteLLM کی تکمیل فنکشن استعمال کریں۔ یہ کنکرنسی کو سنبھالنے کے لیے Python کے asyncio کے ساتھ مفید ہے۔
: مثال کے طور پر
from litellm import acompletion
import asyncio, os, traceback
async def completion_call():
try:
print("Testing asynchronous completion with streaming")
response = await acompletion(
model="cometapi/chatgpt-4o-latest",
messages=,
stream=True # Enable streaming for chunked responses
)
print(f"Response object: {response}")
# Iterate over the streamed chunks asynchronously
async for chunk in response:
print(chunk)
except Exception:
print(f"Error occurred: {traceback.format_exc()}")
pass
# Run the async function
await completion_call()
وضاحت:
acompletionکا غیر مطابقت پذیر ورژن ہے۔completion.stream=Trueسٹریمنگ کو قابل بناتا ہے، جہاں جواب ریئل ٹائم حصوں میں ملتا ہے۔- استعمال
asyncioفنکشن کو چلانے کے لیے (مثال کے طور پر، ایک Jupyter نوٹ بک میںawaitیا کے ذریعےasyncio.run()اسکرپٹ میں)۔ - اگر کوئی غلطی ہوتی ہے، تو اسے پکڑ لیا جاتا ہے اور ڈیبگنگ کے لیے پرنٹ کیا جاتا ہے۔
متوقع آؤٹ پٹ:آپ جوابی آبجیکٹ اور انفرادی ٹکڑوں کو پرنٹ شدہ دیکھیں گے، جیسے:
Testing asynchronous completion with streaming
Response object: <async_generator object acompletion at 0x...>
Chunk: {'choices': }
Chunk: {'choices': }
... (full response streamed in parts)
اضافی تجاویز
- ماڈل نہیں ملا / اختتامی نقطہ کی مماثلت: اس بات کو یقینی بنائیں کہ آپ ایک ماڈل کا نام منتخب کریں جو CometAPI پر موجود ہو (ان کے دستاویزات کی فہرست دستیاب شناخت کنندگان) اور یہ کہ آپ کے LiteLLM ماڈل کے سابقہ کنونشنز مماثل ہوں (مثال کے طور پر،
cometapi/<model>جب ضرورت ہو)۔CometAPI ماڈلز cometapi/، جیسے cometapi/gpt-5، cometapi/gpt-4o، cometapi/chatgpt-4o-latest فارمیٹ کی پیروی کرتے ہیں۔ تازہ ترین ماڈلز کے لیے CometAPI دستاویزات کو چیک کریں۔ - اغلاط کی درستگی: غلط کلیدوں یا نیٹ ورک کی خرابیوں جیسے مسائل کو ہینڈل کرنے کے لیے بلاکس کے علاوہ کالز کو ہمیشہ ٹرائی میں لپیٹیں۔
- اعلی درجے کی خصوصیات: LiteLLM فائن ٹیوننگ جوابات کے لیے درجہ حرارت، max_tokens، اور top_p جیسے پیرامیٹرز کو سپورٹ کرتا ہے۔ انہیں تکمیل یا تکمیلی کالوں میں شامل کریں، مثال کے طور پر، تکمیل (…، درجہ حرارت=0.7)۔
- 403 / تصنیف کی غلطیاں - یقینی بنائیں کہ آپ صحیح CometAPI کلید استعمال کر رہے ہیں اور اسے بطور بھیج رہے ہیں۔
api_keyLiteLLM تک
نتیجہ
CometAPI کے ساتھ LiteLLM کا انضمام کم رگڑ ہے کیونکہ دونوں اطراف OpenAI سے مطابقت رکھنے والے، اچھی طرح سے دستاویزی انٹرفیس استعمال کرتے ہیں۔ اپنے کوڈ بیس میں ایل ایل ایم کے استعمال کو سنٹرلائز کرنے کے لیے LiteLLM استعمال کریں۔ api_base CometAPI پر جائیں اور CometAPI کلید کو پاس کریں، اور جوابی اور لچکدار ایپلیکیشنز بنانے کے لیے LiteLLM کے sync/async/streaming مددگاروں سے فائدہ اٹھائیں۔
شروع
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں LiteLLM انٹیگریشن گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔
