LlamaIndex کو CometAPI کے ساتھ کیسے ضم کیا جائے۔

CometAPI
AnnaSep 10, 2025
LlamaIndex کو CometAPI کے ساتھ کیسے ضم کیا جائے۔

CometAPI کئی ماڈلز (GPT-family، Anthropic/Claude، Google Gemini اور مزید) کے لیے ایک واحد، OpenAI سے مطابقت رکھنے والا گیٹ وے فراہم کرتا ہے۔ LlamaIndex (بازیافت میں اضافہ شدہ LLM ایپس بنانے کے لیے "ڈیٹا فریم ورک") اب ایک مقامی CometAPI LLM انٹیگریشن کو بے نقاب کرتا ہے — یعنی آپ **LlamaIndex سے CometAPI کے ذریعے کسی بھی ماڈل کو کال کر سکتے ہیں۔

LlamaIndex (علمی معاونین کی تعمیر کے لیے ڈیٹا فریم ورک) اب باضابطہ طور پر سپورٹ کرتا ہے۔ CometAPI بطور LLM پسدید۔ یہ گائیڈ دکھاتا ہے کہ آپ ان کو کیوں جوڑیں گے، ماحول کیسے ترتیب دیا جائے، مرحلہ وار انضمام (کوڈ کے ساتھ)، ایک ٹھوس RAG استعمال کیس، اور قابل اعتماد، لاگت اور مشاہدے کو بہتر بنانے کے لیے تجاویز۔ مثالیں درج ذیل ہیں۔ لاما انڈیکس دستاویزات اور CometAPI انضمام کی مثالیں۔.

LlamaIndex کیا ہے اور اس کی اہم خصوصیات کیا ہیں؟

LlamaIndex (سابقہ ​​GPT-Index) ایک ڈیٹا تجرید اور بازیافت کا فریم ورک ہے جو بڑے لینگویج ماڈلز (LLMs) کو آپ کے اپنے ڈیٹا سے جوڑتا ہے دستاویزات، انڈیکسز بنانے، اور RAG طرز کی ایپلی کیشنز کے لیے بازیافت + پرامپٹ ورک فلو کو آرکیسٹریٹنگ کرکے۔ کلیدی خصوصیات میں دستاویز کے ادخال کنیکٹر (PDFs، ویب، ڈیٹا بیس)، ویکٹر/کی ورڈ/گراف انڈیکس، لچکدار استفسار کے انجن، اور LLM فراہم کنندگان کو تبدیل کرنے کے لیے ایک تجریدی پرت شامل ہیں۔ LlamaIndex آپ کو کسی بھی LLM میں "اپنا ڈیٹا لانے" کی اجازت دینے کے لیے ڈیزائن کیا گیا ہے اور دستاویز کی چنکنگ، ایمبیڈنگز، بازیافت، اور فوری آرکیسٹریشن کے لیے پلمبنگ تیار کرتا ہے۔

اہم خصوصیات کیا ہیں؟

  • ڈیٹا کنیکٹر: فائلوں، ڈیٹا بیسز، اور بہت سے SaaS ذرائع سے حاصل کریں۔
  • انڈیکسنگ پرائمیٹو: ویکٹر اسٹور اشاریہ جات، درخت/گراف اشاریہ جات، اور بازیافت پائپ لائنز۔
  • انجنوں سے استفسار کریں۔: لچکدار استفسار آرکیسٹریشن (ریانکرز، رسپانس سنتھیسز، ملٹی سٹیپ پرامپٹس)۔
  • ایل ایل ایم اڈاپٹر: پلگ ایبل LLM بیک اینڈز — OpenAI، Anthropic، Vertex، اور اب CometAPI دوسروں کے درمیان۔
  • مشاہدہ اور کال بیکس: ایل ایل ایم کالز کو ٹریس کرنے اور ان کی نگرانی کے لیے ہکس۔

CometAPI کیا ہے اور اسے LlamaIndex کے ساتھ کیوں استعمال کریں؟

CometAPI کیا ہے؟

CometAPI ایک API-گیٹ وے ہے جو سینکڑوں تھرڈ پارٹی AI ماڈلز (LLMs، امیج/ویڈیو جنریٹرز، اور ایمبیڈنگز) کو ایک واحد، OpenAI سے ہم آہنگ REST انٹرفیس کے پیچھے بے نقاب کرتا ہے۔ ہر ماڈل وینڈر کے لیے ایک الگ SDK اور کلید کو جگانے کے بجائے، آپ CometAPI کے بنیادی URL کو کال کریں اور درخواست کے باڈی میں ماڈل کا نام منتخب کریں — مثال کے طور پر gpt, claude, gemini، یا مختلف خصوصی ایمبیڈ/تصویری انجن۔ یہ "500+ ماڈلز کے لیے ایک API" اپروچ تجربات کو تیز کرتا ہے اور آپریشنل اوور ہیڈ کو کم کرتا ہے۔

CometAPI کو LlamaIndex کے ساتھ کیوں جوڑیں؟

LlamaIndex ایک ڈیٹا فریم ورک ہے جو آپ کے دستاویزات کو انڈیکس (ویکٹر اور دیگر) میں تبدیل کرتا ہے اور حتمی جواب کی ترکیب کے لیے LLM استعمال کرتا ہے۔ چونکہ CometAPI ایک OpenAI طرز API بولتا ہے، LlamaIndex یا تو:

  • اس کا استعمال کریں۔ تعمیر میں CometAPI ایل ایل ایم انضمام (تجویز کردہ)، یا
  • اشارہ کرکے OpenAI/"OpenAI-compatible" LLM اور ایمبیڈنگز اڈاپٹر استعمال کریں۔ api_base CometAPI کو۔

LlamaIndex پہلے سے ہی ایک وقف فراہم کرتا ہے۔ CometAPI LLM ریپر اور مثالیں - لہذا انضمام جان بوجھ کر سیدھا ہے۔

انضمام کیا فوائد فراہم کرتا ہے؟

  1. RAG + لچکدار ماڈل کا انتخاب - LlamaIndex ڈیٹا کی بازیافت اور فوری ترکیب کو سنبھالتا ہے۔ CometAPI آپ کو اپنی پائپ لائن کو دوبارہ تعمیر کیے بغیر LLM(s) کو منتخب کرنے دیتا ہے۔
  2. لاگت / تاخیر کی اصلاح - معمول کے سوالات کے لیے سستے یا تیز ماڈلز اور بھاری استدلال کے لیے اعلیٰ معیار کے ماڈلز آزمائیں۔
  3. وینڈر پورٹیبلٹی - صرف ماڈل کے ناموں یا چھوٹے کلائنٹ کی تشکیل کو تبدیل کرکے ماڈل فراہم کنندگان کو تبدیل کریں۔
  4. تیز تجربہ - اپنی اشاریہ سازی اور بازیافت پائپ لائن کو مستقل رکھتے ہوئے آسانی سے A/B ماڈلز۔

شرائط اور ماحول کے سیٹ اپ کیا ہیں؟

اکاؤنٹس اور چابیاں

CometAPI کے لیے سائن اپ کریں اور CometAPI کنسول سے ایک API کلید حاصل کریں: https://api.cometapi.com/console/token. (درخواستوں کی تصدیق کے لیے آپ کو اس قدر کی ضرورت ہوگی۔)

ازگر اور پیکجز

  • Python 3.9+ تجویز کردہ۔
  • Jupyter Notebook یا Python ماحول (Google Colab انٹرایکٹو ٹیسٹنگ کے لیے تجویز کردہ)۔
  • انسٹال کرنے کے لیے پیکجز: llama-index (بنیادی) اور llama-index-llms-cometapi (CometAPI اڈاپٹر / انضمام)
  • اختیاری: ویکٹر اسٹور لائبریریاں جو آپ استعمال کرنے کا ارادہ رکھتے ہیں (مثال کے طور پر، faiss-cpu, pinecone-clientوغیرہ)۔ LlamaIndex کے پاس آفیشل/ویکٹر اسٹور گائیڈ ہیں۔

ماحولیاتی تغیرات

عام مشق: CometAPI کلید کو env var کے طور پر سیٹ کریں (جیسے COMETAPI_KEY)، یا کلید کو براہ راست LlamaIndex CometAPI کنسٹرکٹر کو منتقل کریں۔ LlamaIndex دستاویزات دونوں نقطہ نظر دکھاتے ہیں — ابہام اور ٹیسٹوں سے بچنے کے لیے، گزرنا api_key= کنسٹرکٹر کے لیے واضح طور پر سب سے محفوظ ہے۔

آپ LlamaIndex اور CometAPI کو مرحلہ وار کیسے مربوط کرتے ہیں؟

درج ذیل مرحلہ وار فہرست عین اعمال کا احاطہ کرتی ہے: ایک اکاؤنٹ بنائیں، پیکجز انسٹال کریں، کیز سیٹ کریں، CometAPI استعمال کرنے کے لیے LlamaIndex کو ترتیب دیں۔

1) میں ایک CometAPI اکاؤنٹ کیسے بناؤں اور API کی حاصل کروں؟

  1. CometAPI کی سائٹ پر جائیں اور اکاؤنٹ کے لیے سائن اپ کریں۔ (ان کا ہوم پیج اور سائن اپ فلو آپ کو API کنسول کی طرف لے جائے گا۔)
  2. CometAPI کنسول میں (دستاویزات کا حوالہ https://api.cometapi.com/console/token)، اپنا API ٹوکن بنائیں یا کاپی کریں۔ آپ کو اس کی ضرورت ہوگی۔ COMETAPI_API_KEY (ذیل میں دیکھیں).

2) میں LlamaIndex اور CometAPI انٹیگریشن کو کیسے انسٹال کروں؟

ان پائپ کمانڈز کو چلائیں (ورچوئل ماحول میں تجویز کردہ):

# core LlamaIndex

pip install llama-index

# CometAPI LLM integration for LlamaIndex

pip install llama-index-llms-cometapi

# optional: vectorstore (FAISS example)

pip install faiss-cpu

(If you're in a Jupyter/Colab environment you can prefix with `%pip`.)

تبصرہ:

  • LlamaIndex بنیادی طور پر ہر چیز کی ترسیل سے بچنے کے لیے نام کی جگہ والے انٹیگریشن پیکجز کا استعمال کرتا ہے۔ CometAPI LLM انضمام بطور فراہم کیا گیا ہے۔ llama-index-llms-cometapi.

3) میں CometAPI کلید (ماحولیاتی متغیر) کو کیسے سیٹ کروں؟

LlamaIndex کی CometAPI LLM کلاس API کلید کو کنسٹرکٹر پیرامیٹر یا ماحولیاتی متغیر سے پڑھتی ہے۔ انضمام کا کوڈ ماحولیاتی متغیر نام کی توقع کرتا ہے۔ COMETAPI_API_KEY (آپ کلید کو براہ راست کلاس کنسٹرکٹر کو بھی دے سکتے ہیں)۔ یہ بھی سپورٹ کرتا ہے۔ COMETAPI_API_BASE اگر آپ کو API بیس یو آر ایل کو اوور رائیڈ کرنا ہوگا۔

تجویز کردہ (واضح) — API کلید کو کنسٹرکٹر کو منتقل کریں۔. آپ env var بھی ترتیب دے سکتے ہیں۔ COMETAPI_KEY اگر آپ ترجیح دیں.

import os
# Option A: set env var (optional)

os.environ = "sk-xxxx-your-key"

# Option B: pass the key explicitly (recommended for clarity)

api_key = os.getenv("COMETAPI_KEY", "sk-xxxx-your-key")

اسے مقامی طور پر سیٹ کریں (Unix/macOS):

export COMETAPI_API_KEY="sk-<your-cometapi-key>"
# optional override:

export COMETAPI_API_BASE="https://www.cometapi.com/console/"

ونڈوز پر (پاور شیل):

$env:COMETAPI_API_KEY = "sk-<your-cometapi-key>"

4) CometAPI استعمال کرنے کے لیے LlamaIndex کو ترتیب دیں۔

ذیل میں ایک کم سے کم اختتام سے آخر تک مثال دی گئی ہے: دستاویزات داخل کریں، ایک ویکٹر انڈیکس بنائیں، اور ایک سوال جاری کریں۔ یہ مثال جدید LlamaIndex API کا استعمال کرتی ہے (مثال A: ServiceContext + vector index)؛ اگر آپ پرانی/نئی LlamaIndex ریلیز استعمال کر رہے ہیں تو ناموں کو موافق بنائیں۔

minimal RAG example using CometAPI as the LLM backend
from llama_index import SimpleDirectoryReader, VectorStoreIndex, ServiceContext
from llama_index.llms.cometapi import CometAPI
from llama_index.core.llms import ChatMessage

# 1) API key and LLM client

api_key = "sk-xxxx-your-key"  # or read from env

llm = CometAPI(
    api_key=api_key,
    model="gpt-4o-mini",      # pick a CometAPI-supported model

    max_tokens=512,
    context_window=4096,
)

# 2) Optional: wrap in ServiceContext (customize prompt settings, embedding model etc)

service_context = ServiceContext.from_defaults(llm=llm)

# 3) Load documents (assumes a ./data directory with files)

documents = SimpleDirectoryReader("data").load_data()

# 4) Build a vector index (FAISS, default vector store)

index = VectorStoreIndex.from_documents(documents, service_context=service_context)

# 5) Query the index

query_engine = index.as_query_engine()
resp = query_engine.query("Summarize the main points in the documents.")
print(resp)
  • ماڈل کے نام اور دستیاب صلاحیتوں کا انحصار CometAPI پر ہے — اپنے استعمال کے کیس کے لیے بہترین ماڈل منتخب کرنے کے لیے CometAPI دستاویزات کو چیک کریں۔ LlamaIndex Comet اڈاپٹر چیٹ اور تکمیل کے طریقوں اور سٹریمنگ کو سپورٹ کرتا ہے۔
  • اگر آپ اسٹریمنگ جوابات چاہتے ہیں تو آپ کال کر سکتے ہیں۔ llm.stream_chat() یا استعمال کریں stream_complete مختلف دستاویزات میں دکھایا گیا ہے۔

نوٹ: آپ کے LlamaIndex ورژن پر منحصر ہے، کے لیے عین API as_query_engine قبول کرنا llm دلیل مختلف ہو سکتی ہے. اگر آپ کا ورژن قبول نہیں کرتا ہے۔ lServiceContext یہاں، نیچے LLM دیکھیں۔ CometAPI LLM کو بطور لاگو کیا گیا ہے۔ CometAPI in llama_index.llms.cometapi.

مثال B — CometAPI LLM کا کم سے کم، براہ راست استعمال (وضاحت کے لیے تجویز کردہ)

import os
from llama_index.llms.cometapi import CometAPI
from llama_index import VectorStoreIndex, SimpleDirectoryReader

# ensure env var set, or pass api_key explicitly

os.environ = "sk-<your-key>"  # or set externally

api_key = os.getenv("COMETAPI_API_KEY")
llm = CometAPI(
    api_key=api_key,          # or pass None to use env var

    model="gpt-4o-mini",      # change model string as required

    max_tokens=256,
    context_window=4096,
)

# build a simple index (local documents)

documents = SimpleDirectoryReader("data/").load_data()
index = VectorStoreIndex.from_documents(documents)

# get a query engine that uses the default llm (you can often pass llm to the query method)

query_engine = index.as_query_engine(llm=llm)   # some LlamaIndex versions accept llm here

response = query_engine.query("Summarize the key points of the corpus.")
print(response)

میں LlamaIndex سے CometAPI خصوصیات کیسے استعمال کر سکتا ہوں؟ (جدید مثالیں)

1) کال کریں۔ chat چیٹ میسج لسٹ کے ساتھ

: مثال کے طور پر

# Initialize LLM

llm = CometLLM(
    api_key=api_key,
    max_tokens=256,
    context_window=4096,
    model="gpt-5-chat-latest",
)

# Chat call using ChatMessage

from llama_index.core.llms import ChatMessage

messages = [
    ChatMessage(role="system", content="You are a helpful assistant"),
    ChatMessage(role="user", content="Say 'Hi' only!"),
]
resp = llm.chat(messages)
print(resp)

# Use complete method

resp = llm.complete("Who is Kaiming He")
print(resp)

متوقع آؤٹ پٹ:

  • چیٹ کا جواب: مثال کے طور پر، assistant: Hi
  • تکمیلی جواب: مثال کے طور پر، Kaiming He کے بارے میں متن کی تفصیل، بشمول ResNet پر معلومات۔

یہ چیٹ سیمینٹکس (سسٹم / صارف / معاون کردار) کو دوبارہ تیار کرتا ہے اور اکثر زیادہ قابل کنٹرول آؤٹ پٹ حاصل کرتا ہے۔ یہ ایک سادہ پیغام بھیجتا ہے اور ماڈل کے جواب کو بازیافت کرتا ہے۔ آپ مزید پیچیدہ تعاملات کے لیے پیغامات کو حسب ضرورت بنا سکتے ہیں۔

کیا CometAPI سٹریمنگ کو سپورٹ کرتا ہے؟

ہاں — CometAPI اسٹریمنگ چیٹ/کمپلیشنز کو سپورٹ کرتا ہے اور LlamaIndex اپنے LLM ریپرز پر اسٹریمنگ کے طریقوں کو بے نقاب کرتا ہے (stream_chat, stream_complete, streamable پیٹرن)۔ ریئل ٹائم ایپلی کیشنز کے لیے، سٹریم_چیٹ یا اسٹریم_کمپلیٹ کے طریقے استعمال کریں جوابات کو اسٹریم کرنے کے لیے.. مثال:

# Streaming chat

message = ChatMessage(role="user", content="Tell me what ResNet is")
resp = llm.stream_chat()
for r in resp:
    print(r.delta, end="")

# Streaming completion

resp = llm.stream_complete("Tell me about Large Language Models")
for r in resp:
    print(r.delta, end="")

متوقع آؤٹ پٹ: پرنٹ شدہ جوابی مواد کو سٹریمنگ کرنا، جیسے، ResNet کی وضاحت یا بڑے لینگویج ماڈلز کا جائزہ، ٹکڑوں میں ظاہر ہونا۔

وضاحت: stream_chat اور stream_complete جوابات کا حصہ بناتا ہے، جو ریئل ٹائم آؤٹ پٹ کے لیے موزوں ہے۔ اگر کوئی خرابی ہوتی ہے، تو اسے کنسول میں دکھایا جائے گا۔

یہ LlamaIndex کی مثالوں کو دوسرے OpenAI سے مطابقت رکھنے والے LLMs کے لیے دکھاتا ہے اور Comet کے اسٹریمنگ اینڈ پوائنٹس کے ساتھ کام کرتا ہے۔ پروڈکشن میں مضبوط دوبارہ کوشش/ٹائم آؤٹ منطق کے ساتھ بیک پریشر اور نیٹ ورک کی غلطیوں کو ہینڈل کریں۔

ماڈلز کو تیزی سے تبدیل کرنا

# try Claude from CometAPI

claude_llm = CometAPI(api_key=api_key, model="claude-3-7-sonnet-latest", max_tokens=300)
svc = ServiceContext.from_defaults(llm=claude_llm)
index = VectorStoreIndex.from_documents(documents, service_context=svc)
print(index.as_query_engine().query("Explain in one paragraph."))

چونکہ CometAPI اینڈ پوائنٹس کو معمول پر لاتا ہے، اس لیے ماڈلز کو تبدیل کرنا صرف کنسٹرکٹر کی تبدیلی ہے — کسی فوری پائپ لائن کو دوبارہ لکھنے کی ضرورت نہیں ہے۔

نکات اور اضافہ کی تکنیک

لاگت اور ٹوکن کا انتظام کیسے کریں۔

  • بازیافت کا استعمال کریں: صرف بازیافت شدہ سیاق و سباق بھیجیں، پورے کارپس کو نہیں۔
  • بازیافت/ خلاصہ کے لیے چھوٹے ماڈلز اور حتمی جواب کی ترکیب کے لیے بڑے ماڈلز کے ساتھ تجربہ کریں۔ CometAPI ماڈل کی تبدیلی کو معمولی بنا دیتا ہے۔

وشوسنییتا اور شرح کو محدود کرنا

  • لاگو کریں دوبارہ کوشش کریں + بیک آف عارضی غلطیوں کے لیے۔
  • CometAPI کی شرح کی حدود کا احترام کریں اور فی درخواست ایک ٹوکن بجٹ لاگو کریں۔ ٹریک max_tokens کنسٹرکٹر میں

مشاہدہ اور ڈیبگنگ

  • پرامپٹس، جوابات، اور ٹوکن کے استعمال کو حاصل کرنے کے لیے LlamaIndex کال بیک مینیجر کا استعمال کریں۔ ان لاگز کو اپنی مانیٹرنگ پائپ لائن میں لگائیں۔ LlamaIndex دستاویزات مشاہداتی نمونوں اور انضمام کا احاطہ کرتی ہیں۔

کیشنگ اور تاخیر

  • بار بار پوچھے گئے سوالات یا تعییناتی اشارے کے لیے کیش ایل ایل ایم آؤٹ پٹ (مثلاً، معیاری خلاصے)۔
  • پہلے پاس کے لیے ایک چھوٹا، تیز ماڈل استعمال کرنے پر غور کریں اور ضرورت پڑنے پر ہی زیادہ لاگت والے ماڈل کی طرف بڑھیں۔

سلامتی

  • CometAPI کلید کو سیکرٹ اسٹور (والٹ/کلاؤڈ سیکریٹ) میں رکھیں - کوڈ میں ہارڈ کوڈ نہ کریں۔
  • اگر ڈیٹا حساس ہے تو یقینی بنائیں کہ آپ کا منتخب کردہ CometAPI پلان یا ماڈل تعمیل کی ضروریات کو پورا کرتا ہے۔

ٹربل شوٹنگ چیک لسٹ

  • غلط env var: اگر LlamaIndex کو کوئی کلید نہیں ملتی ہے تو پاس کریں۔ api_key= میں CometAPI() تعمیر کنندہ واضح ہونا۔ (دستاویزات env var اور کنسٹرکٹر دونوں اختیارات دکھاتے ہیں۔)
  • ماڈل غیر تعاون یافتہ: CometAPI کی ماڈل لسٹ کے ساتھ ماڈل کے نام کی تصدیق کریں — ہر نام ہر اکاؤنٹ پر موجود نہیں ہے۔
  • اشاریہ سازی کی غلطیاں: یقینی بنائیں کہ دستاویزات کی درست طریقے سے تجزیہ کی گئی ہے (انکوڈنگ، فائل ٹائپس)۔ استعمال کریں۔ SimpleDirectoryReader ایک تیز ٹیسٹ ادخال کے لیے۔
  • ورژن بڑھے: LlamaIndex فعال طور پر تیار ہو رہا ہے (ServiceContext → ترتیبات کی منتقلی)۔ اگر کوئی مثال ناکام ہو جاتی ہے تو، آپ نے جو ورژن انسٹال کیا ہے اس کے لیے دستاویزات اور منتقلی گائیڈ کو چیک کریں۔

شروع

CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔

شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں لاما انڈیکس تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔

جانے کے لیے تیار ہیں؟→ CometAPI کے لیے آج ہی سائن اپ کریں۔ !

اکثر پوچھے گئے سوالات

میں تاخیر یا سلسلہ بندی کے وقفوں کو کیسے ڈیبگ کروں؟

  • اسٹریمنگ فریموں کا معائنہ کرنے کے لیے مقامی نیٹ ورک کیپچر (یا اپنے HTTP کلائنٹ میں لاگ ان) کا استعمال کریں۔
  • اس بات کی تصدیق کرنے کے لیے ایک آسان ماڈل آزمائیں کہ نیٹ ورک/SDK پاتھ، خود ماڈل نہیں، رکاوٹ ہے۔

مجھے کون سا ماڈل چننا چاہئے؟

  • چھوٹے / سستے چیٹ ماڈل استعمال کریں (مثال کے طور پر، gpt-4o-mini, o4-mini، یا وینڈر کے لیے مخصوص کمپیکٹ ماڈلز) اعلی QPS یا مختصر جوابات کے لیے۔
  • مہنگے استدلال کے کاموں کے لیے بڑے ملٹی موڈل / چین آف تھیٹ ماڈلز کو محفوظ کریں۔
  • بینچ مارک لیٹنسی اور لاگت: CometAPI کے فوائد میں سے ایک ماڈلز کو ایک ہی کوڈ پاتھ میں تبدیل کرنا ہے — ایک سے زیادہ ماڈلز کو تیزی سے آزمائیں۔

مجھے کون سا انڈیکس اور ویکٹر اسٹور منتخب کرنا چاہئے؟

  • FAISS آن پریم / سنگل نوڈ رفتار کے لیے۔
  • پنیکون / ویوییٹ منظم پیمانے اور کثیر علاقائی دستیابی کے لیے (LlamaIndex انضمام کے ذریعے بہت سے ویکٹر اسٹورز کو سپورٹ کرتا ہے)۔ پیمانے اور تاخیر کی بنیاد پر انتخاب کریں۔
مزید پڑھیں

500+ ماڈلز ایک API میں

20% تک چھوٹ