gpt-realtime-1.5 کی تکنیکی خصوصیات
| مد | gpt-realtime-1.5 (عوامی پوزیشننگ) |
|---|---|
| Model family | GPT Realtime 1.5 (آواز کے لیے موزوں کردہ ورژن) |
| Primary modality | تقریر بہ تقریر (S2S) |
| Input types | آڈیو (اسٹریمنگ)، متن |
| Output types | آڈیو (اسٹریمنگ)، متن، ساختہ ٹول کالز |
| API | ریئل ٹائم API (WebRTC / مستقل اسٹریمنگ سیشنز) |
| Latency profile | کم لیٹنسی، براہِ راست مکالماتی تعامل کے لیے آپٹمائزڈ |
| Session model | اسٹیٹ فل اسٹریمنگ سیشنز |
| Tool use | فنکشن کالنگ اور ٹول انٹیگریشن کی معاونت |
| Target use case | لائیو وائس ایجنٹس، اسسٹنٹس، انٹرایکٹو سسٹمز |
نوٹ: درست ٹوکن حدود اور کانٹیکسٹ ونڈو کے سائز عوامی خلاصوں میں نمایاں طور پر دستاویزی نہیں ہیں؛ اس ماڈل کی پوزیشننگ انتہائی طویل کانٹیکسٹ سیشنز کے بجائے ریئل ٹائم ریسپانس پر مرکوز ہے۔
gpt-realtime-1.5 کیا ہے؟
gpt-realtime-1.5 ایک کم لیٹنسی، تقریر بہ تقریر کے لیے موزوں کردہ ماڈل ہے جو لائیو مکالماتی سسٹمز کے لیے بنایا گیا ہے۔ روایتی ریکویسٹ-رسپانس ماڈلز کے برعکس، یہ مستقل اسٹریمنگ سیشنز کے ذریعے چلتا ہے، جو قدرتی باری باری گفتگو، مداخلت سنبھالنے، اور ڈائنامک وائس انٹریکشن کو ممکن بناتا ہے۔
یہ اُن ایپلیکیشنز کے لیے بنایا گیا ہے جہاں مکالمے کے بہاؤ کی رفتار زیادہ اہم ہو، نہ کہ زیادہ سے زیادہ کانٹیکسٹ کی لمبائی۔
اہم خصوصیات
- حقیقی تقریر بہ تقریر تعامل — براہِ راست آڈیو ان پٹ قبول کرتا ہے اور ریئل ٹائم میں بولے گئے جوابات اسٹریم کرتا ہے۔
- کم لیٹنسی آرکیٹیکچر — وائس ایجنٹس میں سب-سیکنڈ مکالماتی ریسپانس کے لیے ڈیزائن کیا گیا۔
- اسٹریمنگ-فرسٹ ڈیزائن — مستقل سیشنز (WebRTC یا اسٹریمنگ پروٹوکولز) کے ذریعے کام کرتا ہے۔
- قدرتی باری گیری — مداخلت سنبھالنے اور ڈائنامک گفتگو کے بہاؤ کی حمایت کرتا ہے۔
- ٹول کالنگ کی معاونت — ریئل ٹائم سیشن کے دوران ساختہ فنکشن کالز ٹرگر کر سکتا ہے۔
- پروڈکشن کے لیے تیار وائس ایجنٹ کی بنیاد — خاص طور پر انٹرایکٹو اسسٹنٹس، کیوسکس، اور ایمبیڈڈ ڈیوائسز کے لیے بنایا گیا۔
بینچ مارک اور کارکردگی کی پوزیشننگ
OpenAI gpt-realtime-1.5 کو پہلے کے ریئل ٹائم ماڈلز کے ارتقاء کے طور پر پیش کرتا ہے، جس میں ہدایات پر عمل، طویل وائس سیشنز کے دوران استحکام، اور پہلے کے ریلیزز کے مقابلے میں زیادہ قدرتی ادائیگی شامل ہے۔
کوڈنگ پر مرکوز ماڈلز (مثلاً Codex ورژنز) کے برعکس، کارکردگی کی پیمائش زیادہ تر مکالماتی لیٹنسی، آواز کی قدرتی پن، اور سیشن کے استحکام پر ہوتی ہے، نہ کہ لیڈر بورڈ طرز کے بینچ مارکس پر۔
gpt-realtime-1.5 بمقابلہ متعلقہ ماڈلز
| خصوصیت | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| Primary goal | براہِ راست وائس تعامل | آڈیو فعال چیٹ ورک فلو |
| Latency | کم سے کم تاخیر کے لیے آپٹمائزڈ | معیار/رفتار میں متوازن |
| Session type | مستقل اسٹریمنگ سیشن | معیاری Chat Completions فلو |
| Context size | ریسپانس کے لیے آپٹمائزڈ | بڑے کانٹیکسٹ کی سپورٹ |
| Best use case | ریئل ٹائم وائس ایجنٹس | آڈیو کے ساتھ مکالماتی اسسٹنٹس |
ہر ایک کو کب منتخب کریں
- gpt-realtime-1.5 کا انتخاب کال سینٹرز، کیوسکس، AI ریسیپشنسٹس، یا لائیو ایمبیڈڈ اسسٹنٹس کے لیے کریں۔
- gpt-audio-1.5 کا انتخاب اُن وائس فعال چیٹ ایپس کے لیے کریں جنہیں طویل گفتگو کی میموری یا ملٹی موڈل ورک فلو درکار ہو۔
نمایاں استعمال کے کیسز
- AI کال سینٹر ایجنٹس
- اسمارٹ ڈیوائس اسسٹنٹس
- انٹرایکٹو کیوسکس
- لائیو ٹیوٹورنگ سسٹمز
- ریئل ٹائم زبان سیکھنے کی مشق کے ٹولز
- وائس کنٹرولڈ ایپلیکیشنز
- GPT realtime 1.5 API تک کیسے رسائی حاصل کریں
مرحلہ 1: API کلید کے لیے سائن اپ کریں
cometapi.com میں لاگ ان کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI console میں سائن ان کریں۔ انٹرفیس کی ایکسیس اسناد API key حاصل کریں۔ Personal Center میں API token پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کریں۔

مرحلہ 2: GPT realtime 1.5 API کو ریکویسٹ بھیجیں
“gpt-realtime-1.5” اینڈ پوائنٹ منتخب کریں تاکہ API ریکویسٹ بھیجی جا سکے اور ریکویسٹ باڈی سیٹ کریں۔ ریکویسٹ میتھڈ اور ریکویسٹ باڈی ہماری ویب سائٹ کی API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ کی اصل CometAPI key سے بدلیں۔ base url Chat Completions ہے۔
اپنا سوال یا درخواست content فیلڈ میں درج کریں—اسی پر ماڈل جواب دے گا۔ API ریسپانس کو پروسیس کریں تاکہ جنریٹ کیا گیا جواب حاصل ہو سکے۔
مرحلہ 3: نتائج حاصل کریں اور توثیق کریں
API ریسپانس کو پروسیس کریں تاکہ جنریٹ کیا گیا جواب حاصل ہو۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔