gpt-realtime-1.5 کی تکنیکی وضاحتیں
| آئٹم | gpt-realtime-1.5 (عوامی پوزیشننگ) |
|---|---|
| ماڈل خاندان | GPT Realtime 1.5 (آواز کے لیے بہتر بنایا گیا ویریئنٹ) |
| بنیادی موڈیلٹی | اسپیچ-ٹو-اسپیچ (S2S) |
| ان پٹ اقسام | آڈیو (اسٹریمِنگ)، متن |
| آؤٹ پٹ اقسام | آڈیو (اسٹریمِنگ)، متن، ساختہ ٹول کالز |
| API | ریئل ٹائم API (WebRTC / مستقل اسٹریمِنگ سیشنز) |
| لیٹنسی پروفائل | کم لیٹنسی، لائیو مکالماتی تعامل کے لیے موزوں بنایا گیا |
| سیشن ماڈل | اسٹیٹ فل اسٹریمِنگ سیشنز |
| ٹول کا استعمال | فنکشن کالنگ اور ٹول انٹیگریشنز کی سہولت |
| ہدف استعمال کیس | لائیو وائس ایجنٹس، اسسٹنٹس، انٹرایکٹو سسٹمز |
نوٹ: درست ٹوکن حدود اور کانٹیکسٹ ونڈو سائزز عوامی خلاصوں میں نمایاں طور پر دستاویز نہیں کیے گئے؛ ماڈل کو انتہائی طویل کانٹیکسٹ سیشنز کے بجائے ریئل ٹائم ردِعمل کے لیے موزوں رکھا گیا ہے۔
gpt-realtime-1.5 کیا ہے؟
gpt-realtime-1.5 ایک کم لیٹنسی، اسپیچ-ٹو-اسپیچ کے لیے موزوں بنایا گیا ماڈل ہے جو لائیو مکالماتی سسٹمز کے لیے تیار کیا گیا ہے۔ روایتی درخواست-جواب ماڈلز کے برعکس، یہ مستقل اسٹریمِنگ سیشنز کے ذریعے کام کرتا ہے، جس سے قدرتی باری لینا، مداخلت سنبھالنا، اور متحرک آواز پر مبنی تعامل ممکن ہوتا ہے۔
یہ اُن ایپلی کیشنز کے لیے خاص طور پر بنایا گیا ہے جہاں مکالمے کے بہاؤ کی رفتار زیادہ سے زیادہ کانٹیکسٹ کی لمبائی سے زیادہ اہمیت رکھتی ہے۔
اہم خصوصیات
- حقیقی اسپیچ-ٹو-اسپیچ تعامل — لائیو آڈیو ان پٹ قبول کرتا ہے اور ریئل ٹائم میں بولے گئے جوابات اسٹریم کرتا ہے۔
- کم لیٹنسی آرکیٹیکچر — وائس ایجنٹس میں ایک سیکنڈ سے کم ردِعمل کے مکالماتی مقاصد کے لیے ڈیزائن کیا گیا۔
- اسٹریمِنگ-فرسٹ ڈیزائن — مستقل سیشنز کے ذریعے کام کرتا ہے (WebRTC یا اسٹریمِنگ پروٹوکولز)۔
- قدرتی باری لینا — مداخلت سنبھالنے اور متحرک مکالماتی بہاؤ کی حمایت کرتا ہے۔
- ٹول کالنگ سپورٹ — ریئل ٹائم سیشن کے دوران ساختہ فنکشن کالز شروع کر سکتا ہے۔
- پروڈکشن کے لیے تیار وائس ایجنٹ کی بنیاد — خاص طور پر انٹرایکٹو اسسٹنٹس، کیوسکس، اور ایمبیڈڈ ڈیوائسز کے لیے تیار کیا گیا۔
بینچ مارک اور کارکردگی کی پوزیشننگ
OpenAI gpt-realtime-1.5 کو سابقہ ریئل ٹائم ماڈلز کی ارتقا کے طور پر پیش کرتا ہے، جس میں ہدایات کی بہتر پیروی، طویل وائس سیشنز کے دوران زیادہ استحکام، اور سابقہ ریلیزز کے مقابلے میں زیادہ فطری پروسڈی شامل ہے۔
کوڈنگ پر مرکوز ماڈلز (مثلاً Codex ویریئنٹس) کے برعکس، کارکردگی کو لیڈر بورڈ طرز کے بینچ مارکس کے بجائے مکالماتی لیٹنسی، آواز کی فطری کیفیت، اور سیشن کے استحکام سے زیادہ ناپا جاتا ہے۔
gpt-realtime-1.5 بمقابلہ متعلقہ ماڈلز
| خصوصیت | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| بنیادی مقصد | لائیو وائس تعامل | آڈیو فعال چیٹ ورک فلو |
| لیٹنسی | کم سے کم تاخیر کے لیے موزوں بنایا گیا | معیار/رفتار کا متوازن امتزاج |
| سیشن کی قسم | مستقل اسٹریمِنگ سیشن | معیاری Chat Completions فلو |
| کانٹیکسٹ سائز | ردِعمل کے لیے موزوں بنایا گیا | بڑے کانٹیکسٹ کی معاونت |
| بہترین استعمال کیس | ریئل ٹائم وائس ایجنٹس | آڈیو کے ساتھ مکالماتی اسسٹنٹس |
کب کون سا منتخب کریں
- کال سینٹرز، کیوسکس، AI ریسپشنسٹ، یا لائیو ایمبیڈڈ اسسٹنٹس کے لیے gpt-realtime-1.5 منتخب کریں۔
- اُن وائس فعال چیٹ ایپس کے لیے جنہیں طویل گفتگو کی یادداشت یا ملٹی موڈل ورک فلو درکار ہو، gpt-audio-1.5 منتخب کریں۔
نمائندہ استعمالات
- AI کال سینٹر ایجنٹس
- اسمارٹ ڈیوائس اسسٹنٹس
- انٹرایکٹو کیوسکس
- لائیو ٹیوٹرنگ سسٹمز
- ریئل ٹائم زبان کی مشق کے ٹولز
- آواز سے چلنے والی ایپلی کیشنز
- GPT realtime 1.5 API تک رسائی کیسے حاصل کریں
مرحلہ 1: API Key کے لیے سائن اپ کریں
لاگ اِن کریں cometapi.com۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ سائن اِن کریں اپنی CometAPI console میں۔ انٹرفیس کی ایکسیس کریڈینشل API key حاصل کریں۔ personal center میں API token پر “Add Token” پر کلک کریں، ٹوکن key حاصل کریں: sk-xxxxx اور جمع کریں۔

مرحلہ 2: GPT realtime 1.5 API کو درخواستیں بھیجیں
API درخواست بھیجنے کے لیے “gpt-realtime-1.5” اینڈ پوائنٹ منتخب کریں اور درخواست کا باڈی سیٹ کریں۔ درخواست کا میتھڈ اور باڈی ہماری ویب سائٹ API doc سے حاصل کیے جاتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ کی اصل CometAPI key سے تبدیل کریں۔ base url ہے Chat Completions
اپنا سوال یا درخواست content فیلڈ میں درج کریں—ماڈل اسی پر جواب دے گا۔ پیدا شدہ جواب حاصل کرنے کے لیے API ریسپانس کو پروسیس کریں۔
مرحلہ 3: نتائج حاصل کریں اور تصدیق کریں
پیدا شدہ جواب حاصل کرنے کے لیے API ریسپانس کو پروسیس کریں۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔