What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 کو Realtime API میں مستقل اسٹریمنگ سیشنز کے ذریعے کم تاخیر والی اسپیچ ٹو اسپیچ تعاملات کے لیے ڈیزائن کیا گیا ہے، جس کی وجہ سے یہ لائیو وائس ایجنٹس اور انٹرایکٹو اسسٹنٹس کے لیے مثالی ہے۔

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 کم سے کم تاخیر کے ساتھ حقیقی وقت کی اسٹریمنگ وائس گفتگو پر توجہ دیتا ہے، جبکہ gpt-audio-1.5 زیادہ وسیع سیاق و سباق والے آڈیو فعال چیٹ ورک فلو کے لیے بہتر بنایا گیا ہے۔

Does gpt-realtime-1.5 API support function calling during live sessions?

جی ہاں، gpt-realtime-1.5 فعال ریئل ٹائم سیشن کے اندر اسٹرکچرڈ ٹول کالز کی معاونت کرتا ہے، جس سے بیرونی سسٹمز کے ساتھ انضمام ممکن ہوتا ہے۔

Is gpt-realtime-1.5 suitable for customer support voice bots?

جی ہاں، یہ خاص طور پر انٹرایکٹو، کم تاخیر والے مکالماتی نظاموں جیسے کال سینٹر ایجنٹس اور ورچوئل ریسپشنسٹس کے لیے بہتر بنایا گیا ہے۔

Can gpt-realtime-1.5 handle interruptions during conversation?

جی ہاں، یہ ماڈل قدرتی باری باری گفتگو کے لیے ڈیزائن کیا گیا ہے اور اسٹریمنگ وائس سیشن کے دوران مداخلتوں کو سنبھال سکتا ہے۔

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 انتہائی بڑے کانٹیکسٹ ونڈوز کے بجائے مکالماتی ردعمل کی رفتار اور کم تاخیر کو ترجیح دیتا ہے۔

What infrastructure is required to integrate gpt-realtime-1.5 API?

gpt-realtime-1.5 API کے انضمام کے وقت ڈویلپرز عموماً مستقل آڈیو سیشنز برقرار رکھنے کے لیے WebRTC یا اسٹریمنگ پر مبنی کنیکشنز استعمال کرتے ہیں۔

سستی gpt-realtime-1.5 API | text-to-speech

gpt-realtime-1.5 کی تکنیکی خصوصیات

مد	gpt-realtime-1.5 (عوامی پوزیشننگ)
Model family	GPT Realtime 1.5 (آواز کے لیے موزوں کردہ ورژن)
Primary modality	تقریر بہ تقریر (S2S)
Input types	آڈیو (اسٹریمنگ)، متن
Output types	آڈیو (اسٹریمنگ)، متن، ساختہ ٹول کالز
API	ریئل ٹائم API (WebRTC / مستقل اسٹریمنگ سیشنز)
Latency profile	کم لیٹنسی، براہِ راست مکالماتی تعامل کے لیے آپٹمائزڈ
Session model	اسٹیٹ فل اسٹریمنگ سیشنز
Tool use	فنکشن کالنگ اور ٹول انٹیگریشن کی معاونت
Target use case	لائیو وائس ایجنٹس، اسسٹنٹس، انٹرایکٹو سسٹمز

نوٹ: درست ٹوکن حدود اور کانٹیکسٹ ونڈو کے سائز عوامی خلاصوں میں نمایاں طور پر دستاویزی نہیں ہیں؛ اس ماڈل کی پوزیشننگ انتہائی طویل کانٹیکسٹ سیشنز کے بجائے ریئل ٹائم ریسپانس پر مرکوز ہے۔

gpt-realtime-1.5 کیا ہے؟

gpt-realtime-1.5 ایک کم لیٹنسی، تقریر بہ تقریر کے لیے موزوں کردہ ماڈل ہے جو لائیو مکالماتی سسٹمز کے لیے بنایا گیا ہے۔ روایتی ریکویسٹ-رسپانس ماڈلز کے برعکس، یہ مستقل اسٹریمنگ سیشنز کے ذریعے چلتا ہے، جو قدرتی باری باری گفتگو، مداخلت سنبھالنے، اور ڈائنامک وائس انٹریکشن کو ممکن بناتا ہے۔

یہ اُن ایپلیکیشنز کے لیے بنایا گیا ہے جہاں مکالمے کے بہاؤ کی رفتار زیادہ اہم ہو، نہ کہ زیادہ سے زیادہ کانٹیکسٹ کی لمبائی۔

اہم خصوصیات

حقیقی تقریر بہ تقریر تعامل — براہِ راست آڈیو ان پٹ قبول کرتا ہے اور ریئل ٹائم میں بولے گئے جوابات اسٹریم کرتا ہے۔
کم لیٹنسی آرکیٹیکچر — وائس ایجنٹس میں سب-سیکنڈ مکالماتی ریسپانس کے لیے ڈیزائن کیا گیا۔
اسٹریمنگ-فرسٹ ڈیزائن — مستقل سیشنز (WebRTC یا اسٹریمنگ پروٹوکولز) کے ذریعے کام کرتا ہے۔
قدرتی باری گیری — مداخلت سنبھالنے اور ڈائنامک گفتگو کے بہاؤ کی حمایت کرتا ہے۔
ٹول کالنگ کی معاونت — ریئل ٹائم سیشن کے دوران ساختہ فنکشن کالز ٹرگر کر سکتا ہے۔
پروڈکشن کے لیے تیار وائس ایجنٹ کی بنیاد — خاص طور پر انٹرایکٹو اسسٹنٹس، کیوسکس، اور ایمبیڈڈ ڈیوائسز کے لیے بنایا گیا۔

بینچ مارک اور کارکردگی کی پوزیشننگ

OpenAI gpt-realtime-1.5 کو پہلے کے ریئل ٹائم ماڈلز کے ارتقاء کے طور پر پیش کرتا ہے، جس میں ہدایات پر عمل، طویل وائس سیشنز کے دوران استحکام، اور پہلے کے ریلیزز کے مقابلے میں زیادہ قدرتی ادائیگی شامل ہے۔

کوڈنگ پر مرکوز ماڈلز (مثلاً Codex ورژنز) کے برعکس، کارکردگی کی پیمائش زیادہ تر مکالماتی لیٹنسی، آواز کی قدرتی پن، اور سیشن کے استحکام پر ہوتی ہے، نہ کہ لیڈر بورڈ طرز کے بینچ مارکس پر۔

gpt-realtime-1.5 بمقابلہ متعلقہ ماڈلز

خصوصیت	gpt-realtime-1.5	gpt-audio-1.5
Primary goal	براہِ راست وائس تعامل	آڈیو فعال چیٹ ورک فلو
Latency	کم سے کم تاخیر کے لیے آپٹمائزڈ	معیار/رفتار میں متوازن
Session type	مستقل اسٹریمنگ سیشن	معیاری Chat Completions فلو
Context size	ریسپانس کے لیے آپٹمائزڈ	بڑے کانٹیکسٹ کی سپورٹ
Best use case	ریئل ٹائم وائس ایجنٹس	آڈیو کے ساتھ مکالماتی اسسٹنٹس

ہر ایک کو کب منتخب کریں

gpt-realtime-1.5 کا انتخاب کال سینٹرز، کیوسکس، AI ریسیپشنسٹس، یا لائیو ایمبیڈڈ اسسٹنٹس کے لیے کریں۔
gpt-audio-1.5 کا انتخاب اُن وائس فعال چیٹ ایپس کے لیے کریں جنہیں طویل گفتگو کی میموری یا ملٹی موڈل ورک فلو درکار ہو۔

نمایاں استعمال کے کیسز

AI کال سینٹر ایجنٹس
اسمارٹ ڈیوائس اسسٹنٹس
انٹرایکٹو کیوسکس
لائیو ٹیوٹورنگ سسٹمز
ریئل ٹائم زبان سیکھنے کی مشق کے ٹولز
وائس کنٹرولڈ ایپلیکیشنز
GPT realtime 1.5 API تک کیسے رسائی حاصل کریں

مرحلہ 1: API کلید کے لیے سائن اپ کریں

cometapi.com میں لاگ ان کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI console میں سائن ان کریں۔ انٹرفیس کی ایکسیس اسناد API key حاصل کریں۔ Personal Center میں API token پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کریں۔

cometapi-key

مرحلہ 2: GPT realtime 1.5 API کو ریکویسٹ بھیجیں

“gpt-realtime-1.5” اینڈ پوائنٹ منتخب کریں تاکہ API ریکویسٹ بھیجی جا سکے اور ریکویسٹ باڈی سیٹ کریں۔ ریکویسٹ میتھڈ اور ریکویسٹ باڈی ہماری ویب سائٹ کی API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ کی اصل CometAPI key سے بدلیں۔ base url Chat Completions ہے۔

اپنا سوال یا درخواست content فیلڈ میں درج کریں—اسی پر ماڈل جواب دے گا۔ API ریسپانس کو پروسیس کریں تاکہ جنریٹ کیا گیا جواب حاصل ہو سکے۔

مرحلہ 3: نتائج حاصل کریں اور توثیق کریں

API ریسپانس کو پروسیس کریں تاکہ جنریٹ کیا گیا جواب حاصل ہو۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔

gpt-realtime-1.5