اوپن اے آئی نے آج اس کا اعلان کیا۔ **GPT-Realtime وائس ماڈل اب دستیاب ہے، امیج ان پٹ کو سپورٹ کرتا ہے۔**پروڈکشن وائس ایجنٹس کے لیے بیٹا سے عام دستیابی کی طرف ریئل ٹائم API کے اقدام کو نشان زد کرنا۔ ریلیز GPT-Realtime کو ایک کم لیٹنسی، اسپیچ ٹو اسپیچ ماڈل کے طور پر رکھتی ہے جو دو طرفہ صوتی گفتگو کو چلا سکتا ہے جبکہ سیشن کے دوران فراہم کی جانے والی تصاویر میں ردعمل کو بھی بنیاد بنا سکتا ہے۔
OpenAI بیان کرتا ہے۔ جی پی ٹی ریئل ٹائم اس کے اب تک کے اسپیچ ٹو اسپیچ ماڈل کے طور پر: یہ آڈیو اینڈ ٹو اینڈ پر کارروائی کرتا ہے (علحدہ اسپیچ ٹو ٹیکسٹ اور ٹیکسٹ ٹو اسپیچ کے مراحل کو زنجیر کرنے کے بجائے)، زیادہ فطری اور تاثراتی تقریر پیدا کرتا ہے، اور فہم، ہدایات کی پیروی، اور فنکشن کالنگ میں قابل پیمائش فوائد دکھاتا ہے۔ کمپنی اندرونی بینچ مارکس پر بہتری کو نمایاں کرتی ہے اور کہتی ہے کہ یہ ماڈل باریکیوں کو حاصل کرتا ہے جیسے کہ ہنسی، درمیانی جملے کی زبان کی تبدیلی، اور حروف نمبری مواد پر اعلیٰ درستگی۔
نیا کیا ہے
- لائیو وائس سیشنز میں تصویری ان پٹ۔ ڈویلپر آڈیو یا متن کے ساتھ تصاویر، اسکرین شاٹس یا دیگر تصاویر منسلک کر سکتے ہیں۔ ماڈل بصری سوالات کا جواب دے سکتا ہے، اسکرین شاٹس (OCR طرز) میں متن پڑھ سکتا ہے، اور بولے گئے جواب میں منظر کی سمجھ کو شامل کر سکتا ہے۔ یہ ورک فلو کو قابل بناتا ہے جیسے کہ کال کے دوران بصری Q&A یا کسٹمر سروس کے لیے ملٹی موڈل سپورٹ۔
- تقریر سے تقریر، کم تاخیر، زیادہ اظہار کرنے والی آوازیں۔ GPT-Realtime پرانے STT→LLM→TTS چینز اور بحری جہازوں کے مقابلے میں کم راؤنڈ ٹرپ لیٹنسی کے ساتھ مقامی آڈیو آؤٹ پٹ فراہم کرتا ہے (کوریج میں "سیڈر" اور "میرین" کے طور پر رپورٹ کیا جاتا ہے)۔ ماڈل کو ہدایات کی پیروی اور گفتگو کی اہمیت کے لیے بنایا گیا ہے۔
- انٹرپرائز انضمام کی خصوصیات۔ ریئل ٹائم API اپ ڈیٹ انٹرپرائز پر مبنی صلاحیتوں کو شامل کرتا ہے جیسے MCP سرور سپورٹ اور SIP فون کالنگ تاکہ وائس ایجنٹ فون نیٹ ورکس اور PBX سسٹم سے براہ راست جڑ سکیں۔ ان اضافے کا مقصد کسٹمر سپورٹ اور رابطہ مرکز کی تعیناتی ہے۔
معیارات
بگ بینچ آڈیو (استدلال): 82.8% - سے اوپر 65.6٪ OpenAI کے دسمبر 2024 کے ریئل ٹائم ماڈل پر۔ یہ آڈیو قابل استدلال کے کاموں کے لیے رپورٹ کردہ ہیڈ لائن ریجننگ بینچ مارک ہے۔
ملٹی چیلنج (ہدایت کے بعد، آڈیو): ~30.5% vs ~ 20.6٪ پہلے — ملٹی سٹیپ یا پیچیدہ بولی جانے والی ہدایات پر بہتر عمل کو ظاہر کرتا ہے۔
ComplexFuncBench (فنکشن کالنگ کامیابی): ~66.5% vs ~ 49.7٪ پہلے - بہتر وشوسنییتا جب ماڈل کو آڈیو سیشن کے دوران ٹولز/فنکشنز کو کال کرنا ضروری ہے۔
لاگت اور تاخیر: OpenAI بیان کرتا ہے کہ نیا ماڈل فی ٹوکن آڈیو لاگت کو کم کرتا ہے (≈20% پہلے کے ریئل ٹائم پیش نظارہ سے کم) اور ایک سنگل اینڈ ٹو اینڈ ماڈل کے طور پر کام کرتا ہے (کوئی علیحدہ STT → LM → TTS چین نہیں)، جو ریئل ٹائم انٹرایکٹو فلو میں اینڈ ٹو اینڈ لیٹنسی کو کم کرتا ہے۔
OpenAI کا کہنا ہے کہ gpt-realtime ماڈل معروضی معیارات اور حقیقی دنیا کے طرز عمل کی ایک رینج میں مادی بہتری کو ظاہر کرتا ہے — بگ بینچ آڈیو پر اعلی اسکور اور ہدایات کی پیروی کرنے والے/ فنکشن کالنگ کی تشخیص پر — اور لائیو آڈیو میں حروف شماریات، کوڈ ورڈز اور زبان کی تبدیلی کو بہتر طریقے سے ہینڈل کرنا۔ کمپنی نے دو نئی آوازیں (Cedar اور Marin) بھی متعارف کروائیں اور پہلے کے ریئل ٹائم پیش نظارہ ماڈل کے مقابلے میں قیمت میں 20% کمی کی اطلاع دی۔
ریئل ٹائم API اور gpt-realtime ماڈل اب ڈویلپرز (GA) کے لیے دستیاب ہے، اوپن اے آئی نے اس اپ ڈیٹ کے ساتھ اپنے ریئل ٹائم API کی قیمت بھی کم کر دی، آڈیو ان پٹ کو $32 فی ملین ٹوکنز اور آڈیو آؤٹ پٹ کو $64 فی ملین ٹوکنز تک کم کر دیا، جو کہ گزشتہ قیمت سے 20% کمی ہے، جس سے ڈویلپرز کو زیادہ اقتصادی حل فراہم کیا گیا ہے۔
شروع
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
ڈویلپرز رسائی حاصل کر سکتے ہیں۔ GPT-5 CometAPI کے ذریعے، درج کردہ تازہ ترین ماڈل ورژن مضمون کی اشاعت کی تاریخ کے مطابق ہیں۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔
تازہ ترین انضمام gpt-realtime جلد ہی CometAPI پر نمودار ہوگا، اس لیے دیکھتے رہیں!
