أصبح نموذج الصوت GPT-Realtime متاحًا الآن، ويدعم إدخال الصور

CometAPI
AnnaAug 28, 2025
أصبح نموذج الصوت GPT-Realtime متاحًا الآن، ويدعم إدخال الصور

أعلنت شركة OpenAI اليوم عن أصبح نموذج الصوت GPT-Realtime متاحًا الآن، ويدعم إدخال الصوريُشير هذا الإصدار إلى انتقال واجهة برمجة التطبيقات في الوقت الفعلي (Realtime API) من مرحلة الإصدار التجريبي إلى مرحلة التوفر العام لوكلاء الصوت في الإنتاج. يُصنّف هذا الإصدار GPT-Realtime كنموذج منخفض زمن الوصول، يُتيح إجراء محادثات صوتية ثنائية الاتجاه، مع ترسيخ الاستجابات في الصور المُقدمة أثناء الجلسة.

يصف OpenAI gpt-الوقت الحقيقي يُعدّ هذا النظام أحدث نموذج تحويل كلامي لديها حتى الآن: فهو يُعالج الصوت من البداية إلى النهاية (بدلاً من ربط خطوات تحويل الكلام إلى نص ونص إلى كلام منفصلة)، ويُنتج كلامًا أكثر طبيعية وتعبيرًا، ويُظهر تحسنًا ملحوظًا في الفهم، واتباع التعليمات، واستدعاء الوظائف. تُسلّط الشركة الضوء على التحسينات في المعايير الداخلية، وتقول إن النموذج يُظهر تفاصيل دقيقة مثل الضحك، والتبديل بين اللغات في منتصف الجملة، ودقة أعلى في المحتوى الأبجدي الرقمي.

ما هو الجديد

  • مدخلات الصورة في جلسات الصوت المباشر. يمكن للمطورين إرفاق صور أو لقطات شاشة أو صور أخرى مع الصوت أو النص؛ ويستطيع النموذج الإجابة على أسئلة بصرية، وقراءة النصوص في لقطات الشاشة (بأسلوب التعرف الضوئي على الحروف)، ودمج فهم المشهد في الرد الصوتي. يُمكّن هذا من تنفيذ مهام سير عمل مثل طرح أسئلة وأجوبة بصرية أثناء المكالمة، أو تقديم دعم متعدد الوسائط لخدمة العملاء.
  • كلام إلى كلام، زمن انتقال أقل، أصوات أكثر تعبيرا. يُقدّم GPT-Realtime مخرجات صوتية أصلية مع زمن انتقال منخفض مقارنةً بسلاسل STT→LLM→TTS القديمة، ويأتي مزودًا بخيارات صوتية معبرة (يُشار إليها باسم "Cedar" و"Marine" في التغطية). صُمّم النموذج لتتبع التعليمات وفهم الحوار بدقة.
  • ميزات تكامل المؤسسة. يُضيف تحديث واجهة برمجة التطبيقات في الوقت الفعلي إمكانياتٍ مُخصصة للشركات، مثل دعم خادم MCP ومكالمات الهاتف SIP، مما يُمكّن وكلاء الصوت من الاتصال بشبكات الهاتف وأنظمة PBX مُباشرةً. تُستهدف هذه الإضافات دعم العملاء ونشر مراكز الاتصال.

المعايير

BigBench Audio (الاستدلال): 82.8% - من أعلى 65.6% على نموذج OpenAI في الوقت الفعلي لشهر ديسمبر 2024. هذا هو معيار الاستدلال الرئيسي المُبلّغ عنه لمهام الاستدلال الصوتي.

MultiChallenge (التعليمات التالية، الصوت): ~30.5% vs ~ 20.6٪ في السابق - يظهر التزامًا محسنًا بالتعليمات المنطوقة المعقدة أو متعددة الخطوات.

ComplexFuncBench (نجاح استدعاء الوظيفة): ~66.5% vs ~ 49.7٪ في السابق - موثوقية أفضل عندما يتعين على النموذج استدعاء الأدوات/الوظائف أثناء جلسة صوتية.

التكلفة والزمن: تذكر OpenAI أن النموذج الجديد يقلل من تكلفة الصوت لكل رمز (أقل بنسبة 20% تقريبًا من المعاينة السابقة في الوقت الفعلي) ويعمل كنموذج واحد من البداية إلى النهاية (لا توجد سلسلة STT → LM → TTS منفصلة)، مما يقلل من زمن الوصول من البداية إلى النهاية في التدفقات التفاعلية في الوقت الفعلي.

تقول شركة OpenAI gpt-realtime يُظهر النموذج تحسينات جوهرية في مجموعة من المعايير الموضوعية والسلوكيات العملية - درجات أعلى في BigBench Audio وفي تقييمات متابعة التعليمات/استدعاء الوظائف - ومعالجة أفضل للأبجدية الرقمية والكلمات المفتاحية وتبديل اللغات في الصوت المباشر. كما طرحت الشركة صوتين جديدين (Cedar وMarin) وأفادت بانخفاض في السعر بنسبة 20% مقارنةً بنموذج المعاينة الفوري السابق.

واجهة برمجة التطبيقات في الوقت الفعلي و gpt-realtime أصبحت النماذج متاحة الآن للمطورين (GA)، كما خفضت OpenAI أيضًا سعر واجهة برمجة التطبيقات في الوقت الفعلي مع هذا التحديث، مما أدى إلى تقليل إدخال الصوت إلى 32 دولارًا لكل مليون رمز وإخراج الصوت إلى 64 دولارًا لكل مليون رمز، وهو انخفاض بنسبة 20٪ عن السعر السابق، مما يوفر للمطورين حلاً أكثر اقتصادا.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول  GPT-5 من خلال CometAPI، أحدث إصدارات النماذج المدرجة هي اعتبارًا من تاريخ نشر المقال. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

أحدث التكامل gpt-realtime ستظهر قريبًا على CometAPI، لذا ترقبوا ذلك!

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%