واجهة برمجة تطبيقات الصوت GPT-4o: موحد /chat/completions امتداد نقطة النهاية الذي يقبل مدخلات الصوت (والنص) المشفرة بواسطة Opus ويعيد الكلام أو النصوص المركبة مع معلمات قابلة للتكوين (النموذج =gpt-4o-audio-preview-<date>, speed, temperature) للتفاعلات الصوتية الدفعية والمتدفقة.
المعلومات الأساسية عن GPT-4o Audio
معاينة صوت GPT-4o (gpt-4o-audio-preview-2025-06-03) هو أحدث إصدار من OpenAI نموذج اللغة الكبير المرتكز على الكلام متاح من خلال المعيار واجهة برمجة تطبيقات إكمال الدردشة بدلاً من قناة الوقت الفعلي فائقة السرعة. مبنية على نفس أساس "أومني" مثل GPT-4o، هذا الإصدار متخصص في إدخال وإخراج الكلام عالي الدقة للمحادثات القائمة على الأدوار، وإنشاء المحتوى، وأدوات إمكانية الوصول، وسير العمل الوكيل التي لا تتطلب توقيتًا بالمللي ثانية. يرث جميع نقاط قوة تحليل النصوص لنماذج فئة GPT-4 مع إضافة الكلام من طرف إلى طرف (S2S) خطوط الأنابيب، حتمية استدعاء الوظيفة، والجديد speed المعلمة للتحكم في معدل الصوت.
مجموعة الميزات الأساسية لبرنامج GPT-4o Audio
• معالجة الكلام إلى الكلام الموحدة - يتم تحويل الصوت مباشرة إلى رموز غنية دلاليًا، ويتم التفكير فيها وإعادة تركيبها دون خدمات STT/TTS خارجية، مما ينتج عنه ثبات جرس الصوت، والعروض، والاحتفاظ بالسياق.
• تحسين متابعة التعليمات – ضبط يونيو 2025 يحقق +19 نقطة نجاح في الاختبار الأول فيما يتعلق بمهام الأوامر الصوتية مقابل خط الأساس GPT-2024o لشهر مايو 4، مما يقلل من الهلوسة في مجالات مثل دعم العملاء وصياغة المحتوى.
• استدعاء أداة مستقرة - مخرجات النموذج JSON منظم يتوافق مع مخطط استدعاء الوظيفة OpenAI، مما يتيح تشغيل واجهات برمجة التطبيقات الخلفية (البحث والحجز والمدفوعات) باستخدام >95% دقة الحجة.
• speed المعلمة (0.25–4×) - يمكن للمطورين تعديل تشغيل الكلام للتعلم البطيء، أو السرد العادي، أو أوضاع "القراءة السريعة المسموعة"، بدون إعادة تركيب النص خارجيًا.
• أخذ الأدوار مع مراعاة المقاطعة - على الرغم من عدم اعتمادها على زمن الوصول مثل الإصدار الفعلي، إلا أن المعاينة تدعم البث الجزئي:يتم إصدار الرموز بمجرد حسابها، مما يسمح للمستخدمين بالمقاطعة مبكرًا إذا لزم الأمر.
الهندسة التقنية لـ GPT-4o
• محول أحادي المكدس - مثل جميع مشتقات GPT-4o، تستخدم المعاينة الصوتية مشفر-فك تشفير موحد حيث تمر النصوص والرموز الصوتية عبر كتل انتباه متطابقة، مما يعزز التأريض بين الوسائط.
• ترميز الصوت الهرمي – PCM خام 16 كيلو هرتز → تصحيحات log-mel → رموز صوتية خشنة → الرموز الدلالية. يحقق هذا الضغط متعدد المراحل تقليل عرض النطاق الترددي بمقدار 40–50× مع الحفاظ على الفروق الدقيقة، وتمكين مقاطع مدتها عدة دقائق لكل نافذة سياق.
• أوزان كمية NF4 - يتم تقديم الاستدلال في 4 بت عادي عائم الدقة، وخفض ذاكرة وحدة معالجة الرسومات إلى النصف مقارنةً بـ fp16 والحفاظ عليها أكثر من 70 بثًا مباشرًا (عامل الوقت الفعلي) على عقد A100-80 GB.
• الاهتمام بالبث وتخزين KV - تعمل التضمينات الدوارة للنافذة المنزلقة على الحفاظ على السياق لأكثر من 30 ثانية من الكلام مع الحفاظ على O(L) استخدام الذاكرة، مثالي لمحرري البودكاست أو أدوات القراءة المساعدة.
الإصدارات والتسمية — معاينة المسار مع الإصدارات المختومة بالتاريخ
| تحديد | قناة | الهدف | الافراج عن تاريخ | استقرار |
|---|---|---|---|---|
| معاينة صوتية لبرنامج gpt-4o بتاريخ 2025-06-03 | واجهة برمجة تطبيقات إكمال الدردشة | التفاعلات الصوتية القائمة على الأدوار والمهام الوكيلة | يونيو 03 2025 | عرض (نشجع ردود الفعل) |
العناصر الرئيسية في الاسم:
- gpt-4o - عائلة متعددة الوسائط.
- تسجيل صوتي - تم تحسينه لحالات استخدام الكلام.
- معاينة - قد يتطور عقد API؛ ولكن ليس بعد.
- 2025-06-03 - لقطة للتدريب والنشر من أجل إمكانية إعادة الإنتاج.
كيفية استدعاء واجهة برمجة التطبيقات API الخاصة بـ GPT-4o Audio من CometAPI
GPT-4o Audio API تسعير واجهة برمجة التطبيقات (API) في CometAPI:
- رموز الإدخال: 2 دولار / مليون رمز
- رموز الإخراج: 8 دولار / مليون رمز
الخطوات المطلوبة
- تسجيل الدخول إلى كوميتابي.كوم. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولاً
- احصل على مفتاح API لبيانات اعتماد الوصول للواجهة. انقر على "إضافة رمز" في رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx، ثم أرسله.
- احصل على عنوان URL لهذا الموقع: https://api.cometapi.com/
طرق الاستخدام
- حدد "**
gpt-4o-audio-preview-2025-06-03**نقطة نهاية لإرسال الطلب وتعيين نصه. يتم الحصول على طريقة الطلب ونصه من وثيقة واجهة برمجة التطبيقات (API) الخاصة بموقعنا الإلكتروني. كما يوفر موقعنا الإلكتروني اختبار Apifox لتسهيل الأمر عليك. - يستبدل باستخدام مفتاح CometAPI الفعلي الخاص بك من حسابك.
- أدخل سؤالك أو طلبك في حقل المحتوى - وهذا ما سيستجيب له النموذج.
- . قم بمعالجة استجابة API للحصول على الإجابة الناتجة.
للحصول على معلومات حول الوصول إلى النموذج في Comet API، يرجى الاطلاع على وثيقة API.
للحصول على معلومات حول سعر النموذج في Comet API، يرجى الاطلاع على https://api.cometapi.com/pricing.
سير عمل واجهة برمجة التطبيقات — إكمالات الدردشة باستخدام أجزاء الصوت وخطافات الوظائف
- نمط الإدخال -
audio/*MIME أوbase64أجزاء WAV المضمنة فيmessages[].content. - خيارات الإخراج -
•mode: "text"→ نص نقي للترجمة.
•mode: "audio"→ يعيد متدفق حمولة Opus أو µ-law مع الطوابع الزمنية. - استدعاء الوظيفة - أضف
functions:المخطط؛ النموذج يصدرrole: "function"مع حجج JSON؛ يقوم المطور بتنفيذ استدعاء الأداة وينقل النتيجة بشكل اختياري. - مراقبة معدل - جلس
voice.speed=1.25لتسريع التشغيل؛ النطاقات الآمنة 0.25–4.0. - حدود الرمز/الصوت - 128 كيلو بايت من السياق (حوالي 4 دقائق من الكلام) عند الإطلاق؛ 4096 رمزًا صوتيًا / 8192 رمزًا نصيًا أيهما أولا.
عينة من الكود وتكامل واجهة برمجة التطبيقات
pythonimport openai
openai.api_key = "YOUR_API_KEY"
# Single-step audio completion (batch)
with open("prompt.wav", "rb") as audio:
response = openai.ChatCompletion.create(
model="gpt-4o-audio-preview-2025-06-03",
messages=[
{"role": "system", "content": "You are a helpful voice assistant."},
{"role": "user", "content": "audio", "audio": audio}
],
temperature=0.3,
speed=1.2 # 20% faster playback
)
print(response.choices.message)
- الصفقات المميزة:
- نموذج:
"gpt-4o-audio-preview-2025-06-03" - تسجيل صوتي مفتاح في المستخدم رسالة لإرسال تيار ثنائي
- سرعة: ضوابط معدل الصوت بين البطيء (0.5) والسريع (2.0)
- درجة الحرارة:الأرصدة الإبداع مقابل التناسق
المؤشرات الفنية — الكمون والجودة والدقة
| متري | معاينة الصوت | GPT-4o (نص فقط) | دلتا |
|---|---|---|---|
| زمن انتقال الرمز الأول (طلقة واحدة) | 1.2 ق المتوسط | 0.35 ق | +0.85 ثانية |
| MOS (طبيعية الكلام، 5 نقاط) | 4.43 | - | - |
| الامتثال للتعليمات (صوتي) | 92% | 73% | +19 ص |
| دقة وسيطة استدعاء الوظيفة | 95.8% | 87% | +8.8 ص |
| معدل خطأ الكلمات (STT الضمني) | 5.2% | ن / أ | - |
| ذاكرة وحدة معالجة الرسومات / التدفق (A100-80GB) | 7.1 جيجا بايت | 14 جيجابايت (fp16) | −49٪ |
تم تنفيذ المعايير القياسية عبر بث إكمالات الدردشة، حجم الدفعة = 1.
انظر أيضا واجهة برمجة التطبيقات GPT-4o في الوقت الفعلي

