النماذجالدعمالمؤسسةمدونة
أكثر من 500 واجهة برمجة تطبيقات لنماذج الذكاء الاصطناعي، الكل في واجهة واحدة. فقط في CometAPI
واجهة برمجة التطبيقات للنماذج
مطور
البدء السريعالتوثيقلوحة تحكم API
الموارد
نماذج الذكاء الاصطناعيمدونةالمؤسسةالسجل التاريخي للتغييراتحول
2025 CometAPI. جميع الحقوق محفوظة.سياسة الخصوصيةشروط الخدمة
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

مدخل:$2/M
الإخراج:$8/M
أفضل نموذج صوتي لإدخال وإخراج الصوت مع Chat Completions.
جديد
الاستخدام التجاري
نظرة عامة
الميزات
التسعير
API

المواصفات التقنية لـ gpt-audio-1.5

البندgpt-audio-1.5 (المواصفات العامة)
عائلة النموذجعائلة GPT Audio (متغير يقدّم الصوت أولاً)
أنواع الإدخالنص، صوت (كلام وارد)
أنواع الإخراجنص، صوت (كلام صادر)، مخرجات مُهيكلة (يدعم استدعاءات الدوال)
نافذة السياق128,000 رمز.
الحد الأقصى لرموز المخرجات16,384 (موثق في قائمة gpt-audio ذات الصلة).
مستوى الأداءذكاء أعلى؛ سرعة متوسطة (متوازنة).
ملف تعريف زمن الاستجابةمُحسّن للتفاعلات الصوتية (كمون متوسط/منخفض حسب نقطة النهاية).
التوافرChat Completions API (إدخال/إخراج صوتي) وPlaygrounds المنصة؛ مدمج عبر أسطح الزمن الحقيقي/الصوت.
ملاحظات الأمان/الاستخدامضوابط حماية للمحتوى الصوتي؛ عامِل مخرجات النموذج بمعايير الأمان والتحقق المعتادة لوكلاء الصوت في بيئات الإنتاج.

ملاحظة: gpt-realtime-1.5 هو متغير وثيق الصلة مُوجّه للصوت/الزمن الحقيقي مع أولوية للصوت ومُحسَّن لزمن استجابة أقل وجلسات آنية؛ قارن أدناه.


ما هو gpt-audio-1.5؟

gpt-audio-1.5 هو نموذج GPT يدعم الصوت ويتيح كلاً من إدخال الكلام وإخراج الكلام عبر Chat Completions وواجهات برمجة التطبيقات الداعمة للصوت ذات الصلة. يُعد النموذج الصوتي الرئيسي المتاح على نطاق واسع لبناء وكلاء صوت وتجارب تُعطي الأولوية للصوت، مع تحقيق توازن بين الجودة والسرعة.


الميزات الرئيسية

  1. دعم الإدخال الصوتي/الإخراج الصوتي: معالجة المدخلات المنطوقة وإرجاع ردود منطوقة أو نصية لتدفقات صوتية طبيعية.
  2. سياق كبير لسير عمل الصوت: يدعم سياقًا ضخمًا (موثق 128k رمز) يتيح محفوظات محادثة متعددة الأدوار وطويلة أو جلسات متعددة الوسائط كبيرة.
  3. التوافق مع البث وChat Completions: يعمل داخل Chat Completions مع بث ردود صوتية ومخرجات مُهيكلة لاستدعاء الدوال.
  4. أداء/كمون متوازن: مضبوط لتقديم ردود صوتية عالية الجودة بمعدل متوسط—مناسب لبرامج الدردشة والمساعدين الصوتيين حيث تهم الجودة.
  5. النظام البيئي والتكاملات: مدعوم في Playgrounds المنصة ومتاح عبر واجهات الزمن الحقيقي/الصوت الرسمية وتكاملات الشركاء (تشير ملاحظات Azure/Microsoft Foundry إلى نماذج صوتية مماثلة).

gpt-audio-1.5 مقارنةً بالنماذج الصوتية ذات الصلة

الخاصيةgpt-audio-1.5gpt-realtime-1.5
التركيز الأساسيإخراج/إدخال صوتي عالي الجودة لـ Chat Completions وتدفقات المحادثة.زمن حقيقي S2S (كلام-إلى-كلام) بكمون أقل للوكلاء الصوتيين المباشرين وسيناريوهات البث.
نافذة السياق128k رمز.32k رمز (متغير الزمن الحقيقي الموثق).
الحد الأقصى لرموز المخرجات16,384 (موثق).يُضبط عادةً لإجابات زمن حقيقي أقصر (تسرد الوثائق حدًا أقصى أصغر للرموز).
أفضل استخدامروبوتات الدردشة، المساعدون المُمكّنون بالصوت حيث تُطلب دلالات الدردشة الكاملة + الصوت.الوكلاء الصوتيون المباشرون، الأكشاك، وواجهات المحادثة منخفضة الكمون.

حالات استخدام تمثيلية

  • وكلاء محادثة صوتيون لدعم العملاء ومكاتب المساعدة الداخلية.
  • مساعدين مُمكّنين بالصوت مدمجين في التطبيقات والأجهزة والأكشاك.
  • سير عمل دون استخدام اليدين (الإملاء، البحث الصوتي، إمكانية الوصول).
  • تجارب متعددة الوسائط تمزج الصوت مع النص/الصور عبر Chat Completions.

القيود واعتبارات التشغيل

  • ليس بديلاً يُستخدم مباشرةً بدل المراجعة البشرية: تحقق دائمًا من مخرجات الصوت والإجراءات اللاحقة بمراجعة بشرية في تدفقات الإنتاج.
  • تخطيط الموارد: قد يزيد السياق الكبير وإدخال/إخراج الصوت من الحوسبة والكمون—صمّم استراتيجيات للبث/التقسيم للجلسات الطويلة.
  • قيود الأمان والسياسات: للمخرجات الصوتية قوة تأثير؛ اتبع إرشادات الأمان وضوابط الحماية الخاصة بالمنصة عند النشر على نطاق واسع.
  • كيفية الوصول إلى GPT Audio 1.5 API

الخطوة 1: التسجيل للحصول على مفتاح API

سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيُرجى التسجيل أولاً. سجّل الدخول إلى CometAPI console. احصل على مفتاح اعتماد الوصول API key للواجهة. انقر “Add Token” ضمن API token في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

cometapi-key

الخطوة 2: إرسال الطلبات إلى GPT Audio 1.5 API

حدّد نقطة النهاية “gpt-audio-1.5” لإرسال طلب الواجهة واضبط جسم الطلب. يُؤخذ أسلوب الطلب وجسم الطلب من مستند واجهة برمجة التطبيقات على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. base url is Chat Completions

أدخل سؤالك أو طلبك في حقل content—هذا ما سيستجيب له النموذج. عالج استجابة الواجهة للحصول على الإجابة المُنشأة.

الخطوة 3: استرجاع النتائج والتحقق منها

عالج استجابة الواجهة للحصول على الإجابة المُنشأة. بعد المعالجة، تستجيب الواجهة بحالة المهمة وبيانات المخرجات.

الأسئلة الشائعة

What are the official context and output token limits for gpt-audio-1.5 API?

يدعم gpt-audio-1.5 نافذة سياق تبلغ 128,000 رمزًا، وتُظهر المستندات إعدادًا أقصى لرموز الإخراج يبلغ نحو 16,384؛ تحقّق من الحدود الدقيقة لكل نقطة نهاية في وثائق المطوّرين. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

نعم — فهو يقبل مدخلات صوتية ويمكنه إرجاع مخرجات صوتية أو استجابات نصية عبر نقاط نهاية Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

اختر gpt-audio-1.5 للحصول على صوت أعلى جودة في تدفقات Chat Completions عندما تكون هناك حاجة إلى سياق أكبر؛ واختر gpt-realtime-1.5 للتفاعلات الصوتية الحية منخفضة الكمون. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

نعم — يدعم النموذج بث الاستجابات الصوتية والمخرجات المنظَّمة/استدعاء الدوال لدمج الأدوات الخارجية وسير العمل. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

نعم — لقد صُمِّم للمساعدين الصوتيين والوكلاء الحواريين، ولكن ينبغي إضافة مراجعة/ضمان جودة بشري، وتسجيل، وضوابط أمان قبل النشر في بيئة الإنتاج. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

تتمثل الاعتبارات الرئيسية في المفاضلات بين الحوسبة وزمن الاستجابة لجلسات الصوت ذات السياق الكبير، والضوابط الوقائية المتعلقة بسلامة المحتوى الصوتي، والحاجة إلى التحقق من مخرجات ASR/TTS ضمن نطاقك. :contentReference[oaicite:49]{index=49}

الميزات لـ gpt-audio-1.5

استكشف الميزات الرئيسية لـ gpt-audio-1.5، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ gpt-audio-1.5

استكشف الأسعار التنافسية لـ gpt-audio-1.5، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ gpt-audio-1.5 تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$2/M
الإخراج:$8/M
مدخل:$2.5/M
الإخراج:$10/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ gpt-audio-1.5

احصل على أكواد نماذجية شاملة وموارد API لـ gpt-audio-1.5 لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ gpt-audio-1.5 في مشاريعك.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

المزيد من النماذج

O

gpt-realtime-1.5

مدخل:$3.2/M
الإخراج:$12.8/M
أفضل نموذج صوتي لإدخال الصوت وإخراج الصوت.
O

Whisper-1

مدخل:$24/M
الإخراج:$24/M
تحويل الكلام إلى نص، وإنشاء ترجمات
O

TTS

مدخل:$12/M
الإخراج:$12/M
تحويل النص إلى كلام من OpenAI
K

Kling TTS

لكل طلب:$0.006608
[تركيب الكلام] أُطلقت حديثًا: تحويل النص إلى صوت بمستوى البث عبر الإنترنت، مع ميزة المعاينة ● يمكن في الوقت نفسه توليد audio_id، لاستخدامه مع أي Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

لكل طلب:$0.03304
Kling تحويل الفيديو إلى صوت
K

Kling text-to-audio

K

Kling text-to-audio

لكل طلب:$0.03304
Kling تحويل النص إلى صوت