GPT-4o آڈیو API: ایک متحد /chat/completions اینڈ پوائنٹ ایکسٹینشن جو Opus-encoded آڈیو (اور ٹیکسٹ) ان پٹس کو قبول کرتی ہے اور قابل ترتیب پیرامیٹرز (ماڈل=) کے ساتھ ترکیب شدہ تقریر یا ٹرانسکرپٹ واپس کرتی ہے۔gpt-4o-audio-preview-<date>, speed, temperature) بیچ اور اسٹریمنگ صوتی تعاملات کے لیے۔
GPT-4o آڈیو کی بنیادی معلومات
GPT-4o آڈیو پیش نظارہ (gpt-4o-audio-preview-2025-06-03) OpenAI کا تازہ ترین ہے۔ تقریر پر مرکوز بڑی زبان کا ماڈل معیاری کے ذریعے دستیاب کیا گیا ہے۔ چیٹ تکمیل API انتہائی کم تاخیر والے ریئل ٹائم چینل کے بجائے۔ GPT-4o جیسی "اومنی" فاؤنڈیشن پر بنایا گیا، یہ ویرینٹ مہارت رکھتا ہے۔ اعلی مخلص تقریر ان پٹ اور آؤٹ پٹ باری پر مبنی گفتگو، مواد کی تخلیق، ایکسیسبیلٹی ٹولز، اور ایجنٹ ورک فلو کے لیے جن کے لیے ملی سیکنڈ ٹائمنگ کی ضرورت نہیں ہے۔ یہ شامل کرتے وقت GPT-4-کلاس ماڈلز کی تمام ٹیکسٹ ریزننگ طاقتوں کا وارث ہے۔ اختتام سے آخر تک تقریر سے تقریر (S2S) پائپ لائنز، تعییناتی فنکشن کالنگاور نئے speed پیرامیٹر آواز کی شرح کو کنٹرول کرنے کے لیے۔
GPT-4o آڈیو کا بنیادی فیچر سیٹ
• یونیفائیڈ اسپیچ ٹو اسپیچ پروسیسنگ - آڈیو کو براہ راست معنوی لحاظ سے بھرپور ٹوکنز میں تبدیل کر دیا جاتا ہے، اس پر استدلال کیا جاتا ہے، اور بیرونی STT/TTS خدمات کے بغیر دوبارہ ترکیب کیا جاتا ہے، نتیجہ برآمد ہوتا ہے۔ مسلسل آواز کی ٹمبر، پرسوڈی، اور سیاق و سباق کو برقرار رکھنا.
• مندرجہ ذیل بہتر ہدایات - جون-2025 ٹیوننگ ڈیلیور کرتا ہے۔ +19 پی پی پاس-ایٹ-1 مئی-2024 GPT-4o بیس لائن کے مقابلے میں وائس کمانڈ کے کاموں پر، ڈومینز جیسے کسٹمر سپورٹ اور مواد کی ڈرافٹنگ میں فریب کو کم کرنا۔
• مستحکم ٹول کالنگ - ماڈل آؤٹ پٹس ساختہ JSON جو OpenAI فنکشن کالنگ اسکیما کے مطابق ہے، بیک اینڈ APIs (تلاش، بکنگ، ادائیگیوں) کو فعال کرنے کے ساتھ >95% دلیل کی درستگی.
• speed پیرامیٹر (0.25–4×) - ڈویلپرز سست رفتار سیکھنے، عام بیانیہ، یا تیز رفتار "آڈیبل سکم" موڈز کے لیے اسپیچ پلے بیک کو ماڈیول کر سکتے ہیں، بغیر بیرونی طور پر متن کی دوبارہ ترکیب۔
• مداخلت سے آگاہی موڑ لینا - اگرچہ ریئل ٹائم ویرینٹ کی طرح تاخیر سے چلنے والا نہیں، پیش نظارہ سپورٹ کرتا ہے۔ جزوی سلسلہ بندی: ٹوکن جیسے ہی ان کی گنتی کی جاتی ہے خارج ہو جاتے ہیں، اگر ضرورت ہو تو صارفین کو جلد مداخلت کرنے کی اجازت دیتے ہیں۔
GPT-4o کا تکنیکی فن تعمیر
• سنگل اسٹیک ٹرانسفارمر - تمام GPT-4o مشتقات کی طرح، آڈیو پیش نظارہ ایک کو ملازمت دیتا ہے۔ متحد انکوڈر - ڈیکوڈر جہاں متن اور صوتی ٹوکن ایک جیسے توجہ والے بلاکس سے گزرتے ہیں، کراس موڈل گراؤنڈنگ کو فروغ دیتے ہیں۔
• درجہ بندی آڈیو ٹوکنائزیشن – Raw 16 kHz PCM → لاگ میل پیچ → موٹے صوتی کوڈز → سیمنٹک ٹوکنز. یہ ملٹی اسٹیج کمپریشن حاصل کرتا ہے۔ 40–50× بینڈوتھ کی کمی نزاکت کو محفوظ رکھتے ہوئے، فی سیاق و سباق ونڈو کے لیے ملٹی منٹ کلپس کو فعال کرنا۔
NF4 مقداری وزن - اندازہ پیش کیا جاتا ہے۔ 4 بٹ نارمل فلوٹ درستگی، Fp16 کے مقابلے میں GPU میموری کو نصف کم کرنا اور برقرار رکھنا 70+ سٹریمنگ RTF (ریئل ٹائم فیکٹر) A100-80 GB نوڈس پر۔
• سٹریمنگ توجہ اور KV کیشنگ - سلائیڈنگ ونڈو روٹری ایمبیڈنگز ~30 s تقریر کے دوران سیاق و سباق کو برقرار رکھتی ہیں O(L) میموری کا استعمال، پوڈ کاسٹ ایڈیٹرز یا معاون پڑھنے والے ٹولز کے لیے مثالی۔
ورژن اور نام تاریخ کی مہر والی عمارتوں کے ساتھ پیش نظارہ ٹریک
| شناختی | چینل | مقصد | تاریخ کی رہائی | استحکام |
|---|---|---|---|---|
| gpt-4o-آڈیو-پیش نظارہ-2025-06-03 | چیٹ تکمیل API | موڑ پر مبنی آڈیو تعاملات، ایجنٹی کام | جون 03 2025 | پیش نظارہ (رائے کی حوصلہ افزائی کی گئی) |
نام میں اہم عناصر:
- gpt-4o - اومنی ملٹی موڈل فیملی۔
- آڈیو - تقریر کے استعمال کے معاملات کے لئے موزوں ہے۔
- پیش منظر - API معاہدہ تیار ہو سکتا ہے؛ ابھی تک GA نہیں ہے۔
- 2025-06-03 - تولیدی صلاحیت کے لیے تربیت اور تعیناتی کا سنیپ شاٹ۔
CometAPI سے GPT-4o آڈیو API API کو کیسے کال کریں۔
GPT-4o Audio API CometAPI میں API قیمتوں کا تعین:
- ان پٹ ٹوکنز: $2/M ٹوکن
- آؤٹ پٹ ٹوکنز: $8/M ٹوکن
مطلوبہ اقدامات
- داخل ہوجاو cometapi.com. اگر آپ ابھی تک ہمارے صارف نہیں ہیں، تو براہ کرم پہلے رجسٹر کریں۔
- انٹرفیس کی رسائی کی سند API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر "ٹوکن شامل کریں" پر کلک کریں، ٹوکن کی حاصل کریں: sk-xxxxx اور جمع کرائیں۔
- اس سائٹ کا یو آر ایل حاصل کریں: https://api.cometapi.com/
استعمال کے طریقے
- منتخب کریں “**
gpt-4o-audio-preview-2025-06-03**درخواست بھیجنے اور درخواست کا باڈی سیٹ کرنے کے لیے اینڈ پوائنٹ۔ درخواست کا طریقہ اور درخواست کا باڈی ہماری ویب سائٹ API doc سے حاصل کیا جاتا ہے۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ - بدل دیں۔ آپ کے اکاؤنٹ سے اپنی اصل CometAPI کلید کے ساتھ۔
- مواد کے خانے میں اپنا سوال یا درخواست داخل کریں—یہ وہی ہے جس کا ماڈل جواب دے گا۔
- . تیار کردہ جواب حاصل کرنے کے لیے API جواب پر کارروائی کریں۔
Comet API میں ماڈل تک رسائی کی معلومات کے لیے براہ کرم دیکھیں API دستاویز.
Comet API میں ماڈل کی قیمت کی معلومات کے لیے براہ کرم دیکھیں https://api.cometapi.com/pricing.
API ورک فلو - آڈیو پارٹس اور فنکشن ہکس کے ساتھ چیٹ کی تکمیل
- ان پٹ فارمیٹ -
audio/*MIME یاbase64WAV ٹکڑوں میں سرایت کر دی گئی۔messages[].content. - آؤٹ پٹ کے اختیارات -
•mode: "text"→ کیپشن کے لیے خالص متن۔
•mode: "audio"→ واپسی a محرومی ٹائم اسٹیمپ کے ساتھ Opus یا µ-law پے لوڈ۔ - فنکشن انووکیشن - شامل کریں
functions:سکیما ماڈل خارج کرتا ہےrole: "function"JSON دلائل کے ساتھ؛ ڈویلپر ٹول کال کو انجام دیتا ہے اور اختیاری طور پر نتیجہ واپس کرتا ہے۔ - شرح کنٹرول - سیٹ کریں
voice.speed=1.25پلے بیک کو تیز کرنے کے لیے؛ محفوظ رینجز 0.25–4.0۔ - ٹوکن/آڈیو کی حدود - لانچ کے وقت 128 k سیاق و سباق (~ 4 منٹ کی تقریر)؛ 4096 آڈیو ٹوکنز / 8192 ٹیکسٹ ٹوکن جو بھی پہلے.
نمونہ کوڈ اور API انٹیگریشن
pythonimport openai
openai.api_key = "YOUR_API_KEY"
# Single-step audio completion (batch)
with open("prompt.wav", "rb") as audio:
response = openai.ChatCompletion.create(
model="gpt-4o-audio-preview-2025-06-03",
messages=[
{"role": "system", "content": "You are a helpful voice assistant."},
{"role": "user", "content": "audio", "audio": audio}
],
temperature=0.3,
speed=1.2 # 20% faster playback
)
print(response.choices.message)
- جھلکیاں:
- ماڈل:
"gpt-4o-audio-preview-2025-06-03" - آڈیو کلیدی میں صارف بائنری سٹریم بھیجنے کے لیے پیغام
- تیزی: کنٹرولز آواز کی شرح سست (0.5) اور تیز (2.0) کے درمیان
- درجہ حرارت: بیلنس تخلیقی بمقابلہ مستقل مزاجی
تکنیکی اشارے - تاخیر، معیار، درستگی
| میٹرک | آڈیو پیش نظارہ | GPT-4o (صرف متن) | ڈیلٹا |
|---|---|---|---|
| پہلا ٹوکن لیٹینسی (1 شاٹ) | کے 1.2 اوسط | کے 0.35 | +0.85 سیکنڈ |
| MOS (تقریر کی فطرت، 5-pt) | 4.43 | - | - |
| ہدایات کی تعمیل (آواز) | 92٪ | 73٪ | +19 صفحہ |
| فنکشن کال آرگ کی درستگی | 95.8٪ | 87٪ | +8.8 صفحہ |
| لفظ کی خرابی کی شرح (مضمون STT) | 5.2٪ | N / A | - |
| GPU میموری / سٹریم (A100-80GB) | 7.1 GB | 14 جی بی (fp16) | −49% |
بینچ مارکس کو چیٹ کی تکمیلات کی سٹریمنگ کے ذریعے عمل میں لایا گیا، بیچ سائز = 1۔
یہ بھی دیکھتے ہیں GPT-4o ریئل ٹائم API

