GPT-4o Ses API'si: Birleşik bir /chat/completions Opus tarafından kodlanmış ses (ve metin) girişlerini kabul eden ve yapılandırılabilir parametrelerle sentezlenmiş konuşma veya transkriptleri döndüren uç nokta uzantısı (model=gpt-4o-audio-preview-<date>, speed, temperature) toplu ve akışlı ses etkileşimleri için.
GPT-4o Audio'nun temel bilgileri
GPT-4o Ses Önizlemesi (gpt-4o-audio-preview-2025-06-03) OpenAI'nin en yenisidir konuşma merkezli büyük dil modeli standart aracılığıyla kullanıma sunuldu Sohbet Tamamlamaları API'sı ultra düşük gecikmeli Gerçek Zamanlı kanal yerine. GPT-4o ile aynı "omni" temel üzerine inşa edilen bu varyant, yüksek doğrulukta konuşma girişi ve çıkışı sıra tabanlı konuşmalar, içerik oluşturma, erişilebilirlik araçları ve milisaniye zamanlaması gerektirmeyen aracı iş akışları için. GPT-4 sınıfı modellerin tüm metin akıl yürütme güçlerini devralırken uçtan uca konuşma-konuşmaya (S2S) boru hatları, deterministik işlev çağrısıve yeni speed parametre ses hızı kontrolü için.
GPT-4o Audio'nun Temel Özellik Seti
• Birleşik Konuşmadan Konuşmaya İşleme – Ses, doğrudan anlamsal açıdan zengin tokenlere dönüştürülür, üzerinde düşünülür ve harici STT/TTS hizmetleri olmadan yeniden sentezlenir, bu da tutarlı ses tınısı, prozodi ve bağlam tutma.
• Gelişmiş Talimat Takibi – Haziran-2025 ayarlaması teslim edildi +19 s geçiş-at-1 Sesli komut görevlerinde Mayıs 2024 GPT-4 baz alınarak müşteri desteği ve içerik taslağı hazırlama gibi alanlarda halüsinasyonların azaltılması.
• Kararlı Araç Çağrısı – Model çıktıları yapılandırılmış JSON OpenAI fonksiyon çağırma şemasına uygun olan ve arka uç API'lerinin (arama, rezervasyon, ödemeler) tetiklenmesini sağlayan >%95 argüman doğruluğu.
• speed Parametre (0.25–4×) – Geliştiriciler, yavaş tempolu öğrenme, normal anlatım veya hızlı "duyulabilir okuma" modları için konuşma oynatmayı düzenleyebilir, olmadan Metni dışarıdan yeniden sentezlemek.
• Kesinti Farkında Sıra Alma – Gerçek zamanlı varyant kadar gecikme odaklı olmasa da, önizleme şunları destekler: kısmi yayın: jetonlar hesaplandıktan hemen sonra yayılır ve kullanıcıların gerektiğinde erken müdahalede bulunmalarına olanak tanır.
GPT-4o'nun Teknik Mimarisi
• Tek Yığınlı Trafo – Tüm GPT-4 türevleri gibi, ses önizlemesi de bir birleşik kodlayıcı-kod çözücü metin ve akustik belirteçlerin aynı dikkat bloklarından geçtiği, böylece çapraz-modal temellendirmenin desteklendiği.
• Hiyerarşik Ses Belirteçlemesi – Ham 16 kHz PCM → log-mel yamaları → kaba akustik kodlar → anlamsal belirteçlerBu çok aşamalı sıkıştırma, 40–50x bant genişliği azaltma nüansı korurken, bağlam penceresi başına çok dakikalık kliplere olanak tanır.
• NF4 Nicemlenmiş Ağırlıklar – Çıkarım şu şekilde sunulur: 4-bit Normal-Float hassasiyet, GPU belleğini fp16'ya kıyasla yarı yarıya azaltma ve sürdürme 70+ akışlı RTF (gerçek zamanlı faktör) A100-80 GB düğümlerinde.
• Akış Dikkat ve KV Önbelleğe Alma – Kayan pencereli döner yerleştirmeler, yaklaşık 30 saniyelik konuşma boyunca bağlamı korurken O (L) bellek kullanımı, podcast editörleri veya yardımcı okuma araçları için idealdir.
Sürümleme ve Adlandırma — Tarih Damgalı Yapılarla Önizleme Parçası
| Tanımlayıcı | Telegram Kanal | Amaç | Tarihi bırakın | istikrar |
|---|---|---|---|---|
| gpt-4o-ses-önizleme-2025-06-03 | Sohbet Tamamlamaları API'sı | Sıra tabanlı ses etkileşimleri, aracılık görevleri | Haziran 03 2025 | Önizleme (geri bildirim teşvik edilir) |
İsimdeki temel unsurlar:
- gpt-4o – Omni multimodal aile.
- ses – Konuşma kullanım durumları için optimize edilmiştir.
- önizleme – API sözleşmesi gelişebilir; henüz GA değil.
- 2025-06-03 – Tekrarlanabilirlik için eğitim ve dağıtım anlık görüntüsü.
CometAPI'den GPT-4o Audio API API'sini nasıl çağırabilirim?
GPT-4o Audio API CometAPI'de API Fiyatlandırması:
- Giriş Jetonları: 2$ / M jeton
- Çıktı Tokenları: 8$ / M token
Gerekli Adımlar
- Giriş cometapi.com. Eğer henüz kullanıcımız değilseniz lütfen önce kayıt olun
- Arayüzün erişim kimlik bilgisi API anahtarını edinin. Kişisel merkezdeki API belirtecinde “Token Ekle”ye tıklayın, belirteç anahtarını edinin: sk-xxxxx ve gönderin.
- Bu sitenin URL'sini alın: https://api.cometapi.com/
Kullanım Yöntemleri
- "Seçin**
gpt-4o-audio-preview-2025-06-03**” isteği göndermek ve istek gövdesini ayarlamak için uç nokta. İstek yöntemi ve istek gövdesi web sitemizin API dokümanından elde edilir. Web sitemiz ayrıca kolaylığınız için Apifox testi de sağlar. - Yer değiştirmek Hesabınızdaki gerçek CometAPI anahtarınızla.
- Sorunuzu veya isteğinizi içerik alanına girin; model buna cevap verecektir.
- . Üretilen cevabı almak için API yanıtını işleyin.
Comet API'deki Model Erişim bilgileri için lütfen şuraya bakın: API belgesi.
Comet API'deki Model Fiyatı bilgisi için lütfen şuraya bakın: https://api.cometapi.com/pricing.
API İş Akışı — Ses Parçaları ve Fonksiyon Kancalarıyla Sohbet Tamamlamaları
- Giriş biçimi -
audio/*MIME veyabase64WAV parçaları gömülümessages[].content. - Çıktı Seçenekleri -
•mode: "text"→ altyazı için saf metin.
•mode: "audio"→ bir döndürür akış Zaman damgalı Opus veya µ-law yükü. - Fonksiyon Çağrısı - ekle
functions:şema; model yayarrole: "function"JSON argümanlarıyla; geliştirici araç çağrısını yürütür ve isteğe bağlı olarak sonucu geri iletir. - Oranı Kontrolü - Ayarlamak
voice.speed=1.25oynatmayı hızlandırmak için; güvenli aralıklar 0.25–4.0. - Jeton/Ses Limitleri – Lansmanda 128 bin bağlam (~4 dakikalık konuşma); 4096 ses belirteci / 8192 metin belirteci hangisi önce olursa.
Örnek Kod ve API Entegrasyonu
pythonimport openai
openai.api_key = "YOUR_API_KEY"
# Single-step audio completion (batch)
with open("prompt.wav", "rb") as audio:
response = openai.ChatCompletion.create(
model="gpt-4o-audio-preview-2025-06-03",
messages=[
{"role": "system", "content": "You are a helpful voice assistant."},
{"role": "user", "content": "audio", "audio": audio}
],
temperature=0.3,
speed=1.2 # 20% faster playback
)
print(response.choices.message)
- Özet::
- model:
"gpt-4o-audio-preview-2025-06-03" - ses anahtar kullanıcı ikili akışı göndermek için mesaj
- hız: Kontroller ses oranı yavaş (0.5) ve hızlı (2.0) arasında
- sıcaklık: Bakiyeler yaratıcılık vs tutarlılık
Teknik Göstergeler — Gecikme, Kalite, Doğruluk
| metrik | Ses Önizleme | GPT-4o (Yalnızca Metin) | Delta |
|---|---|---|---|
| İlk Token Gecikmesi (1 atış) | 1.2 s ort | 0.35 s | +0.85 sn |
| MOS (Konuşma Doğallığı, 5 puan) | 4.43 | - | - |
| Talimat Uyumluluğu (Sesli) | 92% | 73% | +19 puan |
| Fonksiyon Çağrısı Arg Doğruluğu | 95.8% | 87% | +8.8 puan |
| Kelime Hata Oranı (Gizli STT) | 5.2% | n/a | - |
| GPU Bellek / Akış (A100-80GB) | 7.1 GB | 14 GB (fp16) | .49% XNUMX |
Chat Completions akışı üzerinden gerçekleştirilen kıyaslamalar, toplu boyut = 1.
Ayrıca bakınız GPT-4o Gerçek Zamanlı API

