GPT-4o Ses API'si

CometAPI
AnnaJun 3, 2025
GPT-4o Ses API'si

GPT-4o Ses API'si: Birleşik bir /chat/completions Opus tarafından kodlanmış ses (ve metin) girişlerini kabul eden ve yapılandırılabilir parametrelerle sentezlenmiş konuşma veya transkriptleri döndüren uç nokta uzantısı (model=gpt-4o-audio-preview-<date>, speed, temperature) toplu ve akışlı ses etkileşimleri için.

GPT-4o Audio'nun temel bilgileri

GPT-4o Ses Önizlemesi (gpt-4o-audio-preview-2025-06-03) OpenAI'nin en yenisidir konuşma merkezli büyük dil modeli standart aracılığıyla kullanıma sunuldu Sohbet Tamamlamaları API'sı ultra düşük gecikmeli Gerçek Zamanlı kanal yerine. GPT-4o ile aynı "omni" temel üzerine inşa edilen bu varyant, yüksek doğrulukta konuşma girişi ve çıkışı sıra tabanlı konuşmalar, içerik oluşturma, erişilebilirlik araçları ve milisaniye zamanlaması gerektirmeyen aracı iş akışları için. GPT-4 sınıfı modellerin tüm metin akıl yürütme güçlerini devralırken uçtan uca konuşma-konuşmaya (S2S) boru hatları, deterministik işlev çağrısıve yeni speed parametre ses hızı kontrolü için.


GPT-4o Audio'nun Temel Özellik Seti

Birleşik Konuşmadan Konuşmaya İşleme – Ses, doğrudan anlamsal açıdan zengin tokenlere dönüştürülür, üzerinde düşünülür ve harici STT/TTS hizmetleri olmadan yeniden sentezlenir, bu da tutarlı ses tınısı, prozodi ve bağlam tutma.
Gelişmiş Talimat Takibi – Haziran-2025 ayarlaması teslim edildi +19 s geçiş-at-1 Sesli komut görevlerinde Mayıs 2024 GPT-4 baz alınarak müşteri desteği ve içerik taslağı hazırlama gibi alanlarda halüsinasyonların azaltılması.
Kararlı Araç Çağrısı – Model çıktıları yapılandırılmış JSON OpenAI fonksiyon çağırma şemasına uygun olan ve arka uç API'lerinin (arama, rezervasyon, ödemeler) tetiklenmesini sağlayan >%95 argüman doğruluğu.
speed Parametre (0.25–4×) – Geliştiriciler, yavaş tempolu öğrenme, normal anlatım veya hızlı "duyulabilir okuma" modları için konuşma oynatmayı düzenleyebilir, olmadan Metni dışarıdan yeniden sentezlemek.
Kesinti Farkında Sıra Alma – Gerçek zamanlı varyant kadar gecikme odaklı olmasa da, önizleme şunları destekler: kısmi yayın: jetonlar hesaplandıktan hemen sonra yayılır ve kullanıcıların gerektiğinde erken müdahalede bulunmalarına olanak tanır.


GPT-4o'nun Teknik Mimarisi

• Tek Yığınlı Trafo – Tüm GPT-4 türevleri gibi, ses önizlemesi de bir birleşik kodlayıcı-kod çözücü metin ve akustik belirteçlerin aynı dikkat bloklarından geçtiği, böylece çapraz-modal temellendirmenin desteklendiği.
• Hiyerarşik Ses Belirteçlemesi – Ham 16 kHz PCM → log-mel yamaları → kaba akustik kodlaranlamsal belirteçlerBu çok aşamalı sıkıştırma, 40–50x bant genişliği azaltma nüansı korurken, bağlam penceresi başına çok dakikalık kliplere olanak tanır.
• NF4 Nicemlenmiş Ağırlıklar – Çıkarım şu şekilde sunulur: 4-bit Normal-Float hassasiyet, GPU belleğini fp16'ya kıyasla yarı yarıya azaltma ve sürdürme 70+ akışlı RTF (gerçek zamanlı faktör) A100-80 GB düğümlerinde.
• Akış Dikkat ve KV Önbelleğe Alma – Kayan pencereli döner yerleştirmeler, yaklaşık 30 saniyelik konuşma boyunca bağlamı korurken O (L) bellek kullanımı, podcast editörleri veya yardımcı okuma araçları için idealdir.


Sürümleme ve Adlandırma — Tarih Damgalı Yapılarla Önizleme Parçası

TanımlayıcıTelegram KanalAmaçTarihi bırakınistikrar
gpt-4o-ses-önizleme-2025-06-03Sohbet Tamamlamaları API'sıSıra tabanlı ses etkileşimleri, aracılık görevleriHaziran 03 2025Önizleme (geri bildirim teşvik edilir)

İsimdeki temel unsurlar:

  1. gpt-4o – Omni multimodal aile.
  2. ses – Konuşma kullanım durumları için optimize edilmiştir.
  3. önizleme – API sözleşmesi gelişebilir; henüz GA değil.
  4. 2025-06-03 – Tekrarlanabilirlik için eğitim ve dağıtım anlık görüntüsü.

CometAPI'den GPT-4o Audio API API'sini nasıl çağırabilirim?

GPT-4o Audio API CometAPI'de API Fiyatlandırması:

  • Giriş Jetonları: 2$ / M jeton
  • Çıktı Tokenları: 8$ / M token

Gerekli Adımlar

  • Giriş cometapi.com. Eğer henüz kullanıcımız değilseniz lütfen önce kayıt olun
  • Arayüzün erişim kimlik bilgisi API anahtarını edinin. Kişisel merkezdeki API belirtecinde “Token Ekle”ye tıklayın, belirteç anahtarını edinin: sk-xxxxx ve gönderin.
  • Bu sitenin URL'sini alın: https://api.cometapi.com/

Kullanım Yöntemleri

  1. "Seçin**gpt-4o-audio-preview-2025-06-03**” isteği göndermek ve istek gövdesini ayarlamak için uç nokta. İstek yöntemi ve istek gövdesi web sitemizin API dokümanından elde edilir. Web sitemiz ayrıca kolaylığınız için Apifox testi de sağlar.
  2. Yer değiştirmek Hesabınızdaki gerçek CometAPI anahtarınızla.
  3. Sorunuzu veya isteğinizi içerik alanına girin; model buna cevap verecektir.
  4. . Üretilen cevabı almak için API yanıtını işleyin.

Comet API'deki Model Erişim bilgileri için lütfen şuraya bakın: API belgesi.

Comet API'deki Model Fiyatı bilgisi için lütfen şuraya bakın: https://api.cometapi.com/pricing.

API İş Akışı — Ses Parçaları ve Fonksiyon Kancalarıyla Sohbet Tamamlamaları

  1. Giriş biçimi - audio/* MIME veya base64 WAV parçaları gömülü messages[].content.
  2. Çıktı Seçenekleri -
    • mode: "text" → altyazı için saf metin.
    • mode: "audio" → bir döndürür akış Zaman damgalı Opus veya µ-law yükü.
  3. Fonksiyon Çağrısı - ekle functions:  şema; model yayar role: "function" JSON argümanlarıyla; geliştirici araç çağrısını yürütür ve isteğe bağlı olarak sonucu geri iletir.
  4. Oranı Kontrolü - Ayarlamak voice.speed=1.25 oynatmayı hızlandırmak için; güvenli aralıklar 0.25–4.0.
  5. Jeton/Ses Limitleri – Lansmanda 128 bin bağlam (~4 dakikalık konuşma); 4096 ses belirteci / 8192 metin belirteci hangisi önce olursa.

Örnek Kod ve API Entegrasyonu

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Özet::
  • model: "gpt-4o-audio-preview-2025-06-03"
  • ses anahtar kullanıcı ikili akışı göndermek için mesaj
  • hız: Kontroller ses oranı yavaş (0.5) ve hızlı (2.0) arasında
  • sıcaklık: Bakiyeler yaratıcılık vs tutarlılık

Teknik Göstergeler — Gecikme, Kalite, Doğruluk

metrikSes ÖnizlemeGPT-4o (Yalnızca Metin)Delta
İlk Token Gecikmesi (1 atış)1.2 s ort0.35 s+0.85 sn
MOS (Konuşma Doğallığı, 5 puan)4.43--
Talimat Uyumluluğu (Sesli)92%73%+19 puan
Fonksiyon Çağrısı Arg Doğruluğu95.8%87%+8.8 puan
Kelime Hata Oranı (Gizli STT)5.2%n/a-
GPU Bellek / Akış (A100-80GB)7.1 GB14 GB (fp16).49% XNUMX

Chat Completions akışı üzerinden gerçekleştirilen kıyaslamalar, toplu boyut = 1.

Ayrıca bakınız GPT-4o Gerçek Zamanlı API

GPT-4o Ses

Devamını Oku

500+ Model Tek Bir API'de

%20'ye Varan İndirim