GPT-Gerçek Zamanlı ses modeli artık görüntü girişini destekliyor

CometAPI
AnnaAug 28, 2025
GPT-Gerçek Zamanlı ses modeli artık görüntü girişini destekliyor

OpenAI bugün duyurdu ki GPT-Gerçek Zamanlı ses modeli artık görüntü girişini destekliyorBu sürüm, Realtime API'nin beta sürümünden üretim ses aracıları için genel kullanıma sunulmasını işaret ediyor. Bu sürüm, GPT-Realtime'ı, bir oturum sırasında sağlanan görüntülere dayalı yanıtlar verirken, çift yönlü sesli görüşmeler gerçekleştirebilen düşük gecikmeli, konuşmadan konuşmaya geçişli bir model olarak konumlandırıyor.

OpenAI açıklıyor gpt-gerçek zamanlı Bugüne kadarki en gelişmiş konuşmadan konuşmaya modeli olarak: Sesi uçtan uca işliyor (ayrı konuşmadan metne ve metinden konuşmaya adımlarını zincirlemek yerine), daha doğal ve etkileyici bir konuşma üretiyor ve anlama, talimat takibi ve işlev çağırmada ölçülebilir kazanımlar gösteriyor. Şirket, dahili kıyaslamalardaki iyileştirmeleri vurguluyor ve modelin kahkaha, cümle ortasında dil değiştirme ve alfanümerik içerikte daha yüksek doğruluk gibi incelikleri yakaladığını belirtiyor.

Ne var ne yok

  • Canlı ses oturumlarında görüntü girişleri. Geliştiriciler, ses veya metnin yanı sıra fotoğraf, ekran görüntüsü veya diğer görselleri ekleyebilir; model görsel soruları yanıtlayabilir, ekran görüntülerindeki metni okuyabilir (OCR tarzında) ve sahne anlayışını sözlü yanıta dahil edebilir. Bu, bir arama sırasında görsel soru-cevap veya müşteri hizmetleri için çok modlu destek gibi iş akışlarını mümkün kılar.
  • Konuşmadan konuşmaya, daha düşük gecikme, daha etkileyici sesler. GPT-Realtime, eski STT→LLM→TTS zincirlerine kıyasla daha düşük gidiş-dönüş gecikmesiyle yerel ses çıkışı sunar ve etkileyici ses seçenekleriyle birlikte gelir (kapsamda "Cedar" ve "Marine" olarak bildirilir). Model, talimat takibi ve konuşma nüansları için ayarlanmıştır.
  • Kurumsal entegrasyon özellikleri. Realtime API güncellemesi, sesli temsilcilerin telefon şebekelerine ve PBX sistemlerine doğrudan bağlanabilmesi için MCP sunucu desteği ve SIP telefon görüşmesi gibi kurumsal odaklı özellikler ekliyor. Bu eklemeler, müşteri desteği ve iletişim merkezi dağıtımlarını hedefliyor.

Deneyler

BigBench Audio (muhakeme): %82.8 — yukarı 65.6% OpenAI'nin Aralık 2024 gerçek zamanlı modelinde. Bu, ses destekli muhakeme görevleri için bildirilen temel muhakeme kıyaslamasıdır.

MultiChallenge (talimatlar takip edilir, ses): ~%30.5 vs ~% 20.6 önceden — çok adımlı veya karmaşık sözlü talimatlara daha iyi uyum sağladığını gösteriyor.

ComplexFuncBench (fonksiyon çağırma başarısı): ~%66.5 vs ~% 49.7 önceden — modelin bir ses oturumu sırasında araçları/fonksiyonları çağırması gerektiğinde daha iyi güvenilirlik.

Maliyet ve gecikme: OpenAI, yeni modelin token başına ses maliyetini azalttığını (önceki gerçek zamanlı önizlemeye göre yaklaşık %20 daha düşük) ve tek bir uçtan uca model olarak çalıştığını (ayrı bir STT → LM → TTS zinciri yok) ve bu sayede gerçek zamanlı etkileşimli akışlarda uçtan uca gecikmeyi azalttığını belirtiyor.

OpenAI diyor ki gpt-realtime Model, çeşitli nesnel kıyaslamalarda ve gerçek dünya davranışlarında önemli iyileştirmeler gösteriyor; BigBench Audio'da ve talimat izleme/işlev çağırma değerlendirmelerinde daha yüksek puanlar ve canlı seste alfanümerik karakterlerin, kod sözcüklerinin ve dil geçişlerinin daha iyi işlenmesi. Şirket ayrıca iki yeni ses (Cedar ve Marin) tanıttı ve önceki gerçek zamanlı önizleme modeline kıyasla %20 fiyat indirimi bildirdi.

Gerçek Zamanlı API ve gpt-realtime Model artık geliştiricilerin (GA) kullanımına sunulmuş durumda. OpenAI ayrıca bu güncellemeyle Gerçek Zamanlı API'sinin fiyatını düşürerek ses girişini milyon token başına 32 dolara, ses çıkışını ise milyon token başına 64 dolara düşürdü. Bu, önceki fiyattan %20'lik bir indirim anlamına geliyor ve geliştiricilere daha ekonomik bir çözüm sağlıyor.

Başlamak

CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.

Geliştiriciler erişebilir  GPT 5 CometAPI aracılığıyla listelenen en son model sürümleri, makalenin yayınlandığı tarih itibarıyla geçerlidir. Başlangıç ​​olarak, modelin yeteneklerini keşfedin. Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.

En son entegrasyon gpt-realtime yakında CometAPI'de görünecek, bu yüzden bizi izlemeye devam edin!

Devamını Oku

500+ Model Tek Bir API'de

%20'ye Varan İndirim