GPT-4o Gerçek Zamanlı API

CometAPI
AnnaJun 11, 2025
GPT-4o Gerçek Zamanlı API

GPT-4o Gerçek Zamanlı API: Geliştiricilerin WebRTC veya WebSocket üzerinden senkronize metin, ses ve görüntü verilerini gönderip almalarına olanak tanıyan düşük gecikmeli, çok modlu bir akış uç noktası (model=gpt-4o-realtime-preview-<date>, stream=true) etkileşimli gerçek zamanlı uygulamalar için.


Temel Bilgiler ve Özellikler

OpenAI en GPT-4o Gerçek Zamanlı (model kimliği: gpt-4o-gerçek zamanlı-önizleme-2025-06-03) için tasarlanmış ilk halka açık temel modelidir uçtan uca konuşma-konuşmaya (S2S) ile etkileşimi saniyenin altında gecikme"Omni" GPT-4o ailesinden türetilen Realtime çeşidi, konuşma tanıma, doğal dil muhakemesi ve sinirsel metinden konuşmaya geliştiricilerin insanlar kadar akıcı bir şekilde konuşan ses aracıları oluşturmasına olanak tanıyan tek bir ağa dönüşür. Model, özel olarak oluşturulmuş Gerçek zamanlı API ve yeni ile sıkı bir şekilde entegre edilmiştir Gerçek zamanlıAjan soyutlama içinde Aracılar SDK'sı (TypeScript ve Python).


Temel Özellik Seti — Uçtan Uca S2S • Kesinti Yönetimi • Araç Çağrısı

• Anadil Konuşmadan Konuşmaya: Ses girişi sürekli akışlar olarak alınır, dahili olarak belirteçlenir, üzerinde düşünülür ve sentezlenmiş konuşma olarak geri döndürülür. Harici STT/TTS arabelleklerine gerek yoktur, bu da çok saniyelik boru hattı gecikmesini ortadan kaldırır.
• Milisaniye Ölçekli Gecikme: Mimari budama, model damıtımı ve GPU için optimize edilmiş bir servis yığını etkinleştirir ~300–500 ms ilk belirteç gecikmeleri Tipik bulut dağıtımlarında, insan konuşma sırası alma normlarına yaklaşılıyor.
• Sağlam Talimat Takibi: Konuşma betikleri ve fonksiyon çağırma izleri üzerinde ince ayar yapılmış olan GPT-4o Realtime, Görev yürütme hatalarında >%25 azalma Mayıs-2024 GPT-4 baz yılıyla karşılaştırıldığında.
• Deterministik Araç Çağırma: Model, OpenAI'nin uyumlu yapılandırılmış JSON'unu üretir fonksiyon çağırma şeması, arka uç API'lerinin (rezervasyon sistemleri, veritabanları, IoT) kesin çağrılmasına izin verir. Hata farkında yeniden denemeler ve argüman doğrulaması yerleşiktir.
• Zarif Kesintiler: Artımlı kod çözme ile eşleştirilmiş gerçek zamanlı bir ses etkinliği dedektörü, aracının şunları yapmasını sağlar: cümle ortasında konuşma duraklaması, bir kullanıcı kesintisini özümseyin ve yanıtı sorunsuz bir şekilde sürdürün veya yeniden planlayın.
• Yapılandırılabilir Konuşma Hızı: A new hız parametre (0.25–4x gerçek zaman) geliştiricilerin erişilebilirlik veya hızlı uygulamalar için çıktı hızını uyarlamasına olanak tanır.


Teknik Mimarlık — Birleşik Multimodal Trafo

Birleşik Kodlayıcı-Kod Çözücü: GPT-4o Realtime, omni mimarisinin tek yığınlı trafo ses, metin ve (gelecekteki) görüş belirteçlerinin tek bir gizli alanda bir arada var olduğu. Katman bazında uyarlanabilir hesaplama, ses çerçevelerini doğrudan daha sonraki dikkat bloklarına yönlendirir ve geçiş başına 20-40 ms tıraş eder.

Hiyerarşik Ses Belirteçlemesi: Ham 16 kHz PCM, log-mel yamalarına bölünür → kaba taneli akustik belirteçlere nicemlenir → anlamsal belirteçlere sıkıştırılır ve optimize edilir saniye başına jeton bütçeyi prozodiden ödün vermeden korumak.

Düşük Bit Çıkarım Çekirdekleri: Dağıtılan ağırlıklar şu şekilde çalışır: 4-bit NF4 kantizasyonu Triton / TensorRT-LLM çekirdekleri aracılığıyla, <16 dB MOS kalite kaybını korurken, fp1'ya kıyasla verimi iki katına çıkarır.

Akış Dikkat: Kayan pencereli döner yerleştirmeler ve anahtar-değer önbelleğe alma, modelin telefon görüşmesi uzunluğundaki diyaloglar için önemli olan O(L) belleğiyle son 15 saniyelik sese katılmasını sağlar.


Teknik detaylar

  • API Sürümü: 2025-06-03-preview
  • Taşıma Protokolleri:
  • WebRTC: İstemci tarafındaki ses/video akışları için ultra düşük gecikme süresi (< 80 ms)
  • WebSocket: 100 ms'nin altındaki gecikmeyle sunucudan sunucuya akış
  • Veri Kodlama:
  • opus kodek içinde RTP ses paketleri
  • H.264 / H.265 video için kare sarmalayıcılar
  • akış: Destekler stream: true teslim etmek artımlı jetonlar üretilirken kısmi yanıtlar
  • Yeni Ses Paleti: Sekiz yeni sesi tanıtıyor—alaşım, kül, türkü, mercan, kaçırmak, adaçayı, parıltı, ve ayet—daha fazlası için anlamlı, İnsan gibi etkileşimler ..

GPT-4o Realtime'ın Evrimi

  • Mayıs 2024: GPT-4o Omni metin, ses ve görüntü için çoklu biçimli destekle çıkış yapıyor.
  • Ekim 2024: Gerçek zamanlı API özel betaya giriyor (2024-10-01-preview), düşük gecikmeli ses için optimize edilmiştir.
  • Aralık 2024: Genişletilmiş küresel kullanılabilirlik gpt-4o-realtime-preview-2024-12-17, Ekleme hızlı önbelleğe alma ve daha fazla ses.
  • Haziran 3, 2025: Son Güncelleme (2025-06-03-preview) rafine edilmiş olarak piyasaya sürülüyor ses paleti ve performans iyileştirmeleri.

Karşılaştırma Performansı

  • MMLU: 88.7, GPT-4'ün 86.5'ini geride bırakarak Çok Amaçlı Çok Görevli Dil Anlayışı .
  • Konuşma Tanıma: Başarır endüstri lideri gürültülü ortamlarda kelime hata oranları, Fısıltı temel çizgiler.
  • Gecikme Testleri:
  • Uçtan Uca (konuşma girişi → metin çıkışı): 50-80 ms WebRTC aracılığıyla
  • Gidiş-Dönüş Ses (konuşma girişi → konuşma çıkışı): <100 ms .

Teknik Göstergeler

  • çıktı: Sürdürür 15 token/saniye metin akışları için; 24 kbps Ses için eser.
  • Fiyatlandırma:
  • Metin: 5 M giriş jetonu başına 1 ; 20 M çıkış jetonu başına 1
  • ses: 100 M giriş jetonu başına 1 ; 200 M çıkış jetonu başına 1 .
  • Uygunluk: Realtime API'yi destekleyen tüm bölgelerde küresel olarak dağıtıldı.

CometAPI'den GPT-4o Realtime API'sini nasıl çağırabilirim?

GPT-4o Realtime CometAPI'de API Fiyatlandırması:

  • Giriş Jetonları: 2$ / M jeton
  • Çıktı Tokenları: 8$ / M token

Gerekli Adımlar

  • Giriş cometapi.com. Eğer henüz kullanıcımız değilseniz lütfen önce kayıt olun
  • Arayüzün erişim kimlik bilgisi API anahtarını edinin. Kişisel merkezdeki API belirtecinde “Token Ekle”ye tıklayın, belirteç anahtarını edinin: sk-xxxxx ve gönderin.
  • Bu sitenin URL'sini alın: https://api.cometapi.com/

Kullanım Yöntemleri

  1. "Seçin**gpt-4o-realtime-preview-2025-06-03**” isteği göndermek ve istek gövdesini ayarlamak için uç nokta. İstek yöntemi ve istek gövdesi web sitemizin API dokümanından elde edilir. Web sitemiz ayrıca kolaylığınız için Apifox testi de sağlar.
  2. Yer değiştirmek Hesabınızdaki gerçek CometAPI anahtarınızla.
  3. Sorunuzu veya isteğinizi içerik alanına girin; model buna cevap verecektir.
  4. . Üretilen cevabı almak için API yanıtını işleyin.

Comet API'deki Model Erişim bilgileri için lütfen şuraya bakın: API belgesi.

Comet API'deki Model Fiyatı bilgisi için lütfen şuraya bakın: https://api.cometapi.com/pricing.


Örnek Kod ve API Entegrasyonu

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Anahtar Parametreler:
  • model: “gpt-4o-gerçek zamanlı-önizleme-2025-06-03”
  • version: “2025-06-03-önizleme”
  • transport: “webrtc” için minimum gecikme
  • stream: true için artımlı güncellemeler

Birleştirerek state-of-the-art çok modlu akıl yürütme, bir gürbüz yeni ses paleti ve Ultra-düşük gecikme akışı, GPT-4o Gerçek Zamanlı (2025-06-03) geliştiricilerin gerçek anlamda interaktif, konuşkan Yapay zeka uygulamaları.

Ayrıca bakınız o3-Pro API

Güvenlik ve Uyumluluk

OpenAI, GPT-4o Realtime'ı şu şekilde sunar:
Sistem Düzeyindeki Korumalar: İzin verilmeyen talepleri (aşırılık, yasadışı davranış) reddetmek için politika ayarlandı.
Gerçek Zamanlı İçerik Filtreleme: 100 ms'nin altındaki sınıflandırıcılar, emisyondan önce hem kullanıcı girdisini hem de model çıktısını tarar.
İnsan-Onay Yolları: Yüksek riskli araç çağrılarında (ödemeler, yasal tavsiyeler) tetiklenir ve Agents SDK'nın yeni onay ilkelinden yararlanılır.

GPT-4o Gerçek Zamanlı

SHARE THIS BLOG

500+ Model Tek Bir API'de

%20'ye Varan İndirim