GPT-4o Echtzeit-API

CometAPI
AnnaJun 11, 2025
GPT-4o Echtzeit-API

GPT-4o Echtzeit-API: Ein multimodaler Streaming-Endpunkt mit geringer Latenz, der es Entwicklern ermöglicht, synchronisierte Text-, Audio- und Bilddaten über WebRTC oder WebSocket zu senden und zu empfangen (Modell=gpt-4o-realtime-preview-<date>, stream=true) für interaktive Echtzeitanwendungen.


Grundlegende Informationen und Funktionen

OpenAIs GPT-4o Echtzeit (Modell-ID: gpt-4o-Echtzeit-Vorschau-2025-06-03) ist das erste öffentlich zugängliche Stiftungsmodell, das für End-to-End-Sprache-zu-Sprache (S2S) interagieren mit Latenz von unter einer SekundeAbgeleitet aus der „omni“ GPT-4o-Familie, vereint die Realtime-Variante Spracherkennung, natürliche Spracherkennung und neuronale Text-to-Speech- in einem einzigen Netzwerk, sodass Entwickler Sprachagenten erstellen können, die so flüssig kommunizieren wie Menschen. Das Modell wird durch die speziell entwickelte Echtzeit-API und ist eng integriert mit dem neuen RealtimeAgent Abstraktion innerhalb der Agenten-SDK (TypeScript und Python).


Kernfunktionsumfang — End-to-End S2S • Unterbrechungsbehandlung • Tool-Aufruf

• Native Spracherkennung: Audioeingaben werden als kontinuierliche Streams aufgenommen, intern tokenisiert, analysiert und als synthetisierte Sprache zurückgegeben. Es werden keine externen STT/TTS-Puffer benötigt, wodurch Pipeline-Verzögerungen von mehreren Sekunden vermieden werden.
• Latenz im Millisekundenbereich: Architektonisches Beschneiden, Modelldestillation und ein GPU-optimierter Server-Stack ermöglichen ~300–500 ms Latenz beim ersten Token in typischen Cloud-Bereitstellungen, die sich den menschlichen Gesprächswechselnormen annähern.
• Robustes Befolgen von Anweisungen: GPT-4o Realtime ist auf Konversationsskripte und Funktionsaufrufspuren abgestimmt und demonstriert eine >25 % weniger Fehler bei der Aufgabenausführung verglichen mit dem GPT-2024o-Basiswert vom Mai 4.
• Deterministischer Tool-Aufruf: Das Modell erzeugt strukturiertes JSON, das OpenAIs Funktionsaufrufschema, wodurch der deterministische Aufruf von Back-End-APIs (Buchungssysteme, Datenbanken, IoT) ermöglicht wird. Fehlerbewusste Wiederholungsversuche und Argumentvalidierung sind integriert.
• Angenehme Unterbrechungen: Ein Echtzeit-Stimmaktivitätsdetektor gepaart mit inkrementeller Dekodierung ermöglicht dem Agenten, Rede mitten im Satz unterbrechen, nehmen Sie eine Benutzerunterbrechung auf und setzen Sie die Antwort nahtlos fort oder planen Sie sie neu.
• Konfigurierbare Sprechgeschwindigkeit: Neue Geschwindigkeit Mit dem Parameter (0.25–4 × Echtzeit) können Entwickler die Ausgabegeschwindigkeit für Zugänglichkeits- oder Schnellfeueranwendungen anpassen.


Technische Architektur — Einheitlicher multimodaler Transformator

Einheitlicher Encoder-Decoder: GPT-4o Realtime teilt die Omni-Architektur Single-Stack-Transformator in dem Audio-, Text- und (zukünftige) Vision-Token in einem latenten Raum koexistieren. Durch schichtweise adaptive Berechnung werden Audioframes direkt an spätere Aufmerksamkeitsblöcke weitergeleitet, wodurch pro Durchgang 20–40 ms eingespart werden.

Hierarchische Audio-Tokenisierung: Rohes 16 kHz PCM wird in Log-Mel-Patches zerlegt → in grobkörnige akustische Token quantisiert → in semantische Token komprimiert, wodurch die Token pro Sekunde Budget, ohne die Prosodie zu opfern.

Low-Bit-Inferenzkerne: Die eingesetzten Gewichte betragen 4-Bit-NF4-Quantisierung über Triton-/TensorRT-LLM-Kernel, wodurch der Durchsatz im Vergleich zu fp16 verdoppelt wird und gleichzeitig der MOS-Qualitätsverlust <1 dB erhalten bleibt.

Streaming Achtung: Durch rotierende Einbettungen mit gleitendem Fenster und Schlüssel-Wert-Caching kann das Modell die letzten 15 Sekunden des Audios mit O(L)-Speicher verarbeiten, was für Dialoge in der Länge eines Telefongesprächs entscheidend ist.


Technische Daten

  • API Version: 2025-06-03-preview
  • Transportprotokolle:
  • WebRTC: Extrem niedrige Latenz (< 80 ms) für clientseitige Audio-/Video-Streams
  • WebSocket: Server-zu-Server-Streaming mit einer Latenz von unter 100 ms
  • Datencodierung:
  • opus Codec innerhalb RTP Pakete für Audio
  • H.264 / H.265 Frame Wrapper für Video
  • Streaming: Unterstützt stream: true . inkremental Teilantworten als Token werden generiert
  • Neue Stimmenpalette: Stellt acht neue Stimmen vor—Legierung, Asche, Ballade, Koralle, Echo, Salbei, Schimmer und Vers– für mehr expressiv, menschenähnlich Interaktionen ..

Entwicklung von GPT-4o Realtime

  • Mai 2024: GPT-4o Omni Debütiert mit multimodaler Unterstützung für Text, Audio und Bild.
  • Oktober 2024: Echtzeit-API geht in die private Beta (2024-10-01-preview), optimiert für Audio mit geringer Latenz.
  • Dezember 2024: Erweiterte globale Verfügbarkeit von gpt-4o-realtime-preview-2024-12-17Und fügte hinzu, sofortige Zwischenspeicherung und mehr Stimmen.
  • 3. Juni 2025: Letztes Update (2025-06-03-preview) rollt verfeinert aus Stimmpalette und Leistungsoptimierungen.

Benchmark-Leistung

  • MMLU: 88.7und übertraf damit GPT-4s 86.5 auf Massives Multitask-Sprachverständnis .
  • Spracherkennung: Erreicht branchenführend Wortfehlerraten in lauten Umgebungen, übertreffen Flüstern Basislinien.
  • Latenztests:
  • Ende zu Ende (Sprache rein → Text raus): 50–80 ms über WebRTC
  • Round-Trip-Audio (Rede ein → Rede aus): <100 ms .

Technische Indikatoren

  • Durchsatz: Hält 15 Token/Sekunde für Textströme; 24 kbps Opus für Audio.
  • AnzeigenPreise:
  • Text: 5 USD pro 1 Mio. Eingabetoken; 20 USD pro 1 Mio. Ausgabetoken
  • Audio: 100 USD pro 1 Mio. Eingabetoken; 200 USD pro 1 Mio. Ausgabetoken.
  • Verfügbarkeit: Weltweit in allen Regionen bereitgestellt, die die Echtzeit-API unterstützen.

So rufen Sie die GPT-4o-Echtzeit-API von CometAPI auf

GPT-4o Realtime API-Preise in CometAPI:

  • Eingabe-Token: 2 $ / M Token
  • Ausgabe-Token: 8 $ / M Token

Erforderliche Schritte

  • Einloggen in cometapi.comWenn Sie noch nicht unser Benutzer sind, registrieren Sie sich bitte zuerst
  • Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
  • Holen Sie sich die URL dieser Site: https://api.cometapi.com/

Verwendungsmethoden

  1. Wählen Sie das "gpt-4o-realtime-preview-2025-06-03”-Endpunkt, um die Anfrage zu senden und den Anfragetext festzulegen. Die Anfragemethode und der Anfragetext stammen aus der API-Dokumentation unserer Website. Unsere Website bietet außerdem einen Apifox-Test für Ihre Bequemlichkeit.
  2. Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
  3. Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
  4. . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Informationen zum Modellzugriff in der Comet-API finden Sie unter API-Dokument.

Informationen zu Modellpreisen in der Comet-API finden Sie unter https://api.cometapi.com/pricing.


Beispielcode und API-Integration

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Parameter:
  • model: „gpt-4o-realtime-preview-2025-06-03“
  • version: „2025-06-03-Vorschau“
  • transport: „webrtc“ für minimale Latenz
  • stream: true für inkremental Aktuelles

Durch Kombinieren State-of-the-art multimodales Denken, ein robust neue Stimmpalette und Sehr niedrig Latenz-Streaming, GPT-4o Echtzeit (2025-06-03) ermöglicht Entwicklern, wirklich interaktive, Konversations KI-Anwendungen.

Siehe auch o3-Pro API

Sicherheit & Compliance

OpenAI liefert GPT-4o Realtime mit:
Leitplanken auf Systemebene: Richtlinienmäßig darauf abgestimmt, unzulässige Anfragen abzulehnen (Extremismus, rechtswidriges Verhalten).
Echtzeit-Inhaltsfilterung: Klassifikatoren mit einer Laufzeit von weniger als 100 ms prüfen vor der Ausgabe sowohl die Benutzereingaben als auch die Modellausgaben.
Pfade zur menschlichen Genehmigung: Ausgelöst durch den Aufruf von Tools mit hohem Risiko (Zahlungen, Rechtsberatung) unter Nutzung der neuen Genehmigungsprimitiven des Agents SDK.

GPT-4o Echtzeit

SHARE THIS BLOG

500+ Modelle in einer API

Bis zu 20% Rabatt