Das GPT-Echtzeit-Sprachmodell ist jetzt verfügbar und unterstützt die Bildeingabe

OpenAI gab heute bekannt, dass Das GPT-Echtzeit-Sprachmodell ist jetzt verfügbar und unterstützt die BildeingabeDamit ist die Realtime API nun von der Beta-Phase zur allgemeinen Verfügbarkeit für Produktions-Sprachagenten verfügbar. Die Veröffentlichung positioniert GPT-Realtime als ein Sprach-zu-Sprache-Modell mit geringer Latenz, das Zwei-Wege-Sprachgespräche ermöglichen und gleichzeitig Antworten auf während einer Sitzung bereitgestellte Bilder basieren kann.

OpenAI beschreibt gpt-Echtzeit als sein bisher fortschrittlichstes Speech-to-Speech-Modell: Es verarbeitet Audio durchgängig (anstatt separate Speech-to-Text- und Text-to-Speech-Schritte zu verketten), erzeugt natürlichere und ausdrucksstärkere Sprache und zeigt messbare Verbesserungen beim Verständnis, der Befolgung von Anweisungen und dem Aufrufen von Funktionen. Das Unternehmen hebt Verbesserungen bei internen Benchmarks hervor und sagt, das Modell erfasse Feinheiten wie Lachen, Sprachwechsel mitten im Satz und eine höhere Genauigkeit bei alphanumerischen Inhalten.

Was gibt's Neues

Bildeingaben in Live-Sprachsitzungen. Entwickler können neben Audio oder Text auch Fotos, Screenshots oder andere Bilder anhängen. Das Modell kann visuelle Fragen beantworten, Text in Screenshots (OCR-ähnlich) vorlesen und Szenenverständnis in die gesprochene Antwort integrieren. Dies ermöglicht Workflows wie visuelle Fragen und Antworten während eines Anrufs oder multimodale Unterstützung im Kundenservice.
Sprache-zu-Sprache, geringere Latenz, ausdrucksstärkere Stimmen. GPT-Realtime bietet native Audioausgabe mit reduzierter Roundtrip-Latenz im Vergleich zu älteren STT→LLM→TTS-Ketten und wird mit ausdrucksstarken Sprachoptionen geliefert (in der Abdeckung als „Cedar“ und „Marine“ angegeben). Das Modell ist auf die Befolgung von Anweisungen und Konversationsnuancen abgestimmt.
Funktionen zur Unternehmensintegration. Das Realtime API-Update erweitert unternehmensorientierte Funktionen wie MCP-Server-Unterstützung und SIP-Telefonie, sodass Sprachagenten direkt mit Telefonnetzen und PBX-Systemen verbunden werden können. Diese Erweiterungen sind für den Einsatz im Kundensupport und in Contact Centern konzipiert.

Benchmarks

BigBench Audio (Argumentation): 82.8 % — von 65.6% auf dem Echtzeitmodell von OpenAI vom Dezember 2024. Dies ist der wichtigste Benchmark für audiofähige Denkaufgaben.

MultiChallenge (Anweisungen befolgen, Audio): ~30.5 % vs ~ 20.6% zuvor – zeigt eine verbesserte Befolgung mehrstufiger oder komplexer gesprochener Anweisungen.

ComplexFuncBench (Funktionsaufruf erfolgreich): ~66.5 % vs ~ 49.7% zuvor – bessere Zuverlässigkeit, wenn das Modell während einer Audiositzung Tools/Funktionen aufrufen muss.

Kosten und Latenz: OpenAI gibt an, dass das neue Modell die Audiokosten pro Token reduziert (≈20 % niedriger als die vorherige Echtzeitvorschau) und als einzelnes End-to-End-Modell funktioniert (keine separate STT → LM → TTS-Kette), was die End-to-End-Latenz in interaktiven Echtzeit-Flows verringert.

OpenAI sagt, dass die gpt-realtime Das Modell weist wesentliche Verbesserungen bei einer Reihe objektiver Benchmarks und im realen Verhalten auf – höhere Punktzahlen bei BigBench Audio und bei der Bewertung der Anweisungsbefolgung/des Funktionsaufrufs – sowie eine bessere Handhabung von alphanumerischen Zeichen, Codewörtern und Sprachwechseln bei Live-Audio. Das Unternehmen hat außerdem zwei neue Stimmen (Cedar und Marin) eingeführt und meldet eine Preissenkung von 20 % im Vergleich zum früheren Echtzeit-Vorschaumodell.

Die Echtzeit-API und gpt-realtime Modell sind jetzt für Entwickler verfügbar (GA). OpenAI hat mit diesem Update auch den Preis seiner Echtzeit-API gesenkt und den Audio-Input auf 32 US-Dollar pro Million Token und den Audio-Output auf 64 US-Dollar pro Million Token reduziert, was einer Reduzierung von 20 % gegenüber dem vorherigen Preis entspricht und Entwicklern eine wirtschaftlichere Lösung bietet.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen GPT-5 Über CometAPI sind die neuesten Modellversionen zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Die neueste Integration gpt-realtime wird bald auf CometAPI erscheinen, also bleiben Sie dran!

Was gibt's Neues

Benchmarks

Erste Schritte

Mehr lesen

500+ Modelle in einer API