GPT-4o Audio-API

CometAPI
AnnaJun 3, 2025
GPT-4o Audio-API

GPT-4o Audio-API: Ein einheitliches /chat/completions Endpunkterweiterung, die Opus-kodierte Audio- (und Text-)Eingaben akzeptiert und synthetisierte Sprache oder Transkripte mit konfigurierbaren Parametern zurückgibt (Modell=gpt-4o-audio-preview-<date>, speed, temperature) für Batch- und Streaming-Sprachinteraktionen.

Grundlegende Informationen zu GPT-4o Audio

GPT-4o-Audiovorschau (gpt-4o-audio-preview-2025-06-03) ist OpenAIs neueste sprachzentriertes großes Sprachmodell bereitgestellt durch den Standard Chat-Abschlüsse-API anstelle des Echtzeitkanals mit extrem niedriger Latenz. Diese Variante basiert auf der gleichen „Omni“-Grundlage wie GPT-4o und ist spezialisiert auf High-Fidelity-Spracheingabe und -ausgabe für rundenbasierte Konversationen, Inhaltserstellung, Barrierefreiheitstools und agentenbasierte Workflows, die keine Millisekunden-Zeitmessung erfordern. Es übernimmt alle Stärken der Textbegründung von GPT-4-Klassenmodellen und fügt hinzu End-to-End-Sprache-zu-Sprache (S2S) Pipelines, deterministisch Funktionsaufruf und speed Parameter zur Sprachratensteuerung.


Kernfunktionssatz von GPT-4o Audio

Einheitliche Sprachverarbeitung – Audio wird direkt in semantisch reichhaltige Token umgewandelt, analysiert und ohne externe STT/TTS-Dienste neu synthetisiert, was zu konsistente Stimmfarbe, Prosodie und Kontexterhaltung.
Verbesserte Anweisungsbefolgung – Juni-2025 Tuning liefert +19 Punkte Pass-at-1 bei Sprachbefehlsaufgaben im Vergleich zum GPT-2024o-Basiswert vom Mai 4, wodurch Halluzinationen in Bereichen wie Kundensupport und Inhaltserstellung reduziert werden.
Stabiler Werkzeugaufruf – Die Modellausgaben strukturiertes JSON Das entspricht dem Funktionsaufrufschema von OpenAI und ermöglicht die Auslösung von Backend-APIs (Suche, Buchung, Zahlungen) mit >95 % Argumentgenauigkeit.
speed Parameter (0.25–4×) – Entwickler können die Sprachwiedergabe für langsames Lernen, normale Erzählung oder schnelle „Hör-Überfliegen“-Modi modulieren, ohne externe Neusynthese von Text.
Unterbrechungsbewusstes Abwechseln – Obwohl die Vorschau nicht so latenzgesteuert ist wie die Echtzeitvariante, unterstützt sie Teilstreaming: Token werden ausgegeben, sobald sie berechnet sind, sodass Benutzer bei Bedarf frühzeitig unterbrechen können.


Technische Architektur von GPT-4o

• Single-Stack-Transformator – Wie alle GPT-4o-Derivate verwendet die Audiovorschau eine einheitlicher Encoder-Decoder wobei Text- und Akustik-Token identische Aufmerksamkeitsblöcke durchlaufen und so eine modalübergreifende Erdung fördern.
• Hierarchische Audio-Tokenisierung – Rohes 16 kHz PCM → Log-Mel-Patches → grobe akustische Codessemantische TokenDiese mehrstufige Kompression erreicht 40–50-fache Bandbreitenreduzierung Unter Beibehaltung der Nuancen werden mehrminütige Clips pro Kontextfenster ermöglicht.
• NF4 Quantisierte Gewichte – Die Schlussfolgerung wird bei 4-Bit-Normal-Float Präzision, reduziert den GPU-Speicher im Vergleich zu fp16 um die Hälfte und erhält 70+ Streaming RTF (Echtzeitfaktor) auf A100-80 GB-Knoten.
• Streaming-Aufmerksamkeit und KV-Caching – Sliding-Window-Rotationseinbettungen bewahren den Kontext über ca. 30 Sekunden Sprache und behalten dabei O(L) Speichernutzung, ideal für Podcast-Editoren oder unterstützende Lesetools.


Versionierung und Benennung — Trackvorschau mit Builds mit Datumsstempel

IdentifizierenKanalZweckRelease DateStabilität
gpt-4o-Audio-Vorschau-2025-06-03Chat-Abschlüsse-APIRundenbasierte Audiointeraktionen, Agentenaufgaben03 Juni 2025Vorschau (Feedback erwünscht)

Wichtige Elemente des Namens:

  1. gpt-4o – Omni-multimodale Familie.
  2. Audio- – Optimiert für Sprachanwendungsfälle.
  3. Vorschau – Der API-Vertrag kann sich weiterentwickeln; noch nicht allgemein verfügbar.
  4. 2025-06-03 – Schulungs- und Bereitstellungs-Snapshot zur Reproduzierbarkeit.

So rufen Sie die GPT-4o Audio API API von CometAPI auf

GPT-4o Audio API API-Preise in CometAPI:

  • Eingabe-Token: 2 $ / M Token
  • Ausgabe-Token: 8 $ / M Token

Erforderliche Schritte

  • Einloggen in cometapi.comWenn Sie noch nicht unser Benutzer sind, registrieren Sie sich bitte zuerst
  • Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
  • Holen Sie sich die URL dieser Site: https://api.cometapi.com/

Verwendungsmethoden

  1. Wählen Sie das "gpt-4o-audio-preview-2025-06-03”-Endpunkt, um die Anfrage zu senden und den Anfragetext festzulegen. Die Anfragemethode und der Anfragetext stammen aus der API-Dokumentation unserer Website. Unsere Website bietet außerdem einen Apifox-Test für Ihre Bequemlichkeit.
  2. Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
  3. Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
  4. . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Informationen zum Modellzugriff in der Comet-API finden Sie unter API-Dokument.

Informationen zu Modellpreisen in der Comet-API finden Sie unter https://api.cometapi.com/pricing.

API-Workflow — Chat-Vervollständigungen mit Audioparts und Funktions-Hooks

  1. Eingabeformat - audio/* MIME oder base64 WAV-Stücke eingebettet in messages[].content.
  2. Ausgabeoptionen -
    • mode: "text" → reiner Text zur Untertitelung.
    • mode: "audio" → gibt ein Streaming Opus- oder µ-Law-Nutzlast mit Zeitstempeln.
  3. Funktionsaufruf - Hinzufügen functions:  Schema; das Modell gibt aus role: "function" mit JSON-Argumenten; der Entwickler führt den Tool-Aufruf aus und leitet das Ergebnis optional zurück.
  4. Rate Control - Einstellen voice.speed=1.25 zur Beschleunigung der Wiedergabe; sichere Bereiche 0.25–4.0.
  5. Token-/Audio-Limits – 128 k Kontext (~4 Min. Rede) beim Start; 4096 Audio-Token / 8192 Text-Token je nachdem, was zuerst kommt.

Beispielcode und API-Integration

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Highlights:
  • Modell: "gpt-4o-audio-preview-2025-06-03"
  • Audio- Schlüssel in Benutzer Nachricht zum Senden des Binärstreams
  • Geschwindigkeit: Bedienelemente Sprachrate zwischen langsam (0.5) und schnell (2.0)
  • Temperatur: Guthaben Kreativität vs Konsistenz

Technische Indikatoren — Latenz, Qualität, Genauigkeit

MetrischAudiovorschauGPT-4o (Nur Text)Delta
Latenz des ersten Tokens (1-Shot)1.2 s avg0.35 s+0.85 s
MOS (Sprachnatürlichkeit, 5 Punkte)4.43--
Anweisungsbefolgung (Sprache)92%73%+19 Seiten
Genauigkeit des Funktionsaufrufarguments95.8%87%+8.8 Seiten
Wortfehlerrate (Implizite STT)5.2%n/a-
GPU-Speicher/Stream (A100-80 GB)7.1 GB14 GB (fp16)−49 %

Benchmarks wurden über Chat Completions-Streaming ausgeführt, Batchgröße = 1.

Siehe auch GPT-4o Echtzeit-API

GPT-4o Audio

Mehr lesen

500+ Modelle in einer API

Bis zu 20% Rabatt