ModelleSupportUnternehmenBlog
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Ressourcen
KI-ModelleBlogUnternehmenÄnderungsprotokollÜber uns
2025 CometAPI. Alle Rechte vorbehalten.DatenschutzrichtlinieNutzungsbedingungen
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Eingabe:$2/M
Ausgabe:$8/M
Das beste Sprachmodell für Audioeingabe und -ausgabe mit Chat Completions.
Neu
Kommerzielle Nutzung
Überblick
Funktionen
Preisgestaltung
API

Technische Spezifikationen von gpt-audio-1.5

Elementgpt-audio-1.5 (öffentliche Spezifikationen)
ModellfamilieGPT Audio-Familie (Audio-First-Variante)
EingabetypenText, Audio (Spracheingabe)
AusgabetypenText, Audio (Sprachausgabe), strukturierte Ausgaben (Funktionsaufrufe unterstützt)
Kontextfenster128.000 Token.
Maximale Ausgabetoken16.384 (in der zugehörigen gpt-audio-Auflistung dokumentiert).
LeistungsstufeHöhere Intelligenz; mittlere Geschwindigkeit (ausgewogen).
LatenzprofilFür Sprachinteraktionen optimiert (mittlere/niedrige Latenz je nach Endpunkt).
VerfügbarkeitChat Completions API (Audio Ein-/Ausgabe) und Plattform-Playgrounds; integriert über Realtime-/Voice-Oberflächen.
Sicherheits-/NutzungshinweiseSchutzmechanismen für Sprachinhalte; Modellausgaben sollten für produktive Sprachagenten wie üblich sicherheitsgeprüft und verifiziert werden.

Hinweis: gpt-realtime-1.5 ist eine eng verwandte Realtime-Audio-/Voice-First-Variante, die für geringere Latenz und Realtime-Sitzungen optimiert ist; siehe Vergleich unten.


Was ist gpt-audio-1.5?

gpt-audio-1.5 ist ein audiofähiges GPT-Modell, das sowohl Spracheingabe als auch Sprachausgabe über die Chat Completions API und verwandte audiofähige APIs unterstützt. Es ist als das zentrale allgemein verfügbare Audiomodell für den Aufbau von Sprachagenten und sprachzentrierten Erlebnissen positioniert und bietet dabei ein ausgewogenes Verhältnis zwischen Qualität und Geschwindigkeit.


Hauptfunktionen

  1. Unterstützung für Spracheingabe / Sprachausgabe: Verarbeitet gesprochene Eingaben und liefert gesprochene oder textuelle Antworten für natürliche Sprachdialoge.
  2. Großer Kontext für Audio-Workflows: Unterstützt einen sehr großen Kontext (dokumentiert: 128k Token) und ermöglicht dadurch Multi-Turn-Verläufe, lange Gesprächshistorien oder große multimodale Sitzungen.
  3. Kompatibilität mit Streaming & Chat Completions: Funktioniert innerhalb von Chat Completions mit gestreamten Audioantworten und strukturierten Ausgaben per Funktionsaufruf.
  4. Ausgewogene Leistung/Latenz: Auf hochwertige Audioantworten bei mittlerem Durchsatz abgestimmt—geeignet für Chatbots und Sprachassistenten, bei denen Qualität wichtig ist.
  5. Ökosystem & Integrationen: Unterstützt in den Playgrounds der Plattform und verfügbar über offizielle Realtime-/Voice-Endpunkte sowie Partnerintegrationen (Hinweise von Azure/Microsoft Foundry verweisen auf ähnliche Audiomodelle).

gpt-audio-1.5 vs. verwandte Audiomodelle

Eigenschaftgpt-audio-1.5gpt-realtime-1.5
Primärer FokusHochwertige Audio-Ein-/Ausgabe für Chat Completions und konversationelle Abläufe.Realtime S2S (Speech-to-Speech) mit geringerer Latenz für Live-Sprachagenten und Streaming-Szenarien.
Kontextfenster128k Token.32k Token (bei der Realtime-Variante dokumentiert).
Maximale Ausgabetoken16.384 (dokumentiert).Typischerweise für kürzere Realtime-Antworten konfiguriert (Dokumentation nennt kleinere Maximalwerte).
Beste EinsatzfälleChatbots, sprachfähige Assistenten, bei denen vollständige Chat-Semantik + Audio erforderlich sind.Live-Sprachagenten, Kiosksysteme und Konversationsschnittstellen mit geringer Latenz.

Repräsentative Anwendungsfälle

  • Konversationelle Sprachagenten für Kundensupport und interne Helpdesks.
  • Sprachfähige Assistenten, eingebettet in Apps, Geräte und Kiosksysteme.
  • Freihändige Workflows (Diktat, Sprachsuche, Barrierefreiheit).
  • Multimodale Erlebnisse, die Audio mit Text/Bildern über Chat Completions kombinieren.

Einschränkungen & betriebliche Überlegungen

  • Kein direkter Ersatz für menschliche Qualitätssicherung: Sprachausgaben und nachgelagerte Aktionen sollten in produktiven Abläufen immer durch menschliche Prüfung validiert werden.
  • Ressourcenplanung: Großer Kontext und Audio-Ein-/Ausgabe können Rechenaufwand und Latenz erhöhen—entwerfen Sie Streaming-/Segmentierungsstrategien für lange Sitzungen.
  • Sicherheits- & Richtlinienvorgaben: Sprachausgaben können eine starke persuasive Wirkung haben; befolgen Sie bei Bereitstellungen im großen Maßstab die Sicherheitsrichtlinien und Schutzmechanismen der Plattform.
  • Zugriff auf die GPT Audio 1.5 API

Schritt 1: Für einen API-Schlüssel registrieren

Melden Sie sich bei cometapi.com an. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst. Melden Sie sich in Ihrer CometAPI-Konsole an. Holen Sie sich die Zugangsdaten in Form des API-Schlüssels für die Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Add Token“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.

cometapi-key

Schritt 2: Anfragen an die GPT Audio 1.5 API senden

Wählen Sie den Endpunkt „gpt-audio-1.5“, um die API-Anfrage zu senden, und legen Sie den Request-Body fest. Die Anfragemethode und der Request-Body sind in unserer API-Dokumentation auf der Website zu finden. Unsere Website bietet zu Ihrer Bequemlichkeit auch Apifox-Tests an. Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto. Die Base-URL ist Chat Completions.

Fügen Sie Ihre Frage oder Anfrage in das content-Feld ein—darauf wird das Modell antworten. Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Schritt 3: Ergebnisse abrufen und verifizieren

Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten. Nach der Verarbeitung antwortet die API mit dem Aufgabenstatus und den Ausgabedaten.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 unterstützt ein Kontextfenster von 128,000 Token und die Dokumente führen eine maximale Ausgabentoken-Konfiguration von etwa 16,384 auf; prüfen Sie die genauen Limits pro Endpunkt in der Entwicklerdokumentation. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — es akzeptiert Audioeingaben und kann über die Chat Completions/audio-Endpunkte Audioausgaben oder textliche Antworten zurückgeben. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Wählen Sie gpt-audio-1.5 für Audio in höherer Qualität in Chat Completions-Flows, bei denen ein größerer Kontext erforderlich ist; wählen Sie gpt-realtime-1.5 für latenzarme, Live-Streaming-Sprachinteraktionen. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — das Modell unterstützt das Streaming von Audioantworten sowie strukturierte Ausgaben/Funktionsaufrufe, um externe Tools und Workflows zu integrieren. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — es ist für Sprachassistenten und Konversationsagenten konzipiert, aber Sie sollten vor dem Produktiveinsatz menschliche Überprüfung/QA, Protokollierung und Sicherheitskontrollen hinzufügen. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Wesentliche Überlegungen sind Abwägungen zwischen Rechenaufwand und Latenz bei Audio-Sitzungen mit großem Kontext, Sicherheitsleitplanken für Sprachinhalte sowie die Notwendigkeit, ASR/TTS-Ausgaben in Ihrer Domäne zu validieren. :contentReference[oaicite:49]{index=49}

Funktionen für gpt-audio-1.5

Entdecken Sie die wichtigsten Funktionen von gpt-audio-1.5, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für gpt-audio-1.5

Entdecken Sie wettbewerbsfähige Preise für gpt-audio-1.5, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie gpt-audio-1.5 Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$2/M
Ausgabe:$8/M
Eingabe:$2.5/M
Ausgabe:$10/M
-20%

Beispielcode und API für gpt-audio-1.5

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für gpt-audio-1.5 zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von gpt-audio-1.5 in Ihren Projekten zu nutzen.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Weitere Modelle

O

gpt-realtime-1.5

Eingabe:$3.2/M
Ausgabe:$12.8/M
Das beste Sprachmodell für Audioeingabe und -ausgabe.
O

Whisper-1

Eingabe:$24/M
Ausgabe:$24/M
Sprach-zu-Text, Erstellung von Übersetzungen
O

TTS

Eingabe:$12/M
Ausgabe:$12/M
OpenAI Text-zu-Sprache
K

Kling TTS

Pro Anfrage:$0.006608
[Sprachsynthese] Neu eingeführt: Text-zu-Broadcast-Audio online, mit Vorschaufunktion ● Kann gleichzeitig eine audio_id erzeugen, verwendbar mit jeder Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Pro Anfrage:$0.03304
Kling Video-zu-Audio
K

Kling text-to-audio

K

Kling text-to-audio

Pro Anfrage:$0.03304
Kling Text-zu-Audio