ModelliSupportoAziendaBlog
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Risorse
Modelli di Intelligenza ArtificialeBlogAziendaRegistro delle modificheChi siamo
2025 CometAPI. Tutti i diritti riservati.Informativa sulla PrivacyTermini di Servizio
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Ingresso:$60/M
Uscita:$240/M
La Realtime API consente agli sviluppatori di creare esperienze multimodali a bassa latenza, inclusa la funzionalità da parlato a parlato. Il testo e l'audio elaborati dalla Realtime API sono tariffati separatamente. Questo modello supporta una lunghezza massima del contesto di 128,000 token.
Uso commerciale
Panoramica
Caratteristiche
Prezzi
API
Versioni

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Funzionalità per GPT-4o Realtime

Esplora le caratteristiche principali di GPT-4o Realtime, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per GPT-4o Realtime

Esplora i prezzi competitivi per GPT-4o Realtime, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come GPT-4o Realtime può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$60/M
Uscita:$240/M
Ingresso:$75/M
Uscita:$300/M
-20%

Codice di esempio e API per GPT-4o Realtime

Accedi a codice di esempio completo e risorse API per GPT-4o Realtime per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di GPT-4o Realtime nei tuoi progetti.

Versioni di GPT-4o Realtime

Il motivo per cui GPT-4o Realtime dispone di più snapshot può includere fattori potenziali come variazioni nell'output dopo aggiornamenti che richiedono snapshot precedenti per coerenza, offrire agli sviluppatori un periodo di transizione per l'adattamento e la migrazione, e diversi snapshot corrispondenti a endpoint globali o regionali per ottimizzare l'esperienza utente. Per le differenze dettagliate tra le versioni, si prega di fare riferimento alla documentazione ufficiale.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Altri modelli

O

gpt-realtime-1.5

Ingresso:$3.2/M
Uscita:$12.8/M
Il miglior modello vocale per input e output audio.
O

gpt-audio-1.5

Ingresso:$2/M
Uscita:$8/M
Il miglior modello vocale per audio in entrata e in uscita con Chat Completions.
O

Whisper-1

Ingresso:$24/M
Uscita:$24/M
Da parlato a testo, creazione di traduzioni
O

TTS

Ingresso:$12/M
Uscita:$12/M
Sintesi vocale di OpenAI
K

Kling TTS

Per Richiesta:$0.006608
[Sintesi vocale] Appena lanciato: conversione da testo in audio di qualità broadcast online, con funzione di anteprima ● Può generare contemporaneamente un audio_id, utilizzabile con qualsiasi Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Per Richiesta:$0.03304
Kling da video ad audio