ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Wejście:$60/M
Wyjście:$240/M
Realtime API umożliwia programistom tworzenie doświadczeń multimodalnych o niskiej latencji, w tym funkcjonalności zamiany mowy na mowę. Tekst i audio przetwarzane przez Realtime API są wyceniane oddzielnie. Ten model obsługuje maksymalną długość kontekstu wynoszącą 128,000 tokenów.
Użycie komercyjne
Przegląd
Funkcje
Cennik
API
Wersje

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Funkcje dla GPT-4o Realtime

Poznaj kluczowe funkcje GPT-4o Realtime, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla GPT-4o Realtime

Poznaj konkurencyjne ceny dla GPT-4o Realtime, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak GPT-4o Realtime może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$60/M
Wyjście:$240/M
Wejście:$75/M
Wyjście:$300/M
-20%

Przykładowy kod i API dla GPT-4o Realtime

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla GPT-4o Realtime, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał GPT-4o Realtime w Twoich projektach.

Wersje modelu GPT-4o Realtime

Powody, dla których GPT-4o Realtime posiada wiele migawek, mogą obejmować takie czynniki jak: różnice w wynikach po aktualizacjach wymagające starszych migawek dla zachowania spójności, zapewnienie programistom okresu przejściowego na adaptację i migrację, oraz różne migawki odpowiadające globalnym lub regionalnym punktom końcowym w celu optymalizacji doświadczenia użytkownika. Aby poznać szczegółowe różnice między wersjami, zapoznaj się z oficjalną dokumentacją.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Więcej modeli

O

gpt-realtime-1.5

Wejście:$3.2/M
Wyjście:$12.8/M
Najlepszy model głosowy do wejścia i wyjścia audio.
O

gpt-audio-1.5

Wejście:$2/M
Wyjście:$8/M
Najlepszy model głosowy do wejścia i wyjścia audio w ramach Chat Completions.
O

Whisper-1

Wejście:$24/M
Wyjście:$24/M
Zamiana mowy na tekst, tworzenie tłumaczeń
O

TTS

Wejście:$12/M
Wyjście:$12/M
Synteza mowy OpenAI
K

Kling TTS

Na żądanie:$0.006608
[Synteza mowy] Nowo uruchomione: konwersja tekstu na audio o jakości emisyjnej online, z funkcją podglądu ● Może równocześnie generować audio_id, do użycia z dowolnym API Keling.
K

Kling video-to-audio

K

Kling video-to-audio

Na żądanie:$0.03304
Kling wideo-na-audio