ModelSokonganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Sumber
Model AIBlogPerusahaanLog PerubahanTentang
2025 CometAPI. Hak cipta terpelihara.Dasar PrivasiTerma Perkhidmatan
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

Masukan:$0.48/M
Keluaran:$0.96/M
Versi kos efektif bagi GPT masa nyata—mampu memberi respons terhadap input audio dan teks secara masa nyata melalui sambungan WebRTC, WebSocket atau SIP.
Baru
Penggunaan komersial
Gambaran Keseluruhan
Ciri-ciri
Harga
API
Versi

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Ciri-ciri untuk gpt-realtime-mini

Terokai ciri-ciri utama gpt-realtime-mini, yang direka untuk meningkatkan prestasi dan kebolehgunaan. Temui bagaimana keupayaan ini boleh memberi manfaat kepada projek anda dan meningkatkan pengalaman pengguna.

Harga untuk gpt-realtime-mini

Terokai harga yang kompetitif untuk gpt-realtime-mini, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana gpt-realtime-mini boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$0.48/M
Keluaran:$0.96/M
Masukan:$0.6/M
Keluaran:$1.2/M
-20%

Kod contoh dan API untuk gpt-realtime-mini

Akses kod sampel yang komprehensif dan sumber API untuk gpt-realtime-mini bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh gpt-realtime-mini dalam projek anda.

Versi gpt-realtime-mini

Sebab gpt-realtime-mini mempunyai berbilang snapshot mungkin merangkumi faktor berpotensi seperti variasi output selepas kemas kini yang memerlukan snapshot lama untuk konsistensi, menyediakan tempoh peralihan untuk penyesuaian dan migrasi kepada pembangun, serta snapshot berbeza yang sepadan dengan endpoint global atau serantau untuk mengoptimumkan pengalaman pengguna. Untuk perbezaan terperinci antara versi, sila rujuk dokumentasi rasmi.
version
gpt-realtime-mini

Lebih Banyak Model

G

Nano Banana 2

Masukan:$0.4/M
Keluaran:$2.4/M
Gambaran Keseluruhan Keupayaan Teras: Resolusi: Sehingga 4K (4096×4096), setara dengan Pro. Ketekalan Imej Rujukan: Sehingga 14 imej rujukan (10 objek + 4 watak), mengekalkan ketekalan gaya/watak. Nisbah Aspek Melampau: Nisbah baharu 1:4, 4:1, 1:8, 8:1 ditambah, sesuai untuk imej panjang, poster dan sepanduk. Penjanaan Teks: Penjanaan teks lanjutan, sesuai untuk infografik dan susun atur poster pemasaran. Peningkatan Carian: Carian Google + Carian Imej bersepadu. Pembumian: Proses pemikiran terbina dalam; arahan kompleks dirasionalkan sebelum penjanaan.
A

Claude Opus 4.6

Masukan:$4/M
Keluaran:$20/M
Claude Opus 4.6 ialah model bahasa besar kelas “Opus” oleh Anthropic, dikeluarkan pada Februari 2026. Ia diposisikan sebagai tulang belakang untuk kerja berpengetahuan dan aliran kerja penyelidikan — menambah baik penaakulan berkonteks panjang, perancangan berbilang langkah, penggunaan alat (termasuk aliran kerja perisian berasaskan ejen), dan tugas penggunaan komputer seperti penjanaan slaid dan hamparan automatik.
A

Claude Sonnet 4.6

Masukan:$2.4/M
Keluaran:$12/M
Claude Sonnet 4.6 ialah model Sonnet kami yang paling berkeupayaan setakat ini. Ia merupakan peningkatan menyeluruh terhadap kemahiran model yang meliputi pengaturcaraan, penggunaan komputer, penaakulan konteks panjang, perancangan agen, kerja berasaskan pengetahuan, dan reka bentuk. Sonnet 4.6 turut menampilkan tetingkap konteks 1M token dalam beta.
O

GPT-5.4 nano

Masukan:$0.16/M
Keluaran:$1/M
GPT-5.4 nano direka untuk tugasan yang amat mengutamakan kelajuan dan kos, seperti pengelasan, pengekstrakan data, pemeringkatan dan sub-agen.
O

GPT-5.4 mini

Masukan:$0.6/M
Keluaran:$3.6/M
GPT-5.4 mini membawa kekuatan GPT-5.4 ke dalam model yang lebih pantas dan lebih cekap, direka untuk beban kerja berskala besar.
A

Claude Mythos Preview

A

Claude Mythos Preview

Akan datang
Masukan:$60/M
Keluaran:$240/M
Claude Mythos Preview ialah model terdepan kami yang paling berkemampuan setakat ini, dan menunjukkan lonjakan yang ketara dalam skor pada banyak penanda aras penilaian berbanding model terdepan kami sebelum ini, Claude Opus 4.6.