ModelDukunganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Sumber Daya
Model AIBlogPerusahaanCatatan PerubahanTentang
2025 CometAPI. Semua hak dilindungi undang-undang.Kebijakan PrivasiSyarat dan Ketentuan Layanan
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

Masukan:$0.48/M
Keluaran:$0.96/M
Versi hemat biaya dari GPT real-time—mampu merespons masukan audio dan teks secara real-time melalui koneksi WebRTC, WebSocket, atau SIP.
Baru
Penggunaan komersial
Ikhtisar
Fitur
Harga
API
Versi

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Fitur untuk gpt-realtime-mini

Jelajahi fitur-fitur utama dari gpt-realtime-mini, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk gpt-realtime-mini

Jelajahi harga kompetitif untuk gpt-realtime-mini, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana gpt-realtime-mini dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.
Harga Comet (USD / M Tokens)Harga Resmi (USD / M Tokens)Diskon
Masukan:$0.48/M
Keluaran:$0.96/M
Masukan:$0.6/M
Keluaran:$1.2/M
-20%

Kode contoh dan API untuk gpt-realtime-mini

Akses kode sampel komprehensif dan sumber daya API untuk gpt-realtime-mini guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh gpt-realtime-mini dalam proyek Anda.

Versi gpt-realtime-mini

Alasan gpt-realtime-mini memiliki beberapa _snapshot_ mungkin mencakup faktor-faktor potensial seperti variasi keluaran setelah pembaruan yang memerlukan _snapshot_ lama untuk konsistensi, memberikan masa transisi bagi pengembang untuk beradaptasi dan bermigrasi, serta _snapshot_ berbeda yang sesuai dengan _endpoint_ global atau regional untuk mengoptimalkan pengalaman pengguna. Untuk perbedaan detail antar versi, silakan merujuk ke dokumentasi resmi.
version
gpt-realtime-mini

Model Lainnya

G

Nano Banana 2

Masukan:$0.4/M
Keluaran:$2.4/M
Ikhtisar Kapabilitas Inti: Resolusi: Hingga 4K (4096×4096), setara dengan Pro. Konsistensi Gambar Referensi: Hingga 14 gambar referensi (10 objek + 4 karakter), mempertahankan konsistensi gaya/karakter. Rasio Aspek Ekstrem: Rasio baru 1:4, 4:1, 1:8, 8:1 ditambahkan, cocok untuk gambar panjang, poster, dan banner. Rendering Teks: Pembuatan teks tingkat lanjut, cocok untuk infografis dan tata letak poster pemasaran. Peningkatan Pencarian: Terintegrasi dengan Google Search + Pencarian Gambar. Grounding: Proses penalaran bawaan; prompt kompleks dinalar terlebih dahulu sebelum pembuatan.
A

Claude Opus 4.6

Masukan:$4/M
Keluaran:$20/M
Claude Opus 4.6 adalah model bahasa besar kelas “Opus” dari Anthropic, dirilis pada Februari 2026. Model ini diposisikan sebagai andalan untuk pekerjaan berbasis pengetahuan dan alur kerja riset — meningkatkan penalaran dalam konteks panjang, perencanaan multi-langkah, penggunaan alat (termasuk alur kerja perangkat lunak berbasis agen), serta tugas penggunaan komputer seperti pembuatan slide dan spreadsheet secara otomatis.
A

Claude Sonnet 4.6

Masukan:$2.4/M
Keluaran:$12/M
Claude Sonnet 4.6 adalah model Sonnet kami yang paling mumpuni sejauh ini. Ini merupakan peningkatan menyeluruh atas keahlian model di bidang pemrograman, penggunaan komputer, penalaran konteks panjang, perencanaan agen, pekerjaan berbasis pengetahuan, dan desain. Sonnet 4.6 juga menyertakan jendela konteks 1M token dalam tahap beta.
O

GPT-5.4 nano

Masukan:$0.16/M
Keluaran:$1/M
GPT-5.4 nano dirancang untuk tugas-tugas di mana kecepatan dan biaya paling penting, seperti klasifikasi, ekstraksi data, pemeringkatan, dan sub-agen.
O

GPT-5.4 mini

Masukan:$0.6/M
Keluaran:$3.6/M
GPT-5.4 mini menghadirkan keunggulan GPT-5.4 ke model yang lebih cepat dan lebih efisien, dirancang untuk beban kerja bervolume tinggi.
A

Claude Mythos Preview

A

Claude Mythos Preview

Segera hadir
Masukan:$60/M
Keluaran:$240/M
Claude Mythos Preview adalah model frontier kami yang paling mumpuni hingga saat ini, dan menunjukkan lompatan skor yang mencolok pada banyak tolok ukur evaluasi dibandingkan dengan model frontier kami sebelumnya, Claude Opus 4.6.