Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

Đầu vào:$0.48/M
Đầu ra:$0.96/M
Phiên bản tiết kiệm chi phí của GPT thời gian thực — có khả năng phản hồi đầu vào âm thanh và văn bản theo thời gian thực thông qua các kết nối WebRTC, WebSocket hoặc SIP.
Mới
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Tính năng cho gpt-realtime-mini

Khám phá các tính năng chính của gpt-realtime-mini, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho gpt-realtime-mini

Khám phá mức giá cạnh tranh cho gpt-realtime-mini, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách gpt-realtime-mini có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.48/M
Đầu ra:$0.96/M
Đầu vào:$0.6/M
Đầu ra:$1.2/M
-20%

Mã mẫu và API cho gpt-realtime-mini

Truy cập mã mẫu toàn diện và tài nguyên API cho gpt-realtime-mini để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của gpt-realtime-mini trong các dự án của mình.

Các phiên bản của gpt-realtime-mini

Lý do gpt-realtime-mini có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
version
gpt-realtime-mini

Thêm mô hình

G

Nano Banana 2

Đầu vào:$0.4/M
Đầu ra:$2.4/M
Tổng quan về khả năng cốt lõi: Độ phân giải: Lên đến 4K (4096×4096), tương đương với Pro. Tính nhất quán hình ảnh tham chiếu: Tối đa 14 hình ảnh tham chiếu (10 đối tượng + 4 nhân vật), duy trì tính nhất quán về phong cách/nhân vật. Tỷ lệ khung hình cực đoan: Bổ sung các tỷ lệ mới 1:4, 4:1, 1:8, 8:1, phù hợp cho hình ảnh dài, poster và banner. Kết xuất văn bản: Tạo văn bản nâng cao, phù hợp cho infographics và bố cục poster marketing. Tăng cường tìm kiếm: Tích hợp Google Search + Image Search. Lý giải nền tảng: Quy trình tư duy tích hợp; các prompt phức tạp được suy luận trước khi tạo.
A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.