모델지원엔터프라이즈블로그
500개 이상의 AI 모델 API, 모든 것이 하나의 API로. CometAPI에서
Models API
개발자
빠른 시작문서API 대시보드
리소스
AI 모델블로그엔터프라이즈변경 로그소개
2025 CometAPI. 모든 권리 보유.개인정보 보호정책서비스 이용약관
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

입력:$0.48/M
출력:$0.96/M
실시간 GPT의 경제적인 버전—WebRTC, WebSocket 또는 SIP 연결을 통해 오디오 및 텍스트 입력에 실시간으로 응답할 수 있음.
새로운
상업적 사용
개요
기능
가격
API
버전

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

gpt-realtime-mini의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

gpt-realtime-mini 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.
코멧 가격 (USD / M Tokens)공식 가격 (USD / M Tokens)할인
입력:$0.48/M
출력:$0.96/M
입력:$0.6/M
출력:$1.2/M
-20%

gpt-realtime-mini의 샘플 코드 및 API

[모델 이름]의 포괄적인 샘플 코드와 API 리소스에 액세스하여 통합 프로세스를 간소화하세요. 자세한 문서는 단계별 가이드를 제공하여 프로젝트에서 [모델 이름]의 모든 잠재력을 활용할 수 있도록 돕습니다.

gpt-realtime-mini의 버전

gpt-realtime-mini에 여러 스냅샷이 존재하는 이유는 업데이트 후 출력 변동으로 인해 일관성을 유지하기 위해 이전 스냅샷을 보관하거나, 개발자에게 적응 및 마이그레이션을 위한 전환 기간을 제공하거나, 글로벌 또는 지역별 엔드포인트에 따라 다양한 스냅샷을 제공하여 사용자 경험을 최적화하기 위한 것 등이 포함될 수 있습니다. 버전 간 상세한 차이점은 공식 문서를 참고해 주시기 바랍니다.
version
gpt-realtime-mini

더 많은 모델

G

Nano Banana 2

입력:$0.4/M
출력:$2.4/M
핵심 기능 개요: 해상도: 최대 4K(4096×4096), Pro와 동급. 참조 이미지 일관성: 최대 14개의 참조 이미지(오브젝트 10개 + 캐릭터 4개)로 스타일/캐릭터 일관성을 유지. 극단적인 종횡비: 새로운 1:4, 4:1, 1:8, 8:1 비율이 추가되어 긴 이미지, 포스터, 배너에 적합. 텍스트 렌더링: 고급 텍스트 생성, 인포그래픽 및 마케팅 포스터 레이아웃에 적합. 검색 기능 강화: Google 검색 + 이미지 검색 통합. 그라운딩: 내장된 사고 프로세스; 복잡한 프롬프트는 생성 전에 추론됨.
A

Claude Opus 4.6

입력:$4/M
출력:$20/M
Claude Opus 4.6는 Anthropic의 “Opus”급 대규모 언어 모델로, 2026년 2월에 출시되었습니다. 지식 업무와 연구 워크플로를 위한 주력 모델로 자리매김했으며 — 긴 컨텍스트 추론, 다단계 계획, 도구 사용(에이전트형 소프트웨어 워크플로 포함), 그리고 슬라이드와 스프레드시트 자동 생성과 같은 컴퓨터 활용 작업을 개선합니다.
A

Claude Sonnet 4.6

입력:$2.4/M
출력:$12/M
Claude Sonnet 4.6은 지금까지 가장 역량이 뛰어난 Sonnet 모델입니다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전반에 걸쳐 모델의 역량을 전면 업그레이드한 버전입니다. Sonnet 4.6은 베타 단계의 1M 토큰 컨텍스트 윈도우도 제공합니다.
O

GPT-5.4 nano

입력:$0.16/M
출력:$1/M
GPT-5.4 nano는 속도와 비용이 최우선인 분류, 데이터 추출, 순위화, 하위 에이전트 등의 작업을 위해 설계되었습니다.
O

GPT-5.4 mini

입력:$0.6/M
출력:$3.6/M
GPT-5.4 mini는 대규모 워크로드를 위해 설계된 더 빠르고 더 효율적인 모델에 GPT-5.4의 강점을 접목합니다.
A

Claude Mythos Preview

A

Claude Mythos Preview

곧 출시 예정
입력:$60/M
출력:$240/M
Claude Mythos Preview는 현재까지 우리의 가장 강력한 프런티어 모델이며, 이전 프런티어 모델인 Claude Opus 4.6과 비교해 여러 평가 벤치마크 점수에서 놀라운 도약을 보여줍니다.