النماذجالدعمالمؤسسةمدونة
أكثر من 500 واجهة برمجة تطبيقات لنماذج الذكاء الاصطناعي، الكل في واجهة واحدة. فقط في CometAPI
واجهة برمجة التطبيقات للنماذج
مطور
البدء السريعالتوثيقلوحة تحكم API
الموارد
نماذج الذكاء الاصطناعيمدونةالمؤسسةالسجل التاريخي للتغييراتحول
2025 CometAPI. جميع الحقوق محفوظة.سياسة الخصوصيةشروط الخدمة
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

مدخل:$0.48/M
الإخراج:$0.96/M
نسخة اقتصادية من GPT في الوقت الحقيقي — قادرة على الاستجابة للمدخلات الصوتية والنصية في الوقت الحقيقي عبر اتصالات WebRTC أو WebSocket أو SIP.
جديد
الاستخدام التجاري
نظرة عامة
الميزات
التسعير
API
الإصدارات

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

الميزات لـ gpt-realtime-mini

استكشف الميزات الرئيسية لـ gpt-realtime-mini، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ gpt-realtime-mini

استكشف الأسعار التنافسية لـ gpt-realtime-mini، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ gpt-realtime-mini تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$0.48/M
الإخراج:$0.96/M
مدخل:$0.6/M
الإخراج:$1.2/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ gpt-realtime-mini

احصل على أكواد نماذجية شاملة وموارد API لـ gpt-realtime-mini لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ gpt-realtime-mini في مشاريعك.

إصدارات gpt-realtime-mini

قد تشمل الأسباب وراء احتواء gpt-realtime-mini على لقطات متعددة عوامل محتملة مثل اختلاف المخرجات بعد التحديثات التي تتطلب اللقطات القديمة لضمان الاتساق، وتوفير فترة انتقالية للمطورين للتكيف والهجرة، وارتباط اللقطات المختلفة بنقاط النهاية العالمية أو الإقليمية لتحسين تجربة المستخدم. للاطلاع على الاختلافات التفصيلية بين الإصدارات، يرجى الرجوع إلى الوثائق الرسمية.
version
gpt-realtime-mini

المزيد من النماذج

G

Nano Banana 2

مدخل:$0.4/M
الإخراج:$2.4/M
نظرة عامة على القدرات الأساسية: الدقة: حتى 4K (4096×4096)، على قدم المساواة مع Pro. اتساق الصور المرجعية: حتى 14 صورة مرجعية (10 عناصر + 4 شخصيات)، مع الحفاظ على اتساق الأسلوب/الشخصيات. نسب أبعاد قصوى: تمت إضافة نسب جديدة 1:4، 4:1، 1:8، 8:1، مناسبة للصور الطويلة والملصقات واللافتات. عرض النصوص: توليد نص متقدم، مناسب للرسوم المعلوماتية وتخطيطات الملصقات التسويقية. تعزيز البحث: تكامل Google Search + Image Search. الاستدلال: عملية تفكير مدمجة؛ تُعالَج المطالبات المعقدة بالاستدلال قبل التوليد.
A

Claude Opus 4.6

مدخل:$4/M
الإخراج:$20/M
Claude Opus 4.6 هو نموذج لغة كبير من فئة “Opus” تابع لـ Anthropic، صدر في فبراير 2026. ويُطرح كأداة عمل أساسية لأعمال المعرفة وسير عمل البحث — مع تحسين الاستدلال ضمن سياقات طويلة، والتخطيط متعدد الخطوات، واستخدام الأدوات (بما في ذلك أطر عمل برمجية قائمة على الوكلاء)، ومهام استخدام الحاسوب مثل إنشاء الشرائح وجداول البيانات تلقائيًا.
A

Claude Sonnet 4.6

مدخل:$2.4/M
الإخراج:$12/M
Claude Sonnet 4.6 هو أكثر نماذج Sonnet لدينا كفاءةً حتى الآن. إنه ترقية شاملة لقدرات النموذج في مجالات البرمجة، واستخدام الحاسوب، والاستدلال بسياقات طويلة، وتخطيط الوكلاء، والعمل المعرفي، والتصميم. كما يتميز Sonnet 4.6 بنافذة سياق بسعة 1M رمز في الإصدار التجريبي.
O

GPT-5.4 nano

مدخل:$0.16/M
الإخراج:$1/M
GPT-5.4 nano مصمم للمهام التي تكتسب فيها السرعة والتكلفة أهمية قصوى، مثل التصنيف، واستخراج البيانات، والترتيب، والوكلاء الفرعيين.
O

GPT-5.4 mini

مدخل:$0.6/M
الإخراج:$3.6/M
يقدّم GPT-5.4 mini قدرات GPT-5.4 ضمن نموذج أسرع وأكثر كفاءة مصمم لأحمال عمل كبيرة الحجم.
A

Claude Mythos Preview

A

Claude Mythos Preview

قريبًا
مدخل:$60/M
الإخراج:$240/M
Claude Mythos Preview هو أكثر نماذجنا الحدودية قدرة حتى الآن، ويُظهر قفزة لافتة في النتائج على العديد من معايير التقييم مقارنةً بنموذجنا الحدودي السابق، Claude Opus 4.6.