ماڈلزسپورٹانٹرپرائزبلاگ
500+ AI ماڈل API، تمام ایک API میں۔ صرف CometAPI میں
ماڈلز API
ڈویلپر
فوری آغازدستاویزاتAPI ڈیش بورڈ
وسائل
AI ماڈلزبلاگانٹرپرائزتبدیلیوں کا ریکارڈہمارے بارے میں
2025 CometAPI۔ تمام حقوق محفوظ ہیں۔رازداری کی پالیسیخدمات کی شرائط
Home/Models/OpenAI/gpt-realtime-mini
O

gpt-realtime-mini

ان پٹ:$0.48/M
آؤٹ پٹ:$0.96/M
ریئل ٹائم GPT کا کم لاگت ورژن — جو WebRTC، WebSocket یا SIP کنکشنز کے ذریعے آڈیو اور متنی ان پٹ کا ریئل ٹائم میں جواب دینے کی صلاحیت رکھتا ہے۔
نیا
تجارتی استعمال
خلاصہ
خصوصیات
قیمت
API
ورژن

Technical Specifications of gpt-realtime-mini

SpecificationDetails
Model IDgpt-realtime-mini
Model typeRealtime multimodal model
DescriptionAn economical version of the real-time GPT—capable of responding to audio and text inputs in realtime via WebRTC, WebSocket, or SIP connections.
Input modalitiesText, audio, image
Output modalitiesText, audio
Context window32,000 tokens
Max output tokens4,096 tokens
Supported interfacesWebRTC, WebSocket, SIP
Supported featuresFunction calling supported; structured outputs, fine-tuning, distillation, and predicted outputs not supported
Recommended useLow-latency voice agents, realtime multimodal applications, and cost-sensitive interactive experiences

What is gpt-realtime-mini?

gpt-realtime-mini is a cost-efficient realtime model designed for applications that need fast, natural interaction with users through live audio and text. It is intended for low-latency multimodal experiences, allowing developers to build assistants that can listen, respond, and stream output in realtime rather than relying on slower multi-step pipelines.

Compared with larger realtime variants, gpt-realtime-mini is positioned as the economical option for developers who want realtime speech and text capabilities while managing cost and maintaining responsive performance. It works across browser, server, and telephony-style connection patterns through WebRTC, WebSocket, and SIP.

Main features of gpt-realtime-mini

  • Realtime audio and text interaction: Supports low-latency conversations with streaming input and output, making it suitable for live assistants, voice bots, and interactive agents.
  • Cost-efficient deployment: Positioned as an economical version of the realtime model family, making it attractive for high-volume or budget-sensitive applications.
  • Multiple connection methods: Can be integrated through WebRTC for browser clients, WebSocket for server-side systems, and SIP for telephony or VoIP scenarios.
  • Multimodal input support: Accepts text, audio, and image input, enabling richer user interactions and more flexible application design.
  • Speech-capable output: Produces both text and audio output, which is useful for conversational interfaces and spoken response systems.
  • Function calling support: Supports function calling, allowing applications to connect the model to tools, workflows, or backend actions during realtime sessions.
  • Built for voice agents: Well suited for speech-to-speech assistants and realtime customer interaction experiences where interruption handling and fast turn-taking matter.

How to access and integrate gpt-realtime-mini

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. Once you have your key, keep it secure and store it in your environment variables for server-side use.

Step 2: Connect to gpt-realtime-mini API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-realtime-mini",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

gpt-realtime-mini کے لیے خصوصیات

[ماڈل کا نام] کی اہم خصوصیات دریافت کریں، جو کارکردگی اور قابل استعمال کو بہتر بنانے کے لیے ڈیزائن کی گئی ہیں۔ جانیں کہ یہ صلاحیتیں آپ کے منصوبوں کو کیسے فائدہ پہنچا سکتی ہیں اور صارف کے تجربے کو بہتر بنا سکتی ہیں۔

gpt-realtime-mini کی قیمتیں

[ماڈل کا نام] کے لیے مسابقتی قیمتوں کو دریافت کریں، جو مختلف بجٹ اور استعمال کی ضروریات کے مطابق ڈیزائن کیا گیا ہے۔ ہمارے لچکدار منصوبے اس بات کو یقینی بناتے ہیں کہ آپ صرف اسی کے لیے ادائیگی کریں جو آپ استعمال کرتے ہیں، جس سے آپ کی ضروریات بڑھنے کے ساتھ ساتھ اسکیل کرنا آسان ہو جاتا ہے۔ دریافت کریں کہ [ماڈل کا نام] کیسے آپ کے پروجیکٹس کو بہتر بنا سکتا ہے جبکہ اخراجات کو قابو میں رکھتا ہے۔
Comet قیمت (USD / M Tokens)سرکاری قیمت (USD / M Tokens)رعایت
ان پٹ:$0.48/M
آؤٹ پٹ:$0.96/M
ان پٹ:$0.6/M
آؤٹ پٹ:$1.2/M
-20%

gpt-realtime-mini کے لیے نمونہ کوڈ اور API

gpt-realtime-mini کے لیے جامع نمونہ کوڈ اور API وسائل تک رسائی حاصل کریں تاکہ آپ کے انضمام کے عمل کو آسان بنایا جا سکے۔ ہماری تفصیلی دستاویزات قدم بہ قدم رہنمائی فراہم کرتی ہیں، جو آپ کو اپنے پروجیکٹس میں gpt-realtime-mini کی مکمل صلاحیت سے فائدہ اٹھانے میں مدد کرتی ہیں۔

gpt-realtime-mini کے ورژن

gpt-realtime-mini کے متعدد سنیپ شاٹس کی وجوہات میں ممکنہ عوامل شامل ہوسکتے ہیں جیسے اپ ڈیٹس کے بعد آؤٹ پٹ میں تبدیلیاں جس کی وجہ سے مستقل مزاجی کے لیے پرانے سنیپ شاٹس کی ضرورت ہوتی ہے، ڈویلپرز کو ایڈاپٹیشن اور مائیگریشن کے لیے منتقلی کا وقت فراہم کرنا، اور عالمی یا علاقائی اینڈ پوائنٹس کے مطابق مختلف سنیپ شاٹس کا ہونا تاکہ صارف کے تجربے کو بہتر بنایا جاسکے۔ ورژنز کے درمیان تفصیلی فرق کے لیے براہ کرم سرکاری دستاویزات کا حوالہ دیں۔
version
gpt-realtime-mini

مزید ماڈلز

G

Nano Banana 2

ان پٹ:$0.4/M
آؤٹ پٹ:$2.4/M
بنیادی صلاحیتوں کا جائزہ: ریزولوشن: 4K (4096×4096) تک، Pro کے برابر۔ حوالہ تصاویر میں یکسانیت: زیادہ سے زیادہ 14 حوالہ تصاویر (10 اشیا + 4 کردار)، اسٹائل/کردار کی یکسانیت برقرار رکھتے ہوئے۔ انتہائی ایسپیکٹ ریشوز: نئے 1:4، 4:1، 1:8، 8:1 ریشوز شامل، طویل تصاویر، پوسٹرز اور بینرز کے لیے موزوں۔ ٹیکسٹ رینڈرنگ: اعلی درجے کی متن تخلیق، انفوگرافکس اور مارکیٹنگ پوسٹر لے آؤٹس کے لیے موزوں۔ تلاش میں بہتری: مربوط Google Search + Image Search۔ گراؤنڈنگ: بلٹ اِن تفکر کا عمل؛ جنریشن سے پہلے پیچیدہ پرامپٹس پر منطقی استدلال کیا جاتا ہے۔
A

Claude Opus 4.6

ان پٹ:$4/M
آؤٹ پٹ:$20/M
Claude Opus 4.6، Anthropic کے “Opus” کلاس کا بڑا لسانی ماڈل ہے، جو فروری 2026 میں جاری کیا گیا۔ اسے علمی کام اور تحقیقی ورک فلوز کے لیے ایک بھروسہ مند مرکزی حل کے طور پر پیش کیا گیا ہے — اور یہ طویل سیاق میں استدلال، کئی مرحلوں پر مشتمل منصوبہ بندی، ٹولز کے استعمال (جن میں ایجنٹ پر مبنی سافٹ ویئر ورک فلوز بھی شامل ہیں)، اور کمپیوٹر کے استعمال سے متعلق کام جیسے خودکار سلائیڈ اور اسپریڈشیٹ کی تیاری کو بہتر بناتا ہے۔
A

Claude Sonnet 4.6

ان پٹ:$2.4/M
آؤٹ پٹ:$12/M
Claude Sonnet 4.6 ہمارا اب تک کا سب سے زیادہ قابل Sonnet ماڈل ہے۔ یہ کوڈنگ، کمپیوٹر کے استعمال، طویل سیاقی استدلال، ایجنٹ منصوبہ بندی، دانش پر مبنی کام، اور ڈیزائن کے حوالے سے ماڈل کی صلاحیتوں کا مکمل اپ گریڈ ہے۔ Sonnet 4.6 میں بیٹا مرحلے میں 1M ٹوکن کانٹیکسٹ ونڈو کی خصوصیت بھی ہے۔
O

GPT-5.4 nano

ان پٹ:$0.16/M
آؤٹ پٹ:$1/M
GPT-5.4 nano اُن کاموں کے لیے تیار کیا گیا ہے جن میں رفتار اور لاگت سب سے زیادہ اہمیت رکھتی ہیں، مثلاً درجہ بندی، ڈیٹا استخراج، رینکنگ، اور ذیلی ایجنٹس۔
O

GPT-5.4 mini

ان پٹ:$0.6/M
آؤٹ پٹ:$3.6/M
GPT-5.4 mini، GPT-5.4 کی صلاحیتوں کو ایک تیز تر، زیادہ مؤثر ماڈل میں لے آتا ہے جو زیادہ حجم کے ورک لوڈز کے لیے ڈیزائن کیا گیا ہے۔
A

Claude Mythos Preview

A

Claude Mythos Preview

جلد آ رہا ہے
ان پٹ:$60/M
آؤٹ پٹ:$240/M
Claude Mythos Preview اب تک ہمارا سب سے طاقتور فرنٹیئر ماڈل ہے، اور کئی تشخیصی بینچ مارکس پر اسکورز میں ایک نمایاں چھلانگ دکھاتا ہے، ہمارے سابقہ فرنٹیئر ماڈل Claude Opus 4.6 کے مقابلے میں۔