GPT-4o ریئل ٹائم API

CometAPI
AnnaJun 11, 2025
GPT-4o ریئل ٹائم API

GPT-4o ریئل ٹائم API: ایک کم لیٹنسی، ملٹی موڈل اسٹریمنگ اینڈ پوائنٹ جو ڈویلپرز کو WebRTC یا WebSocket پر مطابقت پذیر ٹیکسٹ، آڈیو اور وژن ڈیٹا بھیجنے اور وصول کرنے دیتا ہےgpt-4o-realtime-preview-<date>, stream=true) انٹرایکٹو ریئل ٹائم ایپلی کیشنز کے لیے۔


بنیادی معلومات اور خصوصیات

اوپن اے آئی GPT-4o ریئل ٹائم (ماڈل ID: gpt-4o-realtime-preview-2025-06-03) پہلا عوامی طور پر دستیاب فاؤنڈیشن ماڈل ہے جس کے لیے انجنیئر کیا گیا ہے۔ اختتام سے آخر تک تقریر سے تقریر (S2S) کے ساتھ تعامل ذیلی سیکنڈ تاخیر. "omni" GPT-4o فیملی سے ماخوذ، ریئل ٹائم ویرینٹ فیوز ہوتا ہے۔ تقریر کی شناخت، قدرتی زبان کی استدلال، اور اعصابی متن سے تقریر ایک ہی نیٹ ورک میں، ڈویلپرز کو آواز کے ایجنٹ بنانے کی اجازت دیتا ہے جو انسانوں کی طرح روانی سے بات چیت کرتے ہیں۔ ماڈل مقصد کے ذریعے بنایا گیا ہے ریئل ٹائم API اور نئے کے ساتھ مضبوطی سے مربوط ہے۔ ریئل ٹائم ایجنٹ کے اندر تجرید ایجنٹس SDK (TypeScript & Python)۔


بنیادی فیچر سیٹ - اینڈ ٹو اینڈ S2S • رکاوٹ کو سنبھالنا • ٹول کالنگ

• مقامی تقریر سے تقریر: آڈیو ان پٹ کو مسلسل اسٹریمز کے طور پر داخل کیا جاتا ہے، اندرونی طور پر ٹوکنائز کیا جاتا ہے، استدلال کیا جاتا ہے، اور ترکیب شدہ تقریر کے طور پر واپس کیا جاتا ہے۔ کسی بیرونی STT/TTS بفرز کی ضرورت نہیں ہے، ملٹی سیکنڈ پائپ لائن لیگ کو ختم کرتے ہوئے۔
• ملی سیکنڈ اسکیل لیٹنسی: آرکیٹیکچرل پرننگ، ماڈل ڈسٹلیشن، اور ایک GPU سے بہتر سرونگ اسٹیک کو فعال کرتا ہے ~300–500 ms پہلی ٹوکن تاخیر عام کلاؤڈ کی تعیناتیوں میں، انسانی بات چیت کے موڑ لینے کے اصولوں تک پہنچنا۔
• مضبوط ہدایات- مندرجہ ذیل: بات چیت کے اسکرپٹس اور فنکشن کالنگ ٹریس پر اچھی طرح سے تیار کردہ، GPT-4o ریئل ٹائم ایک کا مظاہرہ کرتا ہے > ٹاسک پر عملدرآمد کی غلطیوں میں 25 فیصد کمی مئی-2024 GPT-4o بیس لائن کے مقابلے۔
ڈیٹرمنسٹک ٹول کالنگ: یہ ماڈل OpenAI کے مطابق JSON بناتا ہے۔ فنکشن کالنگ اسکیما، بیک اینڈ APIs (بکنگ سسٹم، ڈیٹا بیس، IoT) کی تعییناتی درخواست کی اجازت دیتا ہے۔ غلطی سے آگاہی کی کوششیں اور دلیل کی توثیق شامل ہیں۔
• خوبصورت رکاوٹیں: ریئل ٹائم صوتی سرگرمی کا پتہ لگانے والا جوڑ میں اضافہ کی ضابطہ کشائی کے ساتھ ایجنٹ کو قابل بناتا ہے۔ تقریر کے وسط میں وقفہ کریں۔، صارف کی رکاوٹ ڈالیں، اور بغیر کسی رکاوٹ کے جواب کو دوبارہ شروع کریں یا دوبارہ منصوبہ بنائیں۔
• قابل ترتیب تقریر کی شرح: ایک نئی تیزی پیرامیٹر (0.25–4× ریئل ٹائم) ڈیولپرز کو رسائی یا تیز فائر ایپلی کیشنز کے لیے آؤٹ پٹ پیسنگ کے مطابق کرنے دیتا ہے۔


تکنیکی فن تعمیر - یونیفائیڈ ملٹی موڈل ٹرانسفارمر

یونیفائیڈ انکوڈر – ڈیکوڈر: GPT-4o ریئل ٹائم اومنی فن تعمیر کا اشتراک کرتا ہے۔ سنگل اسٹیک ٹرانسفارمر جس میں آڈیو، متن، اور (مستقبل کے) وژن ٹوکن ایک اویکت جگہ میں ایک ساتھ رہتے ہیں۔ پرت کے لحاظ سے انکولی کمپیوٹیشن شارٹ کٹ آڈیو فریموں کو براہ راست بعد میں توجہ دینے والے بلاکس پر لے جاتا ہے، 20-40 ms فی پاس شیو کرتا ہے۔

درجہ بندی آڈیو ٹوکنائزیشن: خام 16 کلو ہرٹز پی سی ایم کو لاگ میل پیچز میں ٹکڑا جاتا ہے → موٹے دانے والے صوتی ٹوکن میں مقدار میں → سیمنٹک ٹوکنز میں کمپریس کیا جاتا ہے، بہتر بناتے ہوئے ٹوکن فی سیکنڈ پراسوڈی کی قربانی کے بغیر بجٹ.

کم بٹ انفرنس دانا: تعینات وزن پر چلتا ہے۔ 4 بٹ NF4 کوانٹائزیشن Triton / TensorRT-LLM کرنل کے ذریعے، <16 dB MOS کوالٹی نقصان کو برقرار رکھتے ہوئے fp1 کے مقابلے میں تھرو پٹ کو دوگنا کرنا۔

سلسلہ بندی کی توجہ: سلائیڈنگ ونڈو روٹری ایمبیڈنگز اور کلیدی ویلیو کیشنگ ماڈل کو O(L) میموری کے ساتھ آڈیو کے آخری 15 سیکنڈ میں شرکت کرنے کی اجازت دیتی ہے، جو فون کال – لمبائی کے مکالموں کے لیے اہم ہے۔


تکنیکی تفصیلات

  • API ورژن۔: 2025-06-03-preview
  • ٹرانسپورٹ پروٹوکول:
  • WebRTC: کلائنٹ سائیڈ آڈیو/ویڈیو اسٹریمز کے لیے انتہائی کم تاخیر (<80 ms)
  • ویب ساکٹ: ذیلی 100 ms لیٹنسی کے ساتھ سرور سے سرور سلسلہ بندی
  • ڈیٹا انکوڈنگ:
  • رچنا اندر اندر کوڈیک RTP آڈیو کے لیے پیکٹ
  • H.264 / H.265 ویڈیو کے لیے فریم ریپر
  • اسٹریمنگ: کی حمایت کرتا ہے۔ stream: true پہنچانے کے لئے اضافہ جزوی جوابات بطور ٹوکن تیار کیے جاتے ہیں۔
  • نیا وائس پیلیٹآٹھ نئی آوازیں متعارف کرائی ہیں۔مصر دات, راھ, ballad, مرجان, یاد آتی ہے, بابا, شیمر، اور آیت- مزید کے لیے اظہار, انسان کی طرح تعاملات ..

GPT-4o ریئل ٹائم کا ارتقاء

  • 2024 فرمائے: GPT-4o اومنی۔ متن، آڈیو، اور وژن کے لیے ملٹی موڈل سپورٹ کے ساتھ ڈیبیو۔
  • اکتوبر 2024: ریئل ٹائم API نجی بیٹا میں داخل ہوتا ہے (2024-10-01-preview)، کم تاخیر والی آڈیو کے لیے موزوں ہے۔
  • دسمبر 2024: کی توسیع شدہ عالمی دستیابی gpt-4o-realtime-preview-2024-12-17، انہوں نے مزید کہا فوری کیشنگ اور مزید آوازیں
  • جون 3، 2025: تازہ ترین تازہ کاری (2025-06-03-preview) بہتر کیا جاتا ہے۔ آواز پیلیٹ اور کارکردگی کی اصلاح

بینچ مارک کارکردگی

  • ایم ایم ایل یو: 88.7، GPT-4 کے 86.5 کو پیچھے چھوڑ رہا ہے۔ بڑے پیمانے پر ملٹی ٹاسک زبان کی تفہیم .
  • تقریر کی شناخت: حاصل کرتا ہے۔ صنعت کے معروف شور والے ماحول میں لفظ کی غلطی کی شرح، سبقت لے جانے والی کسبی بنیادی خطوط
  • تاخیر کے ٹیسٹ:
  • آخر سے آخر تک (اسپیچ → ٹیکسٹ آؤٹ میں): 50-80 ایم ایس WebRTC کے ذریعے
  • راؤنڈ ٹرپ آڈیو (اسپیچ → اسپیچ آؤٹ میں): <100 ایم ایس .

تکنیکی اشارے

  • انحصار: برقرار رکھتا ہے۔ 15 ٹوکن/سیکنڈ ٹیکسٹ اسٹریمز کے لیے؛ 24 KB آڈیو کے لیے Opus.
  • قیمتوں کا تعین:
  • متن: 5 فی 1 M ان پٹ ٹوکن؛ 20 فی 1 M آؤٹ پٹ ٹوکن
  • آڈیو: 100 فی 1 M ان پٹ ٹوکن؛ 200 فی 1 M آؤٹ پٹ ٹوکن۔
  • دستیابی: ریئل ٹائم API کو سپورٹ کرنے والے تمام خطوں میں عالمی سطح پر تعینات۔

CometAPI سے GPT-4o ریئل ٹائم API کو کیسے کال کریں۔

GPT-4o Realtime CometAPI میں API قیمتوں کا تعین:

  • ان پٹ ٹوکنز: $2/M ٹوکن
  • آؤٹ پٹ ٹوکنز: $8/M ٹوکن

مطلوبہ اقدامات

  • داخل ہوجاو cometapi.com. اگر آپ ابھی تک ہمارے صارف نہیں ہیں، تو براہ کرم پہلے رجسٹر کریں۔
  • انٹرفیس کی رسائی کی سند API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر "ٹوکن شامل کریں" پر کلک کریں، ٹوکن کی حاصل کریں: sk-xxxxx اور جمع کرائیں۔
  • اس سائٹ کا یو آر ایل حاصل کریں: https://api.cometapi.com/

استعمال کے طریقے

  1. منتخب کریں “**gpt-4o-realtime-preview-2025-06-03**درخواست بھیجنے اور درخواست کا باڈی سیٹ کرنے کے لیے اینڈ پوائنٹ۔ درخواست کا طریقہ اور درخواست کا باڈی ہماری ویب سائٹ API doc سے حاصل کیا جاتا ہے۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔
  2. بدل دیں۔ آپ کے اکاؤنٹ سے اپنی اصل CometAPI کلید کے ساتھ۔
  3. مواد کے خانے میں اپنا سوال یا درخواست داخل کریں—یہ وہی ہے جس کا ماڈل جواب دے گا۔
  4. . تیار کردہ جواب حاصل کرنے کے لیے API جواب پر کارروائی کریں۔

Comet API میں ماڈل تک رسائی کی معلومات کے لیے براہ کرم دیکھیں API دستاویز.

Comet API میں ماڈل کی قیمت کی معلومات کے لیے براہ کرم دیکھیں https://api.cometapi.com/pricing.


نمونہ کوڈ اور API انٹیگریشن

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • اہم پیرامیٹرز:
  • model: "gpt-4o-realtime-preview-2025-06-03"
  • version: "2025-06-03-پیش نظارہ"
  • transport: "webrtc" لیے کم سے کم تاخیر
  • stream: true لیے اضافہ تازہ ترین معلومات کے

جوڑ کر۔ ریاستی آرٹ کثیر الجہتی استدلال، a مضبوط نیا صوتی پیلیٹ، اور انتہائی کم تاخیر کا سلسلہ، GPT-4o ریئل ٹائم (2025-06-03) ڈویلپرز کو حقیقی معنوں میں تعمیر کرنے کا اختیار دیتا ہے۔ انٹرایکٹو, سنوادی AI ایپلی کیشنز۔

یہ بھی دیکھتے ہیں o3-Pro API

حفاظت اور تعمیل

OpenAI اس کے ساتھ GPT-4o ریئل ٹائم بھیجتا ہے:
سسٹم لیول گارڈریلز: نامنظور درخواستوں (شدت پسندی، غیر قانونی رویے) کو مسترد کرنے کے لیے پالیسی کے مطابق۔
ریئل ٹائم مواد فلٹرنگ: ذیلی 100 ایم ایس کلاسیفائر اخراج سے پہلے صارف کے ان پٹ اور ماڈل آؤٹ پٹ دونوں کی اسکرین کرتے ہیں۔
انسانی منظوری کے راستے: ایجنٹوں SDK کی منظوری کے نئے اصولوں کا فائدہ اٹھاتے ہوئے، اعلی خطرے والے ٹول کی درخواستوں (ادائیگیوں، قانونی مشورے) پر متحرک۔

GPT-4o ریئل ٹائم

SHARE THIS BLOG

500+ ماڈلز ایک API میں

20% تک چھوٹ