اہم خصوصیات
- ملٹی موڈل جنریشن (ویڈیو + آڈیو) — Sora-2-Pro ویڈیو فریمز کو ہم آہنگ آڈیو (مکالمہ، محیطی آواز، SFX) کے ساتھ ایک ساتھ جنریٹ کرتا ہے، بجائے اس کے کہ ویڈیو اور آڈیو الگ الگ تیار کیے جائیں۔
- زیادہ اعلیٰ معیار / “Pro” درجۂ — زیادہ بصری معیار، مشکل شاٹس (پیچیدہ حرکت، اوکلوژن، اور طبعی تعاملات)، اور Sora-2 (نان-پرو) کے مقابلے میں فی منظر زیادہ طویل مطابقت کے لیے ٹیون کیا گیا ہے۔ یہ معیاری Sora-2 ماڈل کے مقابلے میں رینڈر ہونے میں زیادہ وقت لے سکتا ہے۔
- ان پٹ کی ہمہ گیری — صرف ٹیکسٹ پرامپٹس کو سپورٹ کرتا ہے، اور کمپوزیشن کی رہنمائی کے لیے امیج اِن پٹ فریمز یا ریفرنس امیجز بھی قبول کر سکتا ہے (
input_referenceورک فلو)۔ - کیمیو / مشابہت شامل کرنا — ایپ میں رضامندی کے ورک فلو کے ساتھ صارف کی ریکارڈ کی گئی مشابہت کو جنریٹ شدہ مناظر میں شامل کر سکتا ہے۔
- طبعی معقولیت: آبجیکٹ پرمیننس اور موشن فیڈیلیٹی میں بہتری (مثلاً مومینٹم، بویانسی)، جس سے پہلے کے سسٹمز میں عام غیر حقیقی “ٹیلی پورٹنگ” آرٹیفیکٹس کم ہوتے ہیں۔
- قابلِ کنٹرول ہونا: اسٹرکچرڈ پرامپٹس اور شاٹ-سطح کی ہدایات کو سپورٹ کرتا ہے تاکہ تخلیق کار کیمرا، لائٹنگ، اور ملٹی-شاٹ سیکوئنسز متعین کر سکیں۔
تکنیکی تفصیلات اور انٹیگریشن سطح
ماڈل فیملی: Sora 2 (بیس) اور Sora 2 Pro (اعلیٰ معیار والی ویریئنٹ)۔
ان پٹ موڈالیٹیز: ٹیکسٹ پرامپٹس، امیج ریفرنس، اور مشابہت کے لیے مختصر ریکارڈ شدہ کیمیو-ویڈیو/آڈیو۔
آؤٹ پٹ موڈالیٹیز: انکوڈڈ ویڈیو (آڈیو کے ساتھ) — پیرامیٹرز /v1/videos endpoints کے ذریعے ایکسپوز کیے جاتے ہیں (ماڈل سلیکشن بذریعہ model: "sora-2-pro" )۔ API سطح تخلیق/حاصل کرنے/فہرست/حذف کرنے کی کارروائیوں کے لیے OpenAI کی ویڈیوز endpoint فیملی کی پیروی کرتی ہے۔
ٹریننگ اور آرکیٹیکچر (عوامی خلاصہ): OpenAI بیان کرتا ہے کہ Sora 2 کو بڑے پیمانے کے ویڈیو ڈیٹا پر ٹرین کیا گیا ہے، جس میں ورلڈ سمولیشن کو بہتر بنانے کے لیے پوسٹ-ٹریننگ شامل ہے؛ مخصوص تفصیلات (ماڈل سائز، عین datasets، اور tokenization) عوامی طور پر سطر بہ سطر تفصیل کے ساتھ بیان نہیں کی گئیں۔ بھاری کمپیوٹ، خصوصی ویڈیو tokenizers/architectures، اور ملٹی موڈل الائنمنٹ اجزاء کی توقع رکھیں۔
API endpoints اور ورک فلو: جاب-بیسڈ ورک فلو دکھاتے ہیں: ایک POST create request جمع کریں (model="sora-2-pro")، ایک job id یا location وصول کریں، پھر completion کے لیے poll کریں یا انتظار کریں اور نتیجے میں حاصل ہونے والی file(s) ڈاؤن لوڈ کریں۔ شائع شدہ مثالوں میں عام پیرامیٹرز میں prompt، seconds/duration، size/resolution، اور امیج-گائیڈڈ آغاز کے لیے input_reference شامل ہیں۔
عام پیرامیٹرز :
model:"sora-2-pro"prompt: قدرتی زبان میں منظر کی تفصیل، اختیاری طور پر مکالمے کے cues کے ساتھseconds/duration: ہدف کلپ کی لمبائی (Pro دستیاب durations میں سب سے اعلیٰ معیار کو سپورٹ کرتا ہے)size/resolution: کمیونٹی رپورٹس اشارہ کرتی ہیں کہ Pro بہت سے استعمالی حالات میں 1080p تک سپورٹ کرتا ہے۔
مواد کے ان پٹس: امیج فائلیں (JPEG/PNG/WEBP) بطور فریم یا ریفرنس فراہم کی جا سکتی ہیں؛ استعمال کی صورت میں، امیج ہدف ریزولوشن سے مطابقت رکھنی چاہیے اور کمپوزیشن اینکر کے طور پر کام کرنی چاہیے۔
رینڈرنگ رویہ: Pro کو فریم-ٹو-فریم coherence اور حقیقت پسندانہ physics کو ترجیح دینے کے لیے ٹیون کیا گیا ہے؛ اس کا مطلب عام طور پر نان-پرو ویریئنٹس کے مقابلے میں زیادہ کمپیوٹ وقت اور فی کلپ زیادہ لاگت ہے۔
بینچ مارک کارکردگی
معیاری طاقتیں: OpenAI نے سابقہ ویڈیو ماڈلز کے مقابلے میں حقیقت پسندی، physics consistency، اور synchronized audio** کو بہتر بنایا ہے۔ دیگر VBench نتائج اشارہ کرتے ہیں کہ Sora-2 اور اس کے derivatives عصری closed-source ماڈلز میں temporal coherence کے لحاظ سے سرفہرست یا اس کے قریب ہیں۔
آزادانہ ٹائمنگ/تھروپٹ (مثالی بینچ): ایک موازنے میں Sora-2-Pro نے 20-سیکنڈ 1080p کلپس کے لیے اوسطاً ~2.1 منٹ لیے، جبکہ ایک حریف (Runway Gen-3 Alpha Turbo) اسی کام میں زیادہ تیز تھا (~1.7 منٹ) — یہ معیار بمقابلہ render latency اور platform optimization کے درمیان تبادلہ ہے۔
حدود (عملی اور حفاظتی)
- فزکس/مطابقت کامل نہیں — بہتر ہے لیکن بے عیب نہیں؛ آرٹیفیکٹس، غیر فطری حرکت، یا آڈیو sync کی غلطیاں اب بھی ہو سکتی ہیں۔
- دورانیہ اور کمپیوٹ کی پابندیاں — طویل کلپس کمپیوٹ کے لحاظ سے بھاری ہوتے ہیں؛ بہت سے عملی ورک فلو اعلیٰ معیار کے آؤٹ پٹس کے لیے کلپس کو مختصر دورانیے تک محدود رکھتے ہیں (مثلاً ایک ہندسے سے کم-دہائی سیکنڈ تک)۔
- رازداری / رضامندی کے خطرات — مشابہت شامل کرنا (“cameos”) رضامندی اور غلط/گمراہ کن معلومات کے خطرات پیدا کرتا ہے؛ OpenAI کے پاس ایپ میں واضح حفاظتی کنٹرولز اور revocation mechanisms موجود ہیں، لیکن ذمہ دارانہ انٹیگریشن ضروری ہے۔
- لاگت اور تاخیر — Pro معیار کے رینڈرز ہلکے ماڈلز یا حریفوں کے مقابلے میں زیادہ مہنگے اور سست ہو سکتے ہیں؛ فی-سیکنڈ/فی-رینڈر بلنگ اور queueing کو مدنظر رکھیں۔
- حفاظتی مواد کی فلٹرنگ — نقصان دہ یا copyright شدہ مواد کی جنریشن محدود ہے؛ ماڈل اور پلیٹ فارم میں حفاظتی تہیں اور moderation شامل ہیں۔
عام اور تجویز کردہ استعمال کے کیسز
استعمال کے کیسز:
- مارکیٹنگ اور اشتہاری prototypes — تیزی سے سنیماٹک proof of concept تیار کریں۔
- پری ویژولائزیشن — اسٹوری بورڈز، کیمرا بلاکنگ، شاٹ ویژولائزیشن۔
- مختصر سوشل مواد — ہم آہنگ مکالمے اور SFX کے ساتھ stylized کلپس۔
- Sora 2 Pro API تک کیسے رسائی حاصل کریں
مرحلہ 1: API Key کے لیے سائن اپ کریں
cometapi.com میں لاگ ان کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI console میں سائن ان کریں۔ انٹرفیس کی access credential API key حاصل کریں۔ ذاتی مرکز میں API token کے اندر “Add Token” پر کلک کریں، token key حاصل کریں: sk-xxxxx اور جمع کریں۔

مرحلہ 2: Sora 2 Pro API کو Requests بھیجیں
API request بھیجنے کے لیے “sora-2-pro” endpoint منتخب کریں اور request body سیٹ کریں۔ request method اور request body ہماری ویب سائٹ کی API doc سے حاصل کیے جاتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox test بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ سے حاصل کردہ حقیقی CometAPI key سے تبدیل کریں۔ base url official Create video ہے۔
اپنا سوال یا request content field میں داخل کریں—یہی وہ چیز ہے جس کا ماڈل جواب دے گا۔ جنریٹ شدہ جواب حاصل کرنے کے لیے API response کو پروسیس کریں۔
مرحلہ 3: نتائج حاصل کریں اور ان کی تصدیق کریں
جنریٹ شدہ جواب حاصل کرنے کے لیے API response کو پروسیس کریں۔ پروسیسنگ کے بعد، API task status اور output data کے ساتھ جواب دیتا ہے۔
- اندرونی ٹریننگ / سمولیشن — RL یا robotics research کے لیے منظرنامہ بصریات جنریٹ کریں (احتیاط کے ساتھ)۔
- تخلیقی پروڈکشن — جب انسانی ایڈیٹنگ کے ساتھ ملایا جائے (مختصر کلپس کو جوڑنا، گریڈ کرنا، آڈیو تبدیل کرنا)۔