Veo 3.1 جب آپ Gemini/Vertex (Veo) اینڈپوائنٹس کال کرتے ہیں تو ویڈیو کے ساتھ ہم آہنگ آڈیو کو مقامی طور پر جنریٹ کرتا ہے — آپ آڈیو کو ٹیکسٹ پرامپٹ کے ذریعے کنٹرول کرتے ہیں (audio cues، dialogue lines، SFX، ambience) اور اسی جنریشن جاب سے ایک MP4 واپس ملتا ہے جسے آپ ڈاؤن لوڈ کر سکتے ہیں۔ اگر آپ ایک واحد متحد API چاہتے ہیں جو کئی پرووائیڈرز کو یکجا کرے، تو CometAPI بھی Veo 3.1 تک رسائی فراہم کرتا ہے (آپ CometAPI کو اپنے Comet key کے ساتھ کال کرتے ہیں اور veo3.1/veo3.1-pro ریکویسٹ کرتے ہیں)۔ یہ ریلیز دوسرے میڈیا ماڈلز کی براہِ راست حریف کے طور پر پیش کی گئی ہے (مثال کے طور پر OpenAI کا Sora 2)، جس میں بہتریاں آڈیو ریئلزم، بیانیہ کنٹرول اور ملٹی شاٹ تسلسل پر مرکوز ہیں۔
Veo 3.1 کیا ہے؟
Veo 3.1، Google کے Veo خاندان کے ٹیکسٹ اور امیج→ویڈیو ماڈلز کا تازہ ترین ورژن ہے۔ پچھلی Veo ریلیزز کے مقابلے میں، Veo 3.1 خاص طور پر نیٹو آڈیو جنریشن کو نمایاں کرتا ہے — یعنی ماڈل ویڈیو آؤٹ پٹ کا حصہ بناتے ہوئے ہم آہنگ مکالمہ، ایمبیئنس، ساؤنڈ ایفیکٹس اور میوزیکل کیوز پیدا کرتا ہے، بجائے اس کے کہ علیحدہ ٹیکسٹ ٹو اسپیچ یا پوسٹ پروڈکشن مرحلے کی ضرورت ہو۔ یہ نئے بیانیہ کنٹرولز بھی لاتا ہے (reference images، first-and-last frame ٹرانزیشنز، اور scene-extension فیچرز) جو ملٹی شاٹ کہانیوں کو زیادہ مربوط بناتے ہیں۔
یہ کیوں اہم ہے: آڈیو ہی وہ ذریعہ ہے جس سے ناظرین جگہ، جذبات، ٹائمنگ اور سببیت کو سمجھتے ہیں۔ مقامی آڈیو جنریشن (لب موومنٹ کے مطابق مکالمہ، نظر آنے والے واقعات سے ہم وقت SFX، اور منظر کی جغرافیہ سے میل کھاتا بیک گراؤنڈ ایمبیئنس) اس دستی محنت کو کم کرتی ہے جو کسی کلپ کو “حقیقی” محسوس کرانے کے لیے درکار ہوتی ہے اور تخلیق کاروں کو کہانی اور موڈ پر تیزی سے تکرار کرنے دیتی ہے۔
کیا Veo 3.1 آڈیو بنا سکتا ہے — اور وہ کس قسم کی آڈیو بنا سکتا ہے؟
ماڈل کے اندر آڈیو کیسے تیار ہوتی ہے؟
Veo 3.1 آڈیو کو ویڈیو جنریشن پائپ لائن کی ایک ضم شدہ آؤٹ پٹ موڈیلیٹی کے طور پر برتتا ہے۔ ویڈیو فریمز کو علیحدہ TTS یا Foley انجن کو بھیجنے کے بجائے، Veo کا جنریشن عمل آڈیو اور ویژوئل اسٹریمز کو مشترکہ طور پر ماڈل کرتا ہے تاکہ ٹائمنگ، صوتی اشارے اور بصری واقعات میں باہمی مطابقت ہو۔ یہی مشترکہ ماڈلنگ قدرتی طور پر ہم آہنگ گفتگو، ایمبیئنٹ ساؤنڈ اسکیپس اور SFX کو جنریٹڈ مناظر کے ساتھ سیدھ میں لانے کے قابل بناتی ہے — جسے ریلیز نوٹس میں “richer native audio” اور synchronized sound generation کے طور پر نمایاں کیا گیا ہے۔
آڈیو قابلیت کیوں بڑا معاملہ ہے
تاریخی طور پر، بہت سے ٹیکسٹ ٹو ویڈیو سسٹمز خاموش ویڈیو بناتے تھے اور آڈیو کو بعد کے پائپ لائن کے لیے چھوڑ دیتے تھے۔ Veo 3.1 اس کو تبدیل کرتا ہے کیونکہ یہ آڈیو کو اسی جنریشن پاس میں پیدا کرتا ہے — جس سے دستی مکسنگ کی محنت کم ہوتی ہے، مختصر لائنوں کے لیے لب سنک سخت رہتا ہے، اور پرامپٹس کو سببیت رکھنے والے صوتی واقعات پر قابو ملتا ہے (مثلاً “جیسے ہی کیمرہ بائیں کٹ کرتا ہے، ایک گلاس ٹوٹتا ہے”)۔ اس کے پروڈکشن اسپیڈ، تکراری ڈیزائن، اور کریئیٹو پروٹو ٹائپنگ پر اہم اثرات ہیں۔
Veo 3.1 کس قسم کی آڈیو بنا سکتا ہے؟
- مکالمہ/گفتگو — متعدد بولنے والوں کا مکالمہ جس کی ٹائمنگ ہونٹوں اور حرکات کے مطابق ہو۔
- ایمبیئنٹ ساؤنڈ اسکیپس — ماحولیاتی آڈیو (ہوا، ٹریفک، روم ٹون) جو منظر کی جغرافیہ سے میل کھائے۔
- ساؤنڈ ایفیکٹس (SFX) — ہِٹس، اِن پیکٹس، دروازے، قدموں کی چاپ وغیرہ جو بصری واقعات کے ساتھ وقت بندھی ہوں۔
- میوزک کیوز — مختصر موسیقی موٹیفس یا موڈ انڈر اسکورنگ جو منظر کے پیسنگ سے میل کھائیں۔
یہ آڈیو اقسام مقامی طور پر جنریٹ ہوتی ہیں اور علیحدہ آڈیو پیرا میٹرز کے بجائے بنیادی طور پر پرامپٹ کے مواد سے رہنمائی پاتی ہیں۔
تکنیکی حدود اور طوالت
آؤٹ آف دی باکس، Veo 3.1 کو اعلیٰ معیار کی مختصر کلپس کے لیے انجینیئر کیا گیا ہے (کچھ فلووز میں 8 سیکنڈ کے ہائی کوالٹی آؤٹ پٹس)، مگر ماڈل scene extension اور جنریشن برجز (first→last frame، آخری سیکنڈ سے توسیع) بھی سپورٹ کرتا ہے جو Scene Extension کے ذریعے جوڑ کر دسوں سیکنڈز سے لے کر ایک منٹ یا اس سے زیادہ کے تسلسل ممکن بناتے ہیں۔
Veo 3.1 کے ساتھ آڈیو کیسے جنریٹ کریں (براہِ راست، Google Gemini / Vertex کے ذریعے)
مرحلہ 1: پیشگی شرائط
- Gemini API / Vertex AI تک رسائی والا Google اکاؤنٹ اور درست API key / کریڈینشلز (Veo 3.1 بہت سے ایکسیس راستوں کے لیے paid preview میں ہے)۔
- اپنے ماحول میں Google
genai/ Gemini کلائنٹ یا REST اینڈپوائنٹ کی سیٹ اپ (یا اگر چاہیں تو Vertex کلائنٹ)۔
مرحلہ 2: درست ماڈل اور ایکسیس منتخب کریں
veo-3.1-generate-preview استعمال کریں (یا جہاں رفتار/لاگت ترجیح ہو وہاں veo-3.1-fast)۔ یہ ماڈل سٹرنگز Google کی پری ویو مثالوں میں آتی ہیں۔ آپ کو paid Gemini API / Google AI key درکار ہوگی (یا AI Studio / Vertex AI کے ذریعے ایکسیس)۔
مرحلہ 3: Python مثال — Gemini genai کلائنٹ (سفارش کردہ، کاپی/پیسٹ)
یہ مثال پروگراماتی کال کی شکل دکھاتی ہے (Python، google.genai کلائنٹ)۔ یہ ایک ایسا ٹیکسٹ پرامپٹ فراہم کرنے کا مظاہرہ کرتی ہے جس میں آڈیو ہدایات شامل ہوں۔
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
نوٹس: واپس ملنے والی فائل عموماً ایک MP4 ہوتی ہے جس میں جنریٹڈ آڈیو ٹریک شامل ہوتا ہے۔ آڈیو کنٹرول کی کلیدی چیز اوپر پرامپٹ میں شامل توضیحی آڈیو ہدایات ہیں۔ Veo 3.1 ہم زبان قدرتی ہدایات پر ردِعمل دے کر ہم آہنگ آڈیو ٹریکس بناتا ہے۔
مرحلہ 3 — ریفرنس امیجز اور “Ingredients to video” کا استعمال
کردار کی ظاہری شکل اور صوتی اشاروں میں مستقل مزاجی رکھنے کے لیے، آپ زیادہ سے زیادہ تین reference images دے سکتے ہیں جنہیں Veo بصری اسٹائل اور تسلسل برقرار رکھنے کے لیے استعمال کرتا ہے۔ اسی جنریشن کال میں reference_images=[...] سپورٹ ہوتی ہے۔ یہ اس وقت تجویز کی جاتی ہے جب آپ کردار کی مستقل آواز یا خاص صوتی عادات (مثلاً کسی دروازے کی مخصوص چرچراہٹ) چاہتے ہوں۔
مرحلہ 4 — مناظر میں توسیع (Scene extension) آڈیو تسلسل کے ساتھ
Veo 3.1 “scene extension” سپورٹ کرتا ہے، جہاں نئے کلپس پچھلے کلپ کے آخری سیکنڈ سے بڑھا کر بنائے جاتے ہیں تاکہ طویل تسلسل تشکیل پائیں — اور آڈیو اس طرح بڑھتی ہے کہ تسلسل برقرار رہے (بیک گراؤنڈ ایمبیئنس، جاری موسیقی وغیرہ)۔ generate_videos کال میں video=video_to_extend پیرامیٹر استعمال کریں۔
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
مرحلہ 5 — First & last frame برجنگ (آڈیو کے ساتھ)
اگر آپ دو فریمز کے درمیان ہموار ٹرانزیشن چاہتے ہیں (مثلاً دن سے شام کے شاٹ میں مورف)، تو image=first_frame اور last_frame=last_frame فراہم کریں اور پرامپٹ میں آڈیو ڈائریکشن شامل کریں۔ Veo عبوری فریمز کے ساتھ ایسی آڈیو بھی جنریٹ کرے گا جو بصری تبدیلی کی عکاسی کرے۔ Veo عموماً MP4 کے اندر ایک سنگل مکسڈ آڈیو ٹریک واپس کرتا ہے۔
Veo 3.1 میں آڈیو ٹولز کو کیسے استعمال کریں؟
1) CometAPI کیا کرتا ہے اور اسے کیوں استعمال کریں
CometAPI آپ کو بہت سے ماڈلز (بشمول Google کا Veo) تک رسائی کے لیے ایک واحد، OpenAI-سٹائل REST اینڈپوائنٹ دیتا ہے۔ یہ اس وقت مفید ہے جب آپ ایک ہی انٹیگریشن پوائنٹ چاہتے ہیں (بلنگ، کوٹاز، SDK یکسانیت) اور متعدد وینڈر کیز کو مینیج نہیں کرنا چاہتے۔ Comet دستاویز کرتا ہے کہ Veo 3.1 ان کے ویڈیو ماڈلز میں شامل ہے۔
2) CometAPI کے ذریعے Veo 3.1 کو کال کرنے کا بنیادی بہاؤ
- CometAPI پر سائن اپ کریں اور API key بنائیں۔
- Comet کے کیٹلاگ میں درست ماڈل آئیڈینٹیفائر کی تصدیق کریں ("Veo 3.1"/"veo3.1-pro")۔
- CometAPI کے OpenAI-سٹائل اینڈپوائنٹ (یا ان کے SDK) کا استعمال کریں اور
modelفیلڈ کو Veo ماڈل کے نام پر سیٹ کریں۔ Comet آپ کی ریکویسٹ کو آپ کی جانب سے Google تک رُوٹ کرے گا۔
Veo3.1 Async Generation، یہ API ہماری خود تیار کردہ ٹیکنالوجی کے ذریعے نافذ کی گئی ہے جن میں درج ذیل حدود ہیں: ویڈیو کا دورانیہ 8 سیکنڈ پر مقرر ہے اور اسے حسبِ منشا تبدیل نہیں کیا جا سکتا
اگر آپ کو کسی مسئلے کا سامنا ہو تو براہِ کرم تکنیکی معاونت سے رابطہ کریں
مثال ریکویسٹ
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo.3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Veo 3.1 کے ساتھ آڈیو سے باخبر پرامپٹنگ کے بہترین طریقے
اچھی آڈیو کے لیے پرامپٹ ڈیزائن (کیا شامل کریں)
ساختی “audio lanes” استعمال کریں۔ کم از کم درج ذیل بلاکس کی سفارش کی جاتی ہے:
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
اہم نکات: لینز کو لیبل کریں، مختصر وقت کے اینکرز شامل کریں (مثلاً at 1.6s)، جذباتی ڈلیوری اور صوتی خصوصیات بیان کریں (مثلاً “soft reverb, slow attack”)، اور اگر آپ کو اسٹیریو پیننگ چاہیے تو L / R یا L→R کی وضاحت کریں۔ عام طور پر تکرار ضروری ہوتی ہے — پہلے ایک مختصر کلپ (4–8s) بنائیں، پھر بڑھائیں۔
پرامپٹ کی ساخت اور لہجہ
- ساختی لینز استعمال کریں: “Ambience:”، “SFX:”، “Music:”، اور “Dialogue:” کے بلاکس کو لیبل کریں۔ جنریٹرز پیش گوئی کے قابل پیٹرنز کے ساتھ بہتر کام کرتے ہیں۔
- ٹائمنگ کے بارے میں واضح رہیں: مختصر وقتی اینکرز (مثلاً “sfx: door slam at 1.6s”) ٹائٹ سنک میں مدد دیتے ہیں۔ اگر فریم لیول درستی ضروری ہو تو تکرار کریں اور بہتر بنائیں۔
- صوتی خصوصیات بیان کریں: “synth” کے بجائے کہیں “soft pad with slow attack, 80 BPM feel” تاکہ موسیقی کے موڈ کی سمت طے ہو۔
بصری → آڈیو مطابقت
اگر آپ ریفرنس امیج یا اسٹارٹ فریم فراہم کرتے ہیں تو بتائیں کہ آڈیو کہاں سے آنی چاہیے (مثلاً “Ambience: بائیں جانب سے مدھم شہر کی آواز، کیمرے کے قریب؛ کار گزرنے کی آواز L→R پین کرے”)۔ اس سے زیادہ معقول اسٹیریو اشارے اور منبع کی لوکلائزیشن حاصل ہوتی ہے۔
تکراری ورک فلو
- ایک مختصر کلپ (4–8s) بنائیں اور آڈیو سنک کا جائزہ لیں۔
- اگر طویل بیانیہ درکار ہو تو Scene Extension استعمال کریں تاکہ کلپ کو بڑھاتے ہوئے آخری سیکنڈ کو تسلسل کے بیج کے طور پر برقرار رکھا جائے۔
- کردار کی مستقل مزاجی (آواز کا تیمبر، لہجہ) کے لیے ریفرنس امیجز استعمال کریں اور کلپس کے درمیان آواز کی وضاحتیں دہراتے رہیں۔ آواز کو مستحکم رکھنے کے لیے مختصر دہرائے جانے والے متنی “voice anchor” جملے (مثلاً “ALICE — soft mid-Atlantic accent”) شامل کرنے پر غور کریں۔
پوسٹ پروڈکشن نوٹس
Veo آپ کو ایمبیڈڈ آڈیو کے ساتھ ابتدائی MP4 دیتا ہے۔ ایڈوانسڈ مکسنگ (ملٹی چینل سٹمز، علیحدہ ڈائیلاگ/میوزک سٹمز) کے لیے آپ کو پھر بھی DAW میں آڈیو الگ کرکے دوبارہ کمپوز کرنا پڑ سکتا ہے — Veo بنیادی طور پر مربوط سنگل فائل جنریشن کے لیے ہے۔ تھرڈ پارٹی ورک فلو عموماً بیس جنریشن کے لیے Veo اور ڈسٹریبوشن کوالٹی مکسز کے لیے DAW ایڈیٹس کو یکجا کرتے ہیں۔
مثال پرامپٹس (کاپی-پیسٹ کے لیے تیار)
1 — قدرتی ایمبیئنس + ایفیکٹ + مختصر مکالمہ
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Foley-ہیوی ایکشن بیٹ
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — سنیماٹک ایمبیئنس + کردار کی آواز
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— ٹائٹ ڈائیلاگ + SFX (مختصر کلپ، واضح ٹائمنگ)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — ایمبیئنس-فرسٹ سین (موڈ، کم سخت SFX)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — متعدد مقررین کی گفتگو (ٹیگ شدہ)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Veo 3.1 کی آڈیو Sora 2 کی آڈیو سے کیسے موازنہ کرتی ہے؟
دونوں Veo 3.1 اور OpenAI کا Sora 2 جنریٹڈ ویڈیو سے منسلک ہم آہنگ آڈیو آؤٹ پٹ سپورٹ کرتے ہیں۔ یہ اپنے اپنے وینڈرز کے فلیگ شپ میڈیا جنریشن ماڈلز کے طور پر پوزیشن کیے گئے ہیں اور حقیقت پسند آڈیو-ویڈیو ہم آہنگی پر زور دیتے ہیں۔ دونوں APIs شائع کرتے ہیں۔
اہم فرق
- ماڈل فوکس اور طوالت: Veo 3.1 کنٹرول ایبلٹی پر زور دیتا ہے جیسے first/last frame، طویل تسلسل کے لیے scene extension، اور explicit reference-image conditioning تاکہ ملٹی شاٹ سیکوئنسز میں کردار اور آڈیو کی تسلسل برقرار رہے۔ Sora 2 ایک فلیگ شپ ماڈل کے طور پر پیش ہوتا ہے جو ہم آہنگ آڈیو کے ساتھ ویڈیو بناتا ہے؛ Sora 2 Pro میں ہائی فِڈیلیٹی اور معیار/لاگت کے ٹریڈ آفز ٹیون کیے گئے ہیں۔ Veo 3.1 واضح طور پر scene extension اور ملٹی پرامپٹ سیکوئنسز کو نمایاں کرتا ہے۔
- پلیٹ فارم انٹیگریشن: Veo 3.1، Google کے Gemini ایکو سسٹم (Gemini app، Flow، Gemini API، Vertex AI) میں ضم ہے جبکہ Sora 2، OpenAI کے پلیٹ فارم ماڈل کے طور پر پیش کیا جاتا ہے جس کے API اینڈپوائنٹس اور iOS کے لیے Sora ایپ ہے؛ قیمتیں اور اینڈپوائنٹ ساختیں مختلف ہیں (Sora 2 ڈاکس میں فی سیکنڈ پرائسنگ ٹائیرز دکھائے گئے ہیں)۔ اپنے موجودہ کلاؤڈ فُٹ پرنٹ اور کمپلائنس ضروریات کی بنیاد پر انتخاب کریں۔
- باریک ویڈیو کنٹرولز: Veo 3.1 کئی مخصوص تخلیقی کنٹرولز کو نمایاں کرتا ہے (Ingredients to Video، Scene Extension، First/Last Frame) جو بیانیہ ورک فلو میں تکرار کا وقت کم کرتے ہیں۔ Sora 2 ہم آہنگ آڈیو اور حرکت کی فزیکل ایکوریسی پر توجہ دیتا ہے؛ دونوں کنٹرولز فراہم کرتے ہیں، مگر ان کے انداز اور SDKs مختلف ہیں۔
آڈیو-ہیوی پروجیکٹس کے لیے عملی مضمرات
اگر آپ ترجیح دیتے ہیں کہ باکس سے باہر ہائی فِڈیلیٹی سنگل شاٹ ویڈیو ہم آہنگ آڈیو کے ساتھ اور سادہ فی سیکنڈ پرائسنگ ماڈل کے ساتھ ہو → Sora 2 ایک مضبوط حریف ہے؛ اپنے اہداف اور بجٹس پر دونوں کو ٹیسٹ کریں۔
اگر آپ کو طویل مسلسل بیانیہ چاہیے جس میں شاٹس کے پار مستقل آڈیو موٹیفس ہوں → Veo 3.1 کا Scene Extension اور reference-image conditioning اسے پرکشش بناتے ہیں۔
حتمی فیصلہ: کب استعمال کریں Veo 3.1 (آڈیو-مرکزی سفارشات)
Veo 3.1 اس وقت استعمال کریں جب آپ کو کنٹرول شدہ ملٹی شاٹ سیکوئنسز درکار ہوں جن میں مستقل کردار ہوں اور ضم شدہ آڈیو بیانیہ تسلسل کو سہارا دیتی ہو۔ Veo 3.1 کی نمایاں خوبیاں ہیں scene extension، first/last frame کنٹرول اور reference-image conditioning — جو اسے سیریلائزڈ یا ایپی سوڈک شارٹ فارم کنٹینٹ کے لیے آڈیو تسلسل کے ساتھ بہترین بناتی ہیں۔
ڈویلپرز CometAPI کے ذریعے Veo 3.1 اور Sora 2 تک رسائی حاصل کر سکتے ہیں۔ آغاز کے لیے، CometAPI کے ماڈل کیپس کے بارے میں جانیں، Playground میں آزمائیں اور مفصل ہدایات کے لیے API گائیڈ دیکھیں۔ رسائی سے پہلے، براہِ کرم یقینی بنائیں کہ آپ CometAPI میں لاگ اِن ہیں اور API key حاصل کر چکے ہیں۔ CometAPI سرکاری قیمت سے کہیں کم قیمت پیش کرتا ہے تاکہ آپ انٹیگریٹ کر سکیں۔
Ready to Go؟→ Veo 3.1 کا مفت ٹرائل!
