وسط سفر کی ویڈیو میں آواز اور آواز کیسے شامل کریں۔

CometAPI
AnnaDec 2, 2025
وسط سفر کی ویڈیو میں آواز اور آواز کیسے شامل کریں۔

ویڈیو جنریشن میں مڈجرنی کی چھلانگ دلچسپ ہے: یہ اسٹیل امیجز کو مختصر، لوپ ایبل اینیمیٹڈ کلپس میں بدل دیتا ہے جو کہانی سنانے اور حرکت پر مبنی مواد کا دروازہ کھولتے ہیں۔ لیکن جب تک Midjourney بحری جہاز بلٹ ان، پالش آڈیو ٹریکس (اگر ایسا کبھی ہوتا ہے)، تخلیق کاروں کو AI آڈیو ٹولز اور کلاسک ایڈیٹرز کے مرکب کا استعمال کرتے ہوئے خاموش ویڈیو آؤٹ پٹ پر آڈیو کو سلائی کرنا چاہیے۔ یہ مضمون موجودہ زمین کی تزئین کی وضاحت کرتا ہے (ٹولز، ورک فلو، ٹپس، اور قانونی گارڈریلز) اور آپ کو مڈجرنی ویڈیو کلپس میں آواز اور آواز شامل کرنے کے لیے مرحلہ وار، پروڈکشن کے لیے تیار ورک فلو فراہم کرتا ہے۔

"مڈجرنی ویڈیو" بالکل کیا ہے اور اسے بیرونی آڈیو کی ضرورت کیوں ہے؟

Midjourney کی ویڈیو فیچر فی الحال کیا تیار کرتا ہے۔

Midjourney کی ویڈیو کی صلاحیت ایک تخلیق شدہ یا اپ لوڈ کردہ تصویر کو ایک مختصر اینیمیٹڈ کلپ میں تبدیل کرتی ہے (ابتدائی طور پر 5 سیکنڈز، انکریمنٹ میں قابل توسیع) جو مطابقت پذیر آڈیو یا ہونٹ سنکڈ ڈائیلاگ کی بجائے حرکت اور کیمرے/موضوع کی حرکت پر زور دیتی ہے۔ ٹول کا مقصد بصری طور پر بھرپور شارٹ لوپس بنانا ہے، نہ کہ مکمل آڈیو ویژول بیانیہ۔ اس کا مطلب ہے کہ ہر مڈجرنی ویڈیو جو آپ ایکسپورٹ کرتے ہیں وہ خاموش ہو جائے گی اور اسے پوسٹ پروڈکشن میں آڈیو کے ساتھ جوڑا جانا چاہیے تاکہ ایک متحرک تصویر سے زیادہ کچھ بن سکے۔

مڈجرنی ویڈیو کے بنیادی اصول اور حدود کیا ہیں؟

Midjourney کی ویڈیو کی خصوصیت ایک ابتدائی تصویر کو ایک مختصر اینیمیٹڈ کلپ (5s ڈیفالٹ) میں تبدیل کرتی ہے، جس کی لمبائی کو کل 21 سیکنڈ تک بڑھانے کے اختیارات کے ساتھ، "کم" یا "ہائی" موشن، لوپ، اور بیچ کا سائز تبدیل کرنے کا انتخاب کریں۔ ویڈیوز ڈاؤن لوڈ کے قابل ہیں۔ .mp4 اور مڈجرنی کو بے نقاب کرتا ہے a --video پیرامیٹر (اور --motion low|high, --loop, --end, --bs #, --raw --end، اور --bs پیرامیٹرز - میں ہیں۔ مڈجرنی کے سرکاری دستاویزات) Discord یا API پرامپٹس کے لیے۔ ریزولوشن SD(480p) ہے، HD (720p) کے ساتھ؛ بیچ کے سائز اور حرکت کی ترتیبات GPU وقت اور لاگت کو متاثر کرتی ہیں۔

عملی راستہ: مڈجرنی کلپس مختصر ہیں (5–21s)، اس لیے اس لفافے میں فٹ ہونے کے لیے بیان اور آڈیو کی منصوبہ بندی کریں — یا ایک سے زیادہ کلپس سلائی کرنے کے لیے تیار ہوں۔ ڈاؤن لوڈ کریں۔ خام ویڈیو (.mp4) پوسٹ پروڈکشن میں کام کرنے کے لیے بہترین معیار کے لیے Midjourney's Create صفحہ سے۔

آپ کو آواز، موسیقی اور SFX کیوں شامل کرنا چاہیے۔

آڈیو شامل کرنا:

  • سیاق و سباق اور بیانیہ (وائس اوور) فراہم کرتا ہے، خلاصہ بصری کو ابلاغی بناتا ہے۔
  • جذباتی لہجہ (موسیقی کا انتخاب) سیٹ کرتا ہے اور ناظرین کی برقراری کو بہتر بناتا ہے۔
  • AI بصری کو حقیقت پسندی میں گراؤنڈ کرتا ہے (ساؤنڈ ڈیزائن، فولے، ایمبیئنٹ بیڈز)۔
  • TikTok، YouTube، یا ریلوں کے لیے مواد کو پلیٹ فارم تیار کرتا ہے جہاں آڈیو ضروری ہے۔

MidJourney ویڈیو میں آواز اور آواز شامل کرنے کا آسان ترین ورک فلو کیا ہے؟

فوری ایک پیراگراف کا نسخہ

  1. MidJourney (گیلری → اینیمیٹ / ویڈیو کی خصوصیات) میں اپنی بصری ویڈیو یا اینیمیٹڈ فریم بنائیں۔
  2. تیار کردہ ویڈیو (MP4/GIF) کو ایکسپورٹ/ڈاؤن لوڈ کریں۔
  3. OpenAI کے TTS کے ساتھ وائس اوور تیار کریں (جیسے، gpt-4o-mini-tts یا دوسرے TTS ماڈل) اور WAV/MP3 کے بطور برآمد کریں۔
  4. AI آڈیو ٹولز کا استعمال کرتے ہوئے بیک گراؤنڈ میوزک اور SFX بنائیں (ٹولز جیسے ایم ایم آڈیو، یوڈیو، یا رن وے مدد کر سکتے ہیں)۔
  5. سیدھ میں لائیں اور DAW میں مکس کریں (ریپر، اوڈیسٹی، منطق، یا سیدھے انضمام کے لیے ffmpeg استعمال کریں)۔
  6. اختیاری طور پر AI lip-sync چلائیں اگر ویڈیو میں چہرے ہیں اور آپ چاہتے ہیں کہ منہ اسپیچ سے مماثل ہو (Wav2Lip, Sync.so، اور تجارتی خدمات)۔

یہ علیحدگی (بصری بمقابلہ آڈیو) کیوں اہمیت رکھتی ہے۔

MidJourney بصری تخلیقی صلاحیتوں اور حرکت کے ڈیزائن پر توجہ مرکوز کرتا ہے۔ آڈیو ڈیزائن ایک مختلف تکنیکی اسٹیک ہے (اسپیچ جنریشن، آڈیو ڈیزائن، سنکرونائزیشن)۔ ذمہ داریوں کو الگ کرنا آپ کو بہت زیادہ کنٹرول فراہم کرتا ہے — صوتی کردار، پیسنگ، ساؤنڈ ڈیزائن، اور ماسٹرنگ — بصری جنریٹر سے لڑے بغیر۔

مجھے ویڈیو کے لیے مڈجرنی پرامپٹ کیسے تیار کرنا چاہیے؟

آپ اپنی گیلری میں کسی بھی تصویر سے یا امیجن بار میں عوامی طور پر میزبانی کی گئی تصویر کا URL چسپاں کر کے ویڈیوز بنا سکتے ہیں۔ --video پیرامیٹر (Discord یا API پر)۔ نسل کے بعد آپ MP4 (را یا سوشل ورژن) کو براہ راست مڈجرنی کریٹ پیج یا ڈسکارڈ سے ڈاؤن لوڈ کر سکتے ہیں۔

ڈسکارڈ طرز کی ایک سادہ مثال جو اپ لوڈ کردہ تصویر کو اسٹارٹ فریم کے طور پر استعمال کرتی ہے:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

تبصرہ:

  • تصویری URL کو شروع میں رکھیں تاکہ اسے ابتدائی فریم کے طور پر استعمال کیا جا سکے۔
  • شامل کریں --video اور ایک تحریک پرچم (--motion low or --motion high).
  • استعمال --bs 1 اگر آپ کو صرف ایک آؤٹ پٹ کی ضرورت ہے (GPU وقت بچاتا ہے)۔
  • استعمال --raw اگر آپ کم اسٹائلائزیشن اور زیادہ فیصلہ کن حرکت چاہتے ہیں۔

اگر ویڈیو آپ کے مطلوبہ بیان سے چھوٹا ہے، تو آپ یا تو مڈجرنی میں ویڈیو کو بڑھا دیں گے (آپ فی ایکسٹینشن +4s تک، کل 21s تک بڑھا سکتے ہیں) یا فٹ ہونے کے لیے آڈیو کاٹ/لوپ کریں۔ درست دورانیہ (سیکنڈ + ملی سیکنڈ) نوٹ کریں تاکہ آپ بیانیہ اور SFX کو ترتیب دے سکیں۔ Midjourney تخلیق صفحہ پر اور Discord میں "را ویڈیو ڈاؤن لوڈ کریں" کا اختیار فراہم کرتا ہے۔ اسے اپنی ابتدائی فائل کے طور پر استعمال کریں۔

مجھے کون سے OpenAI TTS ماڈلز پر غور کرنا چاہیے اور کیوں؟

اس وقت ٹی ٹی ایس کے کیا آپشن دستیاب ہیں؟

OpenAI متعدد TTS اختیارات پیش کرتا ہے: تاریخی طور پر tts-1 / tts-1-hd اور نئے چلانے والا gpt-4o-mini-tts. gpt-4o-mini-tts ماڈل اسٹیر ایبلٹی پر زور دیتا ہے (آپ ٹون، پیسنگ، جذبات کی ہدایات دے سکتے ہیں) اور لچکدار، اظہار خیال آواز پیدا کرنے کے لیے ڈیزائن کیا گیا ہے۔ tts-1 اور tts-1-hd اعلیٰ معیار، زیادہ روایتی TTS کے لیے مضبوط انتخاب رہیں۔ استعمال کریں۔ gpt-4o-mini-tts جب آپ کنٹرول کرنا چاہتے ہیں۔ کس طرح متن بولا جاتا ہے (انداز، وائب)، اور tts-1-hd زیادہ سے زیادہ وفاداری کے لیے جب اسٹائل کنٹرول کم اہم ہو۔ penAI نے آڈیو ماڈلز پر اعادہ کرنا جاری رکھا ہے (2025 میں اعلانات میں اسپیچ اور ٹرانسکرپشن کی صلاحیتوں کو بڑھایا گیا ہے)، اس لیے وہ ماڈل منتخب کریں جو آپ کے پروجیکٹ کے لیے لاگت، معیار اور کنٹرول کو متوازن رکھتا ہو۔ tts ماڈل APIs میں بھی ضم کیا گیا ہے۔ CometAPI.

کوئی پیداواری انتباہات یا موجودہ حدود؟

gpt-4o-mini-tts بعض اوقات طویل آڈیو فائلوں (توقف، حجم میں اتار چڑھاؤ) پر خاص طور پر ~1.5–2 منٹ سے زیادہ عدم استحکام کا مظاہرہ کر سکتا ہے۔ مختصر مڈجرنی کلپس (~20–30s سے کم) کے لیے یہ شاذ و نادر ہی ایک مسئلہ ہے، لیکن طویل بیان یا طویل شکل کے وائس اوور کے لیے، جانچ اور تصدیق کریں۔ اگر آپ طویل بیان کی توقع رکھتے ہیں تو ترجیح دیں۔ tts-1-hd یا متن کو چھوٹے ٹکڑوں میں تقسیم کریں اور انہیں احتیاط سے سلائی کریں۔

دوسرا آپشن ٹول

پس منظر کی موسیقی اور SFX: ٹولز جیسے ایم ایم آڈیو (کمیونٹی ٹولز)، یوڈیو، میجک شاٹ، یا رن وے مماثل پس منظر کی موسیقی اور سیاق و سباق کے لحاظ سے حساس SFX تیزی سے بنا سکتے ہیں۔ کمیونٹی تھریڈز اور ٹیوٹوریلز تخلیق کاروں کو مڈ جرنی ویڈیوز میں ملاتے ہوئے دکھاتے ہیں۔ پروڈکشن گریڈ کنٹرول کے لیے، تنوں (موسیقی + محیط) پیدا کریں اور اختلاط کے لیے برآمد کریں۔

ہونٹ کی مطابقت پذیری اور چہرے کی حرکت پذیری: اگر ویڈیو میں کردار یا چہروں کے کلوز اپ شامل ہیں اور آپ منہ کی حقیقت پسندانہ حرکت چاہتے ہیں تو Wav2Lip (اوپن سورس) یا تجارتی APIs جیسے Sync.so، Synthesia، یا دیگر lip-sync سروسز پر غور کریں۔ یہ ٹولز فونیم سے منسلک منہ کی شکلیں پیدا کرنے کے لیے آڈیو کا تجزیہ کرتے ہیں اور انہیں ہدف والے چہرے یا فریم کی ترتیب پر لاگو کرتے ہیں۔

میں اوپن اے آئی کے ٹی ٹی ایس (عملی کوڈ) کے ساتھ وائس فائل کیسے بنا سکتا ہوں؟

ذیل میں CometAPI کال فارمیٹ کی دو عملی مثالیں ہیں جو OpenAI کے TTS اینڈ پوائنٹ کا استعمال کرتے ہوئے MP3 (یا WAV) تیار کرتی ہیں۔ آپ اپنے CometAPI اکاؤنٹ اور SDK اپ ڈیٹس کے مطابق صوتی ناموں اور اسٹریمنگ جھنڈوں کو اپنا سکتے ہیں۔

⚠️ تبدیل کریں۔ YOUR_CometAPI_API_KEY اپنی API کلید کے ساتھ۔ پہلے ایک مختصر جملے پر ٹیسٹ کریں۔ سے رجوع کریں۔
CometAPI میں آڈیو ماڈلز DOC.

مثال A — فوری curl (کمانڈ لائن)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

اگر آپ WAV کو ترجیح دیتے ہیں:

  • آؤٹ پٹ فائل کا نام تبدیل کریں۔ narration.wav، اور (اگر دستیاب ہو) باڈی میں ایک آڈیو فارمیٹ پیرامیٹر کی وضاحت کریں (کچھ SDKs اجازت دیتے ہیں۔ format: "wav").

یہ کیوں کام کرتا ہے: TTS اینڈ پوائنٹ ٹیکسٹ کو قبول کرتا ہے اور ایک بائنری آڈیو فائل واپس کرتا ہے جسے آپ محفوظ کر سکتے ہیں اور بعد میں اپنے ویڈیو کے ساتھ ضم کر سکتے ہیں۔ استعمال کریں۔ voice اور instructions (جہاں دستیاب ہو) پرسوڈی اور انداز کو چلانے کے لیے۔

مثال B: درخواستوں کا استعمال کرتے ہوئے ازگر

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

میں TTS آڈیو کو MidJourney ویڈیو فائل کے ساتھ کیسے جوڑ سکتا ہوں؟

MidJourney سے ویڈیو برآمد کریں۔

MidJourney کی ویڈیو/اینیمیٹ خصوصیات آپ کو MP4/GIF بنانے یا اپنی گیلری سے ایک ویڈیو برآمد کرنے دیتی ہیں — مقامی فائل حاصل کرنے کے لیے "اینیمیٹ" فنکشن یا گیلری ایکسپورٹ کے اختیارات استعمال کریں۔

ffmpeg کے ساتھ آسان انضمام

اگر آپ پہلے ہی ہیں video.mp4 (نہیں یا پلیس ہولڈر آڈیو) اور voiceover.wav (یا mp3)، ضم کرنے کے لیے ffmpeg استعمال کریں:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

تبصرہ:

  • -shortest چھوٹی ندی پر رک جاتا ہے؛ اگر آپ چاہتے ہیں کہ ویڈیو آڈیو سے زیادہ چلتی رہے (یا اس کے برعکس)۔
  • -c:v copy ویڈیو سٹریم کو بغیر کسی تبدیلی کے رکھتا ہے۔
  • -c:a aac آڈیو کو AAC میں انکوڈ کرتا ہے (MP4 کے ساتھ ہم آہنگ)۔
  • استعمال -af "volume=... بلند آواز کے ملاپ کے لیے فلٹرز۔
  • پیشہ ورانہ حتمی شکل دینے کے لیے، ٹائمنگ، EQ، اور کمپریشن کو ایڈجسٹ کرنے کے لیے DAW میں آڈیو اسٹیم کو کھولیں۔

ویڈیو کی درست لمبائی کے لیے آڈیو کو تراشیں یا پیڈ کریں۔

اگر آڈیو ویڈیو سے لمبا ہے اور آپ درست کٹ چاہتے ہیں:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

اگر آڈیو چھوٹا ہے اور آپ چاہتے ہیں کہ بیک گراؤنڈ میوزک باقی کو بھرے یا آواز کو لوپ کرے تو استعمال کریں۔ adelay, apad، یا بیک گراؤنڈ ٹریک کے ساتھ ملائیں۔ مثال: 20s کلپ سے ملنے کے لیے لوپ بیانیہ (عام طور پر آواز کے لیے تجویز نہیں کیا جاتا):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

آڈیو کو کیسے آف سیٹ کیا جائے (اگر بیان بعد میں شروع کرنے کی ضرورت ہو)

اگر آپ کا بیان مختصر خاموشی کے بعد شروع ہونا چاہیے یا آپ کے پاس آفسیٹ پر رکھنے کے لیے ایک سے زیادہ حصے ہیں تو استعمال کریں۔ -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 دوسرے ان پٹ میں 0.5 سیکنڈ کی تاخیر کرتا ہے۔

ایک سے زیادہ آڈیو ٹریکس یا انتہائی درست جگہ کا تعین کرنے کے لیے -filter_complex ساتھ adelay چھوٹے حصوں میں ٹی ٹی ایس بنانے کے بعد (ایک جملہ فی فائل)۔

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

یہاں adelay ملی سیکنڈ لیتا ہے (2500 ms = 2.5s)، اس لیے آپ متن کو بصری اشارے پر درست طریقے سے ترتیب دے سکتے ہیں۔

بیان کو مختصر اور منظر سے آگاہ رکھیں: چونکہ مڈجرنی کے کلپس مختصر اور اکثر اسٹائلائز ہوتے ہیں، اس لیے ایک مختصر ہک (~5–15 سیکنڈ) کا مقصد بنائیں جو ویڈیو کی رفتار سے مماثل ہو۔ متن کو مختصر جملوں میں توڑ دیں جو بصری کٹوتیوں یا حرکت کے اشارے کے ساتھ سانس لیتے ہیں۔

بیک گراؤنڈ میوزک + بیانیہ + SFX کو کیسے ملایا جائے۔

استعمال filter_complex متعدد آڈیو ان پٹس اور کنٹرول والیوم کو ملانے کے لیے۔ مثال:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

یہ روایت کو ملا دیتا ہے (narration.mp3) اور موسیقی (music.mp3) موسیقی کی سطح کو کم کرتے وقت یہ آواز کے نیچے بیٹھ جاتا ہے۔ آپ سائڈ چین فلٹرز کے ذریعے ڈائنامک ڈکنگ (بیان کے چلنے پر میوزک کو دھندلا بنانا) بھی چلا سکتے ہیں یا عین دھندلا پن کے لیے DAW میں ترمیم کر سکتے ہیں۔

ایڈوانس ایڈٹنگ

اسکرپٹ اور پیسنگ

  • ایک سخت اسکرپٹ لکھیں اور بصری اشارے (ٹائم کوڈ یا فریم نمبرز) کو نشان زد کریں تاکہ TTS آؤٹ پٹ منظر کی تبدیلیوں کے مطابق ہو۔
  • بہتر قدرتی کیڈنس کے لیے مختصر جملے استعمال کریں۔ اگر آپ کو طویل پڑھنے کی ضرورت ہے تو، جان بوجھ کر وقفے داخل کریں یا متعدد TTS کالوں میں تقسیم کریں۔

موشن، شدت اور ساخت کو میچ کریں۔

  • بصری کٹس یا کیمرہ کی حرکت کے لیے عارضی SFX استعمال کریں۔
  • سست، پینٹرلی مڈجرنی موشن کے لیے (--motion low)، لطیف ماحول اور لمبی ریورب دم کی حمایت کریں۔
  • اعلی کارروائی کے لیے (--motion high)، punchy SFX، ٹیمپو سے مماثل میوزیکل ہٹ، اور مختصر ریورب استعمال کریں۔

اسٹیئرنگ آواز کا انداز

رہنمائی کے لیے سبق آموز اشارے استعمال کریں۔ gpt-4o-mini-tts - مثال کے طور پر، "instructions": "Calm, conversational, slight warmth, medium speed" یا اس ہدایت کو ٹیکسٹ پے لوڈ کے حصے کے طور پر شامل کریں۔ مثال کے طور پر:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

محتاط رہیں: پیرامیٹر کے درست نام SDK ورژنز میں مختلف ہوتے ہیں — ان فیلڈز کی جانچ کریں جو آپ کا SDK سپورٹ کرتا ہے۔

صوتی ڈیزائن کے نکات

  • کم والیوم بیڈ ٹریک (موسیقی) اور سائڈ چین شامل کریں یا آواز کے دوران اسے بطخ کریں۔
  • بصری منتقلی کے ساتھ منسلک مختصر ہوشز، رائزر، یا اثر SFX استعمال کریں۔ SFX کو چھوٹا اور کرکرا رکھیں۔
  • آواز کو معمول پر لائیں (-1 dBFS) اور پلیٹ فارمز پر مستقل بلندی کے لیے ہلکے سے کمپریس کریں (تناسب 2:1)۔
  • سماجی پلیٹ فارمز کے لیے، مطابقت کے لیے حتمی ویڈیو کو AAC-LC آڈیو اور H.264 ویڈیو کے ساتھ انکوڈ کریں۔

کیا میں MidJourney ویڈیو میں کرداروں کو تخلیق شدہ آواز کے ساتھ "اسپیک" (لپ سنک) بنا سکتا ہوں؟

ہاں — TTS آڈیو سے لے کر منہ کی نقل و حرکت کے فریموں تک فونیمز کا نقشہ بنانے کے لیے ہونٹ سنک ماڈل استعمال کریں۔ دو عام نقطہ نظر ہیں:

کھلے ٹولز کا استعمال کریں جیسے Wav2Lip (مقامی یا میزبان)

Wav2Lip بولے جانے والے آڈیو کو منہ کی نقل و حرکت کے ساتھ ترتیب دیتا ہے اور اسے مقامی طور پر یا میزبان GUIs کے ذریعے چلایا جا سکتا ہے۔ عام کام کا بہاؤ:

  1. MidJourney سے ویڈیو یا فریموں کی ایک سیریز (تصویری ترتیب) برآمد کریں۔
  2. صوتی فائل (اوپن اے آئی ٹی ٹی ایس) تیار کریں۔
  3. ایک نیا ویڈیو آؤٹ پٹ کرنے کے لیے Wav2Lip چلائیں جہاں منہ کی شکلیں آڈیو سے ملتی ہیں۔

Wav2Lip 1:1 منہ کی سیدھ کے لیے بہترین ہے اور اوپن سورس ہے۔ آپ کو بصری پولش کے لیے کچھ پوسٹ پروسیسنگ کی ضرورت ہو سکتی ہے۔

ایک قدمی ہونٹ سنک کے لیے تجارتی APIs کا استعمال کریں۔

Sync.so، Synthesia، اور دیگر جیسی سروسز API/GUI پائپ لائنز پیش کرتی ہیں جو تقریر اور lipsync/ڈبنگ دونوں کو ہینڈل کرتی ہیں، بعض اوقات کثیر لسانی ڈبنگ بھی شامل ہوتی ہے۔ وہ تیز اور کم تکنیکی ہو سکتے ہیں لیکن ادا شدہ خدمات ہیں اور ٹھیک کنٹرول کو محدود کر سکتے ہیں۔

حقیقت پسندی پر عملی نوٹ

  • کامل حقیقت پسندی کے لیے اکثر مائیکرو ایکسپریشنز، آنکھ جھپکنے، اور سر کی حرکت کی ضرورت ہوتی ہے۔ دوسروں کو دستی موافقت کی ضرورت ہوتی ہے۔
  • اگر حروف کو سٹائلائز کیا جاتا ہے (غیر فوٹوریل)، ہونٹ کی مطابقت پذیری کی چھوٹی غلطیاں کم نمایاں ہوتی ہیں۔ کلوز اپس کے لیے، ڈی اے ڈبلیو + فیشل ری ٹچنگ پائپ لائن میں وقت لگائیں۔

شروع

CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔

CometAPI میں MidJourney ویڈیو استعمال کریں۔

CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔ Midjourney API اور مڈجرنی ویڈیو API، CometAPI رجسٹر کرنے اور تجربہ کرنے میں خوش آمدید۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI ریزولوشن SD 480P اور HD 720P کو سپورٹ کرتا ہے۔

کال کرنے کا طریقہ: پیرامیٹر videoType=vid_1.1_i2v_720 استعمال کریں۔

مڈجرنی V1 ویڈیونسل: ڈیولپرز RESTful API کے ذریعے ویڈیو جنریشن کو ضم کر سکتے ہیں۔ درخواست کا ایک عام ڈھانچہ (مثالی)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

آڈیو ماڈلز

ڈویلپرز CometAPI کے ذریعے GPT 4o آڈیو اور tts-1 تک رسائی حاصل کر سکتے ہیں، جدید ترین ماڈل ورژن(اینڈ پوائنٹ:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) کو ہمیشہ سرکاری ویب سائٹ کے ساتھ اپ ڈیٹ کیا جاتا ہے۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں آڈیو API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔

نتیجہ

Midjourney ویڈیو میں آواز اور آواز شامل کرنا سیدھا سادہ ہے: ایک مختصر Midjourney کلپ بنائیں، OpenAI کے steerable TTS کے ساتھ مختصر بیانیے کی ترکیب کریں، پھر اس کا استعمال کرتے ہوئے یکجا اور پالش کریں۔ ffmpeg. نئے gpt-4o-mini-tts ماڈل آپ کو مضبوط اسٹائلسٹک کنٹرول فراہم کرتا ہے، جبکہ مڈجرنی کا --video ورک فلو صاف شارٹ اینیمیشن تیار کرتا ہے — سماجی، پروٹو ٹائپ، یا تصوراتی کام کے لیے بہترین۔

SHARE THIS BLOG

500+ ماڈلز ایک API میں

20% تک چھوٹ