كيفية إضافة الصوت والمؤثرات الصوتية إلى فيديو Midjourney

إن قفزة Midjourney نحو إنتاج الفيديو مثيرة للاهتمام: فهي تحوّل الصور الثابتة إلى مقاطع متحركة قصيرة ومتكررة، مما يفتح المجال أمام سرد القصص والمحتوى المتحرك. ولكن إلى أن تُقدّم Midjourney مسارات صوتية مدمجة ومُحسّنة (إن وُجدت)، يجب على المبدعين دمج الصوت مع الفيديو الصامت باستخدام مزيج من أدوات الصوت المدعومة بالذكاء الاصطناعي وبرامج التحرير الكلاسيكية. تشرح هذه المقالة الوضع الحالي (الأدوات، وسير العمل، والنصائح، والحواجز القانونية)، وتقدم لك سير عمل مُفصّلًا وجاهزًا للإنتاج لإضافة الصوت والصورة إلى مقاطع فيديو Midjourney.

ما هو "فيديو منتصف الرحلة" بالضبط ولماذا يحتاج إلى صوت خارجي؟

ما تنتجه ميزة الفيديو Midjourney حاليًا

تُحوّل ميزة الفيديو في Midjourney الصورة المُولّدة أو المُحمّلة إلى مقطع فيديو متحرك قصير (مدة أولية 5 ثوانٍ، قابلة للتمديد تدريجيًا) يُبرز الحركة وحركة الكاميرا/الشخص بدلاً من الصوت المُتزامن أو الحوار المُتزامن مع حركة الشفاه. صُممت هذه الأداة لإنشاء حلقات قصيرة غنية بصريًا، وليست سردًا صوتيًا بصريًا كاملًا. هذا يعني أن كل فيديو Midjourney تُصدّره سيكون صامتًا، ويجب إقرانه بالصوت في مرحلة ما بعد الإنتاج ليصبح أكثر من مجرد صورة متحركة.

ما هي القواعد والقيود الأساسية لفيديو Midjourney؟

تُحوّل ميزة الفيديو في Midjourney صورة البداية إلى مقطع فيديو متحرك قصير (مدة الفيديو الافتراضية 5 ثوانٍ)، مع خيارات لتمديد المدة حتى 21 ثانية إجمالاً، واختيار حركة "منخفضة" أو "عالية"، والتكرار، وتغيير حجم الدفعة. يمكن تنزيل الفيديوهات كـ .mp4 ويكشف منتصف الرحلة عن --video المعلمة (و --motion low|high, --loop, --end, --bs #, --raw --endو --bs المعلمات— موجودة الوثائق الرسمية لـ Midjourney) لمطالبات Discord أو API. الدقة هي SD (480 بكسل)، وHD (720 بكسل)؛ تؤثر أحجام الدفعات وإعدادات الحركة على وقت وحدة معالجة الرسومات وتكلفتها.

خلاصة عملية: مقاطع منتصف الرحلة قصيرة (من ٥ إلى ٢١ ثانية)، لذا خطط للتعليق الصوتي والصوت بما يتناسب مع هذا النطاق - أو استعد لدمج مقاطع متعددة. نزّل فيديو خام (.mp4) من صفحة إنشاء Midjourney للحصول على أفضل جودة للعمل بها في مرحلة ما بعد الإنتاج.

لماذا يجب عليك إضافة الصوت والموسيقى والمؤثرات الصوتية

إضافة الصوت:

يوفر السياق والسرد (التعليق الصوتي)، مما يجعل الصور المجردة تواصلية.
يحدد النغمة العاطفية (اختيار الموسيقى) ويحسن الاحتفاظ بالمشاهد.
يؤسِّس الذكاء الاصطناعي للمؤثرات البصرية على أساس الواقع (تصميم الصوت، فولي، والأسرة المحيطة).
يجعل المحتوى جاهزًا للمنصة مثل TikTok أو YouTube أو مقاطع الفيديو القصيرة حيث يكون الصوت ضروريًا.

ما هو أبسط سير عمل لإضافة الصوت والصوت إلى فيديو MidJourney؟

وصفة سريعة من فقرة واحدة

قم بإنشاء مقاطع الفيديو المرئية أو الإطارات المتحركة في MidJourney (المعرض → ميزات الرسوم المتحركة / الفيديو).
تصدير/تنزيل الفيديو المنتج (MP4/GIF).
إنتاج التعليق الصوتي باستخدام TTS من OpenAI (على سبيل المثال، gpt-4o-mini-tts أو نماذج TTS الأخرى) وتصديرها بصيغة WAV/MP3.
قم بإنشاء موسيقى خلفية وتأثيرات صوتية باستخدام أدوات الصوت AI (يمكن أن تساعدك أدوات مثل MM Audio أو Udio أو Runway).
قم بالمحاذاة والخلط في DAW (Reaper، أو Audacity، أو Logic، أو استخدم ffmpeg ببساطة للدمج المباشر).
يمكنك تشغيل مزامنة الشفاه بالذكاء الاصطناعي بشكل اختياري إذا كان الفيديو يحتوي على وجوه وتريد أن يتطابق الفم مع الكلام (Wav2Lip، وSync.so، والخدمات التجارية).

لماذا هذا الفصل (المرئيات مقابل الصوت) مهم؟

يركز MidJourney على الإبداع البصري وتصميم الحركة؛ أما تصميم الصوت فهو مجال تقني مختلف (إنتاج الكلام، تصميم الصوت، المزامنة). يمنحك فصل المسؤوليات تحكمًا أكبر بكثير - شخصية الصوت، وإيقاعه، وتصميم الصوت، وإتقانه - دون الحاجة إلى تدخل المولد البصري.

كيف يمكنني صياغة موجه منتصف الرحلة للفيديو؟

يمكنك إنشاء مقاطع فيديو من أي صورة في معرض الصور الخاص بك أو عن طريق لصق عنوان URL للصورة المستضافة بشكل عام في شريط Imagine وإضافة --video المعلمة (على Discord أو API). بعد إنشاء الملف، يمكنك تنزيل ملف MP4 (الإصدار الخام أو الاجتماعي) مباشرةً من صفحة إنشاء Midjourney أو من Discord.

مثال بسيط على غرار Discord يستخدم صورة تم تحميلها كإطار بداية:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

ملاحظة:

ضع عنوان URL للصورة في البداية لاستخدامها كإطار بداية.
إضافة --video وعلم الحركة (--motion low or --motion high).
استعمل --bs 1 إذا كنت تحتاج فقط إلى إخراج واحد (يوفر وقت وحدة معالجة الرسومات).
استعمل --raw إذا كنت تريد أسلوبًا أقل وحركة أكثر تحديدًا.

إذا كان الفيديو أقصر من السرد المطلوب، فيمكنك إما تمديده في Midjourney (يمكنك التمديد حتى +4 ثوانٍ لكل امتداد، حتى 21 ثانية إجمالاً) أو قص/تكرار الصوت ليناسب الفيديو. سجّل المدة الدقيقة (ثواني + ميلي ثانية) لتنسيق السرد والمؤثرات الصوتية. يوفر Midjourney خيار "تنزيل الفيديو الخام" في صفحة "إنشاء" وفي Discord؛ استخدمه كملف بدء.

ما هي نماذج OpenAI TTS التي يجب أن أفكر فيها ولماذا؟

ما هي خيارات TTS المتاحة حاليًا؟

تقدم OpenAI خيارات TTS متعددة: تاريخيًا tts-1 / tts-1-hd والقادمة الأحدث gpt-4o-mini-tts. gpt-4o-mini-tts يركز النموذج على القدرة على التوجيه (يمكنك توجيه النغمة والوتيرة والعاطفة) وهو مصمم لتوليد صوت مرن ومعبر؛ tts-1 و tts-1-hd تظل خيارات قوية لـ TTS عالية الجودة والأكثر تقليدية. استخدم gpt-4o-mini-tts عندما تريد السيطرة كيف يتم التحدث بالنص (الأسلوب والجو) و tts-1-hd للحصول على أقصى قدر من الدقة عندما يكون التحكم في الأسلوب أقل أهمية. واصلت penAI التكرار على نماذج الصوت (إعلانات في عام 2025 توسعت في قدرات الكلام والنسخ)، لذا اختر النموذج الذي يوازن بين التكلفة والجودة والضوابط لمشروعك. تم دمج واجهات برمجة تطبيقات نموذج tts أيضًا في كوميت ايه بي اي.

هل هناك أي تحذيرات أو قيود حالية بشأن الإنتاج؟

gpt-4o-mini-tts قد يُظهر أحيانًا عدم استقرار في ملفات الصوت الأطول (توقفات، تذبذب في مستوى الصوت)، خاصةً بعد دقيقة ونصف إلى دقيقتين. نادرًا ما تُشكل هذه مشكلة في مقاطع منتصف الرحلة القصيرة (أقل من ٢٠-٣٠ ثانية)، ولكن في حالة السرد الأطول أو التعليق الصوتي الطويل، اختبره وتحقق من صحته. إذا كنت تتوقع سردًا أطول، يُفضل tts-1-hd أو قم بتقسيم النص إلى أجزاء أقصر وربطها بعناية.

أداة خيار أخرى

الموسيقى الخلفية والمؤثرات الصوتية: أدوات مثل MM Audio (أدوات المجتمع)، وUdio، وMagicShot، وRunway تُمكّن من إنشاء موسيقى خلفية متناسقة ومؤثرات صوتية مُراعية للسياق بسرعة؛ وتُظهر مواضيع المجتمع والبرامج التعليمية مُبدعين يدمجون هذه المؤثرات في فيديوهات MidJourney. للتحكم بجودة الإنتاج، أنشئ مقاطع صوتية (موسيقى + موسيقى محيطية) وصدّرها للمزج.

مزامنة الشفاه وتحريك الوجه: إذا كان الفيديو يتضمن شخصيات أو لقطات مقربة لوجوه وترغب في حركة فم واقعية، ففكّر في استخدام Wav2Lip (مفتوح المصدر) أو واجهات برمجة تطبيقات تجارية مثل Sync.so أو Synthesia أو خدمات مزامنة الشفاه الأخرى. تُحلل هذه الأدوات الصوت لإنتاج أشكال فم متوافقة مع الصوتيات، ثم تُطبّقها على وجه أو تسلسل إطارات مُستهدف.

كيف أقوم بإنشاء ملف صوتي باستخدام TTS الخاص بـ OpenAI (الكود العملي)؟

فيما يلي مثالان عمليان من تنسيق مكالمات CometAPI الذي يُولّد ملفات MP3 (أو WAV) باستخدام نقطة نهاية تحويل النص إلى كلام OpenAI. يمكنك تعديل أسماء الأصوات وعلامات البث وفقًا لحساب CometAPI الخاص بك وتحديثات SDK.

⚠️ استبدال YOUR_CometAPI_API_KEY باستخدام مفتاح API الخاص بك. اختبر على عبارة قصيرة أولاً. راجع
نماذج الصوت DOC في CometAPI.

المثال أ - سريع `curl` (سطر الأوامر)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

إذا كنت تفضل WAV:

تغيير اسم ملف الإخراج إلى narration.wav، و(إذا كان متاحًا) حدد معلمة تنسيق الصوت في النص (تسمح بعض مجموعات أدوات تطوير البرامج format: "wav").

لماذا يعمل هذا: تقبل نقطة نهاية TTS النص وتُرجع ملفًا صوتيًا ثنائيًا يمكنك حفظه ودمجه مع الفيديو لاحقًا. استخدم voice و instructions (حيثما كان متاحًا) لتوجيه العروض والأسلوب.

المثال ب: بايثون باستخدام الطلبات

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

كيف أقوم بدمج الصوت TTS مع ملف فيديو MidJourney؟

تصدير الفيديو من MidJourney

تتيح لك ميزات الفيديو/التحريك في MidJourney إنشاء ملف MP4/GIF أو تصدير مقطع فيديو من معرض الصور الخاص بك - استخدم وظيفة "التحريك" أو خيارات تصدير المعرض للحصول على ملف محلي.

دمج بسيط مع ffmpeg

إذا كان لديك بالفعل video.mp4 (لا يوجد صوت أو صوت مؤقت) و voiceover.wav (أو mp3)، استخدم ffmpeg للدمج:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

ملاحظة:

-shortest يتوقف عند البث الأقصر؛ قم بحذفه إذا كنت تريد أن يستمر تشغيل الفيديو لفترة أطول من الصوت (أو العكس).
-c:v copy يحافظ على بث الفيديو دون تغيير.
-c:a aac يقوم بترميز الصوت إلى صيغة AAC (متوافق مع MP4).
استعمل -af "volume=... مرشحات لمطابقة مستوى الصوت.
للحصول على اللمسات النهائية الاحترافية، افتح جذوع الصوت في برنامج DAW لضبط التوقيت والمعادل والضغط.

قص أو حشو الصوت لطول الفيديو الدقيق

إذا كان الصوت أطول من الفيديو وتريد قطعًا دقيقًا:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

إذا كان الصوت أقصر وتريد أن تملأ الموسيقى الخلفية الباقي أو تتكرر الصوت، استخدم adelay, apadأو امزجه مع مسار الخلفية. مثال: تكرار السرد ليتناسب مع مقطع مدته عشرين ثانية (لا يُنصح عادةً بالصوت):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

كيفية تعويض الصوت (إذا كان السرد يحتاج إلى البدء لاحقًا)

إذا كان من المفترض أن يبدأ سردك بعد فترة صمت قصيرة أو كان لديك عدة أجزاء لوضعها في أماكن متقطعة، فاستخدم -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 يؤخر الإدخال الثاني لمدة 0.5 ثانية.

للحصول على مسارات صوتية متعددة أو استخدام موضع دقيق للغاية -filter_complex مع adelay بعد إنشاء TTS في أجزاء صغيرة (جملة واحدة لكل ملف):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

هنا adelay يستغرق الأمر مللي ثانية (2500 مللي ثانية = 2.5 ثانية)، حتى تتمكن من محاذاة النص مع الإشارات المرئية بدقة.

اجعل السرد قصيرًا ومُراعيًا للمشهد: نظرًا لقصر مقاطع Midjourney وأسلوبها المُصمم، احرص على استخدام مقطع مُلفت (حوالي 5-15 ثانية) يتناسب مع إيقاع الفيديو. قسّم النص إلى جمل قصيرة تتفاعل مع المقاطع المرئية أو الإشارات الحركية.

كيفية مزج الموسيقى الخلفية + السرد + المؤثرات الصوتية

استعمل filter_complex لمزج مدخلات صوت متعددة والتحكم في مستوى الصوت. مثال:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

هذا يمزج السرد (narration.mp3) والموسيقى (music.mp3) مع ضبط مستوى الموسيقى على مستوى منخفض بحيث يكون أسفل الصوت. يمكنك أيضًا تشغيل خاصية التلاشي الديناميكي (جعل الموسيقى تتلاشى عند تشغيل التعليق الصوتي) عبر مرشحات السلسلة الجانبية، أو التعديل في برنامج DAW للحصول على تلاشي دقيق.

التحرير المتقدم

النص والوتيرة

اكتب نصًا محكمًا وقم بتمييز الإشارات المرئية (رمز الوقت أو أرقام الإطارات) بحيث يتوافق إخراج TTS مع تغييرات المشهد.
استخدم جملًا قصيرة للحصول على إيقاع طبيعي أفضل؛ إذا كنت بحاجة إلى قراءات طويلة، قم بإدراج فترات توقف مقصودة أو تقسيمها إلى مكالمات TTS متعددة.

تطابق الحركة والشدة والملمس

استخدم المؤثرات الصوتية المؤقتة لتسليط الضوء على القطع المرئية أو تحركات الكاميرا.
لحركة منتصف الرحلة البطيئة والرسمية (--motion low), يفضل أجواءً هادئة وذيول صدى طويلة.
للحصول على عمل عالي (--motion high), استخدم مؤثرات صوتية قوية، وإيقاعات موسيقية متناسبة مع الإيقاع، وتردد صدى قصير.

أسلوب صوت التوجيه

استخدم الإرشادات الإرشادية للتوجيه gpt-4o-mini-tts — على سبيل المثال، "instructions": "Calm, conversational, slight warmth, medium speed" أو تضمين هذه التعليمات كجزء من حمولة النص. على سبيل المثال:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

كن حذرًا: تختلف أسماء المعلمات الدقيقة عبر إصدارات SDK - اختبر الحقول التي يدعمها SDK الخاص بك.

نصائح لتصميم الصوت

أضف مسارًا منخفض الصوت (موسيقى) وقم بتشغيله بشكل جانبي أو خفضه أثناء الصوت.
استخدم صيحات قصيرة، أو حركات صاعدة، أو مؤثرات صوتية صادمة متناسبة مع التحولات البصرية. اجعل المؤثرات الصوتية قصيرة وواضحة.
قم بتطبيع الصوت (-1 dBFS) ثم قم بضغطه بشكل خفيف (نسبة 2:1) للحصول على مستوى صوت ثابت عبر الأنظمة الأساسية.
بالنسبة للمنصات الاجتماعية، قم بترميز الفيديو النهائي باستخدام الصوت AAC-LC والفيديو H.264 للتوافق.

هل يمكنني جعل الشخصيات في مقطع فيديو MidJourney "تتحدث" (مزامنة الشفاه) مع الصوت الناتج؟

نعم، استخدم نموذج مزامنة الشفاه لربط الأصوات من صوت TTS إلى إطارات حركة الفم. الطريقتان الشائعتان هما:

استخدم أدوات مفتوحة مثل Wav2Lip (محلية أو مستضافة)

يُوازن Wav2Lip الصوت المنطوق مع حركة الفم، ويمكن تشغيله محليًا أو عبر واجهات المستخدم الرسومية المُستضافة. سير العمل النموذجي:

تصدير الفيديو أو سلسلة من الإطارات (تسلسل الصور) من MidJourney.
إنتاج ملف الصوت (OpenAI TTS).
قم بتشغيل Wav2Lip لإخراج مقطع فيديو جديد حيث تتطابق أشكال الفم مع الصوت.

يعد Wav2Lip ممتازًا لمحاذاة الفم بنسبة 1:1 وهو مفتوح المصدر؛ قد تحتاج إلى بعض المعالجة اللاحقة للتلميع المرئي.

استخدم واجهات برمجة التطبيقات التجارية لمزامنة الشفاه بخطوة واحدة

تقدم خدمات مثل Sync.so وSynthesia وغيرها خطوط أنابيب API/GUI لمعالجة الكلام ومزامنة الشفاه/الدبلجة، بما في ذلك أحيانًا الدبلجة متعددة اللغات. قد تكون هذه الخدمات أسرع وأقل تقنية، لكنها مدفوعة وقد تُعيق التحكم الدقيق.

ملاحظات عملية حول الواقعية

غالبًا ما تتطلب الواقعية المثالية تعبيرات دقيقة، ورمشات بالعين، وحركة الرأس - تضيف بعض خدمات مزامنة الشفاه هذه الأشياء تلقائيًا؛ بينما تتطلب خدمات أخرى تعديلات يدوية.
إذا كانت الشخصيات مصممة (غير واقعية)، فإن أخطاء مزامنة الشفاه الصغيرة تكون أقل وضوحًا؛ بالنسبة للقطات القريبة، استثمر وقتًا في برنامج DAW + خط أنابيب تنقيح الوجه.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

استخدم فيديو MidJourney في CometAPI

كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل منتصف الرحلة API و واجهة برمجة تطبيقات فيديو منتصف الرحلةمرحبًا بك في التسجيل وتجربة CometAPI. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. يدعم CometAPI دقة SD 480P وHD 720P.

طريقة الاستدعاء: استخدم المعلمة videoType=vid_1.1_i2v_720.

فيديو منتصف الرحلة V1الجيل: يمكن للمطورين دمج إنشاء الفيديو عبر واجهة برمجة تطبيقات RESTful. هيكل طلب نموذجي (توضيحي)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

نماذج الصوت

يمكن للمطورين الوصول إلى الصوت GPT 4o وtts-1 من خلال CometAPI، أحدث إصدار للطراز (نقطة النهاية：gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) يتم تحديثه دائمًا بالموقع الرسمي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات الصوتية للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

الخاتمة

إن إضافة الصوت والصورة إلى فيديو Midjourney أمر بسيط: قم بإنشاء مقطع قصير من Midjourney، ثم قم بتوليف السرد القصير باستخدام TTS القابل للتوجيه من OpenAI، ثم قم بدمجه وصقله باستخدام ffmpeg. الجديد gpt-4o-mini-tts يمنحك النموذج تحكمًا أسلوبيًا قويًا، في حين أن Midjourney --video يُنتج سير العمل رسومًا متحركة قصيرة نظيفة — مثالية للأعمال الاجتماعية أو النماذج الأولية أو المفاهيمية.

ما هو "فيديو منتصف الرحلة" بالضبط ولماذا يحتاج إلى صوت خارجي؟

ما تنتجه ميزة الفيديو Midjourney حاليًا

ما هي القواعد والقيود الأساسية لفيديو Midjourney؟

لماذا يجب عليك إضافة الصوت والموسيقى والمؤثرات الصوتية

ما هو أبسط سير عمل لإضافة الصوت والصوت إلى فيديو MidJourney؟

وصفة سريعة من فقرة واحدة

لماذا هذا الفصل (المرئيات مقابل الصوت) مهم؟

كيف يمكنني صياغة موجه منتصف الرحلة للفيديو؟

ما هي نماذج OpenAI TTS التي يجب أن أفكر فيها ولماذا؟

ما هي خيارات TTS المتاحة حاليًا؟

هل هناك أي تحذيرات أو قيود حالية بشأن الإنتاج؟

أداة خيار أخرى

كيف أقوم بإنشاء ملف صوتي باستخدام TTS الخاص بـ OpenAI (الكود العملي)؟

المثال أ - سريع `curl` (سطر الأوامر)

المثال ب: بايثون باستخدام الطلبات

كيف أقوم بدمج الصوت TTS مع ملف فيديو MidJourney؟

تصدير الفيديو من MidJourney

دمج بسيط مع ffmpeg

قص أو حشو الصوت لطول الفيديو الدقيق

كيفية تعويض الصوت (إذا كان السرد يحتاج إلى البدء لاحقًا)

كيفية مزج الموسيقى الخلفية + السرد + المؤثرات الصوتية

التحرير المتقدم

النص والوتيرة

تطابق الحركة والشدة والملمس

أسلوب صوت التوجيه

نصائح لتصميم الصوت

هل يمكنني جعل الشخصيات في مقطع فيديو MidJourney "تتحدث" (مزامنة الشفاه) مع الصوت الناتج؟

استخدم أدوات مفتوحة مثل Wav2Lip (محلية أو مستضافة)

استخدم واجهات برمجة التطبيقات التجارية لمزامنة الشفاه بخطوة واحدة

ملاحظات عملية حول الواقعية

كيف تبدأ

استخدم فيديو MidJourney في CometAPI

نماذج الصوت

الخاتمة

الوصول إلى أفضل النماذج بتكلفة منخفضة

اقرأ المزيد

كيفية إضافة الصوت والمؤثرات الصوتية إلى فيديو Midjourney

ما هو "فيديو منتصف الرحلة" بالضبط ولماذا يحتاج إلى صوت خارجي؟

ما تنتجه ميزة الفيديو Midjourney حاليًا

ما هي القواعد والقيود الأساسية لفيديو Midjourney؟

لماذا يجب عليك إضافة الصوت والموسيقى والمؤثرات الصوتية

ما هو أبسط سير عمل لإضافة الصوت والصوت إلى فيديو MidJourney؟

وصفة سريعة من فقرة واحدة

لماذا هذا الفصل (المرئيات مقابل الصوت) مهم؟

كيف يمكنني صياغة موجه منتصف الرحلة للفيديو؟

ما هي نماذج OpenAI TTS التي يجب أن أفكر فيها ولماذا؟

ما هي خيارات TTS المتاحة حاليًا؟

هل هناك أي تحذيرات أو قيود حالية بشأن الإنتاج؟

أداة خيار أخرى

كيف أقوم بإنشاء ملف صوتي باستخدام TTS الخاص بـ OpenAI (الكود العملي)؟

المثال أ - سريع curl (سطر الأوامر)

المثال ب: بايثون باستخدام الطلبات

كيف أقوم بدمج الصوت TTS مع ملف فيديو MidJourney؟

تصدير الفيديو من MidJourney

دمج بسيط مع ffmpeg

قص أو حشو الصوت لطول الفيديو الدقيق

كيفية تعويض الصوت (إذا كان السرد يحتاج إلى البدء لاحقًا)

كيفية مزج الموسيقى الخلفية + السرد + المؤثرات الصوتية

التحرير المتقدم

النص والوتيرة

تطابق الحركة والشدة والملمس

أسلوب صوت التوجيه

نصائح لتصميم الصوت

هل يمكنني جعل الشخصيات في مقطع فيديو MidJourney "تتحدث" (مزامنة الشفاه) مع الصوت الناتج؟

استخدم أدوات مفتوحة مثل Wav2Lip (محلية أو مستضافة)

استخدم واجهات برمجة التطبيقات التجارية لمزامنة الشفاه بخطوة واحدة

ملاحظات عملية حول الواقعية

كيف تبدأ

استخدم فيديو MidJourney في CometAPI

نماذج الصوت

الخاتمة

الوصول إلى أفضل النماذج بتكلفة منخفضة

اقرأ المزيد

المثال أ - سريع `curl` (سطر الأوامر)