วิธีเพิ่มเสียงและเสียงลงในวิดีโอ Midjourney

การก้าวกระโดดสู่ยุควิดีโอของ Midjourney นั้นน่าตื่นเต้นมาก เพราะมันสามารถแปลงภาพนิ่งให้กลายเป็นคลิปแอนิเมชันสั้นๆ ที่สามารถวนซ้ำได้ ซึ่งเปิดประตูสู่การเล่าเรื่องและคอนเทนต์ที่ขับเคลื่อนด้วยการเคลื่อนไหว แต่ก่อนที่ Midjourney จะมาพร้อมแทร็กเสียงที่ปรับแต่งมาอย่างดีในตัว (หากจะมี) ผู้สร้างจะต้องต่อเสียงเข้ากับวิดีโอแบบเงียบโดยใช้เครื่องมือเสียง AI และโปรแกรมตัดต่อวิดีโอแบบคลาสสิก บทความนี้จะอธิบายภาพรวมปัจจุบัน (เครื่องมือ เวิร์กโฟลว์ เคล็ดลับ และข้อจำกัดทางกฎหมาย) และนำเสนอขั้นตอนการทำงานแบบทีละขั้นตอนที่พร้อมสำหรับการผลิตในการเพิ่มเสียงและเสียงลงในคลิปวิดีโอของ Midjourney

“Midjourney Video” คืออะไรกันแน่ และทำไมจึงต้องใช้เสียงจากภายนอก?

วิดีโอของ Midjourney ผลิตในปัจจุบัน

ความสามารถด้านวิดีโอของ Midjourney จะแปลงภาพที่สร้างหรืออัปโหลดให้เป็นคลิปแอนิเมชันสั้นๆ (เริ่มต้นที่ 5 วินาที และสามารถขยายเพิ่มได้) โดยเน้นที่การเคลื่อนไหวและการเคลื่อนไหวของกล้อง/ตัวแบบ แทนที่จะเป็นเสียงที่ซิงโครไนซ์หรือบทสนทนาที่ลิปซิงค์ เครื่องมือนี้ออกแบบมาเพื่อสร้างลูปสั้นๆ ที่มีภาพสวยงาม ไม่ใช่การเล่าเรื่องด้วยภาพและเสียงที่เสร็จสมบูรณ์ ซึ่งหมายความว่าวิดีโอ Midjourney ทุกวิดีโอที่คุณส่งออกจะไม่มีเสียง และต้องจับคู่กับเสียงในขั้นตอนหลังการผลิตจึงจะออกมาเป็นภาพเคลื่อนไหวได้

กฎและข้อจำกัดพื้นฐานของวิดีโอ Midjourney มีอะไรบ้าง?

ฟีเจอร์วิดีโอของ Midjourney จะแปลงภาพเริ่มต้นเป็นคลิปแอนิเมชันสั้นๆ (ค่าเริ่มต้น 5 วินาที) พร้อมตัวเลือกในการขยายความยาวสูงสุด 21 วินาที เลือกการเคลื่อนไหวแบบ "ต่ำ" หรือ "สูง" วนซ้ำ และเปลี่ยนขนาดชุดวิดีโอได้ สามารถดาวน์โหลดวิดีโอได้ดังนี้ .mp4 และ Midjourney เปิดเผย --video พารามิเตอร์ (และ --motion low|high, --loop, --end, --bs #, --raw --endและ --bs พารามิเตอร์— อยู่ใน เอกสารอย่างเป็นทางการของ Midjourney) สำหรับ Discord หรือ API prompts ความละเอียดคือ SD (480p) ส่วน HD (720p) ขนาดชุดและการตั้งค่าการเคลื่อนไหวจะมีผลต่อเวลาและต้นทุนของ GPU

บทเรียนปฏิบัติ: คลิป Midjournal สั้น (5–21 วินาที) ดังนั้นควรวางแผนคำบรรยายและเสียงให้เหมาะกับความต้องการของคุณ หรือเตรียมที่จะรวมคลิปหลายๆ คลิปเข้าด้วยกัน ดาวน์โหลด วิดีโอแบบดิบ (.mp4) จากหน้าสร้างของ Midjourney เพื่อคุณภาพที่ดีที่สุดในการใช้งานในขั้นตอนหลังการผลิต

ทำไมคุณควรเพิ่มเสียง ดนตรี และเอฟเฟกต์พิเศษ

การเพิ่มเสียง:

ให้บริบทและคำบรรยาย (เสียงบรรยาย) ทำให้ภาพนามธรรมสามารถสื่อสารได้
กำหนดโทนอารมณ์ (การเลือกเพลง) และปรับปรุงการรักษาผู้ชม
ปรับภาพ AI ให้มีความสมจริง (การออกแบบเสียง, เสียงประกอบ, เตียงบรรยากาศ)
สร้างเนื้อหาให้พร้อมสำหรับแพลตฟอร์ม TikTok, YouTube หรือรีลที่เสียงเป็นสิ่งสำคัญ

ขั้นตอนการทำงานที่ง่ายที่สุดในการเพิ่มเสียงลงในวิดีโอ MidJourney คืออะไร

สูตรอาหารย่อหน้าเดียวแบบรวดเร็ว

สร้างวิดีโอภาพหรือเฟรมเคลื่อนไหวของคุณใน MidJourney (แกลเลอรี → แอนิเมชัน / ฟีเจอร์วิดีโอ)
ส่งออก/ดาวน์โหลดวิดีโอที่ผลิต (MP4/GIF)
สร้างเสียงพากย์ด้วย TTS ของ OpenAI (เช่น gpt-4o-mini-tts หรือโมเดล TTS อื่นๆ) และส่งออกเป็น WAV/MP3
สร้างดนตรีประกอบและเอฟเฟกต์เสียงโดยใช้เครื่องมือเสียง AI (เครื่องมือเช่น MM Audio, Udio หรือ Runway สามารถช่วยได้)
จัดตำแหน่งและผสมใน DAW (Reaper, Audacity, Logic หรือเพียงแค่ใช้ ffmpeg สำหรับการผสานตรง)
คุณสามารถเลือกที่จะรัน AI lip-sync ได้หากวิดีโอมีใบหน้าและคุณต้องการให้ปากตรงกับคำพูด (Wav2Lip, Sync.so และบริการเชิงพาณิชย์)

เหตุใดการแยกภาพและเสียงจึงมีความสำคัญ

MidJourney มุ่งเน้นไปที่ความคิดสร้างสรรค์ด้านภาพและการออกแบบโมชั่น ส่วนการออกแบบเสียงเป็นเทคนิคเฉพาะทางที่แตกต่างออกไป (การสร้างเสียงพูด การออกแบบเสียง และการซิงโครไนซ์) การแบ่งหน้าที่ความรับผิดชอบจะช่วยให้คุณควบคุมตัวละครเสียง จังหวะ การออกแบบเสียง และการมาสเตอร์ได้มากขึ้น โดยไม่ต้องวุ่นวายกับโปรแกรมสร้างภาพ

ฉันควรสร้างคำเตือน Midjourney สำหรับวิดีโออย่างไร

คุณสามารถสร้างวิดีโอจากรูปภาพใดๆ ในแกลเลอรีของคุณหรือโดยการวาง URL ของรูปภาพที่โฮสต์สาธารณะลงในแถบ Imagine และเพิ่ม --video พารามิเตอร์ (บน Discord หรือ API) หลังจากสร้างแล้ว คุณสามารถดาวน์โหลด MP4 (เวอร์ชัน Raw หรือ Social) ได้โดยตรงจากหน้า Midjourney Create หรือจาก Discord

ตัวอย่างสไตล์ Discord ง่ายๆ ที่ใช้รูปภาพที่อัปโหลดเป็นเฟรมเริ่มต้น:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

หมายเหตุ:

ใส่ URL ของรูปภาพไว้ที่จุดเริ่มต้นเพื่อใช้เป็นเฟรมเริ่มต้น
เพิ่ม --video และธงเคลื่อนไหว (--motion low or --motion high).
ใช้ --bs 1 หากคุณต้องการเอาต์พุตเพียงตัวเดียว (ประหยัดเวลา GPU)
ใช้ --raw หากคุณต้องการสไตล์ที่น้อยลงและการเคลื่อนไหวที่กำหนดได้มากขึ้น

หากวิดีโอสั้นกว่าคำบรรยายที่ต้องการ คุณสามารถขยายวิดีโอใน Midjourney ได้ (สามารถขยายได้สูงสุด +4 วินาทีต่อส่วนขยาย รวมสูงสุด 21 วินาที) หรือตัด/วนซ้ำเสียงให้พอดี จดบันทึกระยะเวลาที่แน่นอน (วินาที + มิลลิวินาที) ไว้ เพื่อปรับเสียงบรรยายและเสียงประกอบให้ตรงกัน Midjourney มีตัวเลือก "ดาวน์โหลดวิดีโอดิบ" ในหน้าสร้างและใน Discord ใช้เป็นไฟล์เริ่มต้นของคุณ

ฉันควรพิจารณาโมเดล OpenAI TTS แบบใด และทำไม?

ตัวเลือก TTS ที่มีอยู่ตอนนี้มีอะไรบ้าง?

OpenAI นำเสนอตัวเลือก TTS หลายแบบ: ในอดีต tts-1 / tts-1-hd และบังคับเลี้ยวแบบใหม่ gpt-4o-mini-ttsส่วน gpt-4o-mini-tts แบบจำลองนี้เน้นการบังคับเลี้ยว (คุณสามารถสั่งโทนเสียง จังหวะ อารมณ์ได้) และได้รับการออกแบบมาเพื่อการสร้างเสียงที่ยืดหยุ่นและแสดงออกได้ tts-1 และ tts-1-hd ยังคงเป็นตัวเลือกที่แข็งแกร่งสำหรับ TTS แบบดั้งเดิมคุณภาพสูง ใช้ gpt-4o-mini-tts เมื่อคุณต้องการควบคุม อย่างไร ข้อความถูกพูดออกมา (สไตล์, บรรยากาศ) และ tts-1-hd เพื่อความเที่ยงตรงสูงสุดเมื่อการควบคุมสไตล์มีความสำคัญน้อยลง penAI ยังคงทำซ้ำในโมเดลเสียง (ประกาศในปี 2025 ความสามารถในการพูดและการถอดเสียงที่ขยายออกไป) ดังนั้น ให้เลือกโมเดลที่สมดุลระหว่างต้นทุน คุณภาพ และการควบคุมสำหรับโครงการของคุณ API ของโมเดล tts ยังรวมเข้าใน โคเมทเอพีไอ.

ข้อควรระวังในการผลิตหรือข้อจำกัดปัจจุบันใดๆ หรือไม่

gpt-4o-mini-tts บางครั้งอาจเกิดความไม่เสถียรในไฟล์เสียงที่ยาวกว่า (เช่น การหยุดชั่วคราว ระดับเสียงขึ้นลง) โดยเฉพาะอย่างยิ่งเมื่อเกิน 1.5–2 นาที สำหรับคลิป Midjourney สั้นๆ (ประมาณ 20–30 วินาที) ปัญหานี้มักไม่เกิดขึ้น แต่สำหรับการบรรยายที่ยาวกว่าหรือเสียงพากย์แบบยาว ควรทดสอบและตรวจสอบ หากคุณคาดหวังว่าการบรรยายจะยาวกว่านี้ แนะนำให้ tts-1-hd หรือแบ่งข้อความออกเป็นส่วนสั้นๆ และเย็บเข้าด้วยกันอย่างระมัดระวัง

เครื่องมือตัวเลือกอื่น

ดนตรีประกอบและเอฟเฟกต์พิเศษ: เครื่องมือต่างๆ เช่น MM Audio (เครื่องมือชุมชน), Udio, MagicShot หรือ Runway สามารถสร้างดนตรีประกอบที่เข้ากันและเอฟเฟกต์เสียงที่สอดคล้องกับบริบทได้อย่างรวดเร็ว กระทู้ชุมชนและบทช่วยสอนจะแสดงให้ผู้สร้างผสมผสานสิ่งเหล่านี้ลงในวิดีโอ MidJourney สำหรับการควบคุมระดับโปรดักชั่น ให้สร้างสเต็ม (ดนตรี + เสียงแวดล้อม) และส่งออกเพื่อมิกซ์เสียง

ลิปซิงค์และแอนิเมชั่นใบหน้า: หากวิดีโอมีตัวละครหรือภาพใบหน้าแบบโคลสอัพ และคุณต้องการการเคลื่อนไหวของปากที่สมจริง ลองพิจารณา Wav2Lip (โอเพนซอร์ส) หรือ API เชิงพาณิชย์ เช่น Sync.so, Synthesia หรือบริการลิปซิงค์อื่นๆ เครื่องมือเหล่านี้จะวิเคราะห์เสียงเพื่อสร้างรูปร่างปากที่สอดคล้องกับหน่วยเสียง และนำไปใช้กับใบหน้าหรือลำดับเฟรมเป้าหมาย

ฉันจะสร้างไฟล์เสียงด้วย TTS (โค้ดปฏิบัติ) ของ OpenAI ได้อย่างไร

ด้านล่างนี้คือสองตัวอย่างการใช้งานจริงจากรูปแบบการเรียก CometAPI ที่สร้างไฟล์ MP3 (หรือ WAV) โดยใช้จุดสิ้นสุด TTS ของ OpenAI คุณสามารถปรับแต่งชื่อเสียงและแฟล็กการสตรีมได้ตามบัญชี CometAPI และการอัปเดต SDK ของคุณ

⚠️ เปลี่ยน YOUR_CometAPI_API_KEY ด้วยคีย์ API ของคุณ ทดสอบกับวลีสั้นๆ ก่อน อ้างอิง
DOC ของโมเดลเสียงใน CometAPI.

ตัวอย่าง A — รวดเร็ว `curl` (บรรทัดคำสั่ง)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

หากคุณชอบ WAV:

เปลี่ยนชื่อไฟล์เอาท์พุตเป็น narration.wavและ (ถ้ามี) ระบุพารามิเตอร์รูปแบบเสียงในเนื้อหา (SDK บางตัวอนุญาต format: "wav").

ทำไมถึงได้ผล: จุดสิ้นสุด TTS ยอมรับข้อความและส่งคืนไฟล์เสียงไบนารีที่คุณสามารถบันทึกและรวมกับวิดีโอของคุณในภายหลัง ใช้ voice และ instructions (ถ้ามี) เพื่อควบคุมเสียงและลีลา

ตัวอย่าง B: Python ใช้การร้องขอ

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

ฉันจะรวมเสียง TTS กับไฟล์วิดีโอ MidJourney ได้อย่างไร

ส่งออกวิดีโอจาก MidJourney

คุณสมบัติวิดีโอ/แอนิเมชันของ MidJourney ช่วยให้คุณสร้าง MP4/GIF หรือส่งออกวิดีโอจากแกลเลอรีของคุณได้ ใช้ฟังก์ชัน "แอนิเมชัน" หรือตัวเลือกการส่งออกแกลเลอรีเพื่อรับไฟล์ในเครื่อง

ผสานง่ายๆ ด้วย ffmpeg

หากคุณมีอยู่แล้ว video.mp4 (ไม่มีหรือเสียงตัวแทน) และ voiceover.wav (หรือ mp3) ใช้ ffmpeg เพื่อรวม:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

หมายเหตุ:

-shortest หยุดที่สตรีมที่สั้นกว่า; ละเว้นหากคุณต้องการให้วิดีโอเล่นนานกว่าเสียง (หรือในทางกลับกัน)
-c:v copy ทำให้สตรีมวิดีโอไม่เปลี่ยนแปลง
-c:a aac เข้ารหัสเสียงเป็น AAC (เข้ากันได้กับ MP4)
ใช้ -af "volume=... ตัวกรองสำหรับการจับคู่ความดัง
สำหรับการสรุปขั้นสุดท้ายอย่างมืออาชีพ ให้เปิดสเต็มเสียงใน DAW เพื่อปรับจังหวะ EQ และการบีบอัด

ตัดแต่งหรือแพดเสียงให้มีความยาวเท่ากับความยาวของวิดีโอ

หากเสียงยาวกว่าวิดีโอและคุณต้องการตัดอย่างแม่นยำ:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

หากเสียงสั้นลงและคุณต้องการให้ดนตรีประกอบเติมเต็มส่วนที่เหลือหรือเล่นวนซ้ำเสียง ให้ใช้ adelay, apadหรือผสมกับแทร็กพื้นหลัง ตัวอย่าง: การบรรยายแบบวนซ้ำเพื่อให้ตรงกับคลิปวิดีโอช่วงปี 20 (โดยปกติไม่แนะนำให้ใช้กับเสียงพากย์):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

วิธีการชดเชยเสียง (หากจำเป็นต้องเริ่มการบรรยายในภายหลัง)

หากคำบรรยายของคุณควรเริ่มต้นหลังจากความเงียบสั้นๆ หรือคุณมีหลายส่วนที่จะวางไว้ที่ตำแหน่งออฟเซ็ต ให้ใช้ -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 ล่าช้าการป้อนข้อมูลครั้งที่สอง 0.5 วินาที

สำหรับแทร็กเสียงหลายแทร็กหรือการวางตำแหน่งที่แม่นยำมาก -filter_complex สีสดสวย adelay หลังจากสร้าง TTS ในส่วนเล็กๆ (หนึ่งประโยคต่อไฟล์):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Here adelay ใช้เวลาเพียงมิลลิวินาที (2500 มิลลิวินาที = 2.5 วินาที) ดังนั้นคุณจึงสามารถจัดตำแหน่งข้อความให้ตรงกับสัญญาณภาพได้อย่างแม่นยำ

พยายามบรรยายให้สั้นและคำนึงถึงฉาก: เนื่องจากคลิปของ Midjourney สั้นและมักมีรูปแบบเฉพาะตัว จึงควรใช้คำนำที่กระชับ (~5-15 วินาที) ที่เข้ากับจังหวะของวิดีโอ แบ่งข้อความออกเป็นประโยคสั้นๆ ที่สอดคล้องกับภาพตัดต่อหรือสัญญาณการเคลื่อนไหว

วิธีมิกซ์เพลงประกอบ + เสียงบรรยาย + เสียงเอฟเฟกต์

ใช้ filter_complex เพื่อผสมอินพุตเสียงหลายตัวและควบคุมระดับเสียง ตัวอย่าง:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

นี่ผสมผสานการบรรยาย (narration.mp3) และดนตรี (music.mp3) ในขณะที่ตั้งระดับเสียงดนตรีให้ต่ำลงเพื่อให้เสียงอยู่ในระดับต่ำกว่าเสียงพูด คุณยังสามารถใช้ Dynamic Ducking (การทำให้เสียงดนตรีค่อยๆ จางลงเมื่อเสียงบรรยายเล่น) ผ่านฟิลเตอร์ไซด์เชน หรือแก้ไขใน DAW เพื่อการเฟดที่แม่นยำได้อีกด้วย

การแก้ไขขั้นสูง

บทและจังหวะ

เขียนสคริปต์ที่กระชับและทำเครื่องหมายสัญญาณภาพ (ไทม์โค้ดหรือหมายเลขเฟรม) เพื่อให้เอาต์พุต TTS ตรงกับการเปลี่ยนแปลงฉาก
ใช้ประโยคสั้นๆ เพื่อจังหวะที่เป็นธรรมชาติมากขึ้น หากคุณต้องการอ่านยาวๆ ให้แทรกการหยุดชั่วคราวโดยตั้งใจหรือแบ่งออกเป็นการเรียก TTS หลายๆ ครั้ง

จับคู่การเคลื่อนไหว ความเข้มข้น และพื้นผิว

ใช้เอฟเฟกต์เสียงชั่วคราวเพื่อเน้นการตัดภาพหรือการเคลื่อนกล้อง
สำหรับการเคลื่อนไหวกลางการเดินทางที่ช้าและเหมือนภาพวาด (--motion low) สนับสนุนบรรยากาศอันละเอียดอ่อนและหางเสียงสะท้อนที่ยาว
สำหรับการดำเนินการสูง (--motion high) ใช้เอฟเฟกต์เสียงที่หนักแน่น เพลงฮิตที่มีจังหวะตรงกัน และเสียงสะท้อนสั้นๆ

สไตล์เสียงพวงมาลัย

ใช้คำแนะนำเพื่อนำทาง gpt-4o-mini-tts — เช่น "instructions": "Calm, conversational, slight warmth, medium speed" หรือรวมคำสั่งนั้นไว้เป็นส่วนหนึ่งของเนื้อหาข้อความ ตัวอย่างเช่น:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

ระวัง: ชื่อพารามิเตอร์ที่แน่นอนจะแตกต่างกันไปในแต่ละเวอร์ชันของ SDK — ทดสอบฟิลด์ที่ SDK ของคุณรองรับ

เคล็ดลับการออกแบบเสียง

เพิ่มแทร็กเสียงต่ำ (เพลง) และเชื่อมต่อแบบไซด์เชนหรือดั๊กระหว่างเสียง
ใช้เสียงเอฟเฟกต์สั้นๆ เสียงวูบ เสียงขึ้น หรือเสียงกระแทก ให้สอดคล้องกับการเปลี่ยนฉาก ใช้เสียงเอฟเฟกต์สั้นๆ และชัดเจน
ปรับเสียงให้เป็นมาตรฐาน (-1 dBFS) และบีบอัดเบาๆ (อัตราส่วน 2:1) เพื่อให้ได้ความดังที่สม่ำเสมอในทุกแพลตฟอร์ม
สำหรับแพลตฟอร์มโซเชียล ให้เข้ารหัสวิดีโอขั้นสุดท้ายด้วยเสียง AAC-LC และวิดีโอ H.264 เพื่อความเข้ากันได้

ฉันสามารถทำให้ตัวละครในวิดีโอ MidJourney “พูด” (ลิปซิงค์) กับเสียงที่สร้างขึ้นได้หรือไม่

ใช่—ใช้แบบจำลองลิปซิงค์เพื่อจับคู่หน่วยเสียงจากเสียง TTS กับเฟรมการเคลื่อนไหวของปาก มีสองวิธีที่นิยมใช้กันคือ:

ใช้เครื่องมือเปิดเช่น Wav2Lip (ภายในเครื่องหรือโฮสต์)

Wav2Lip จัดเรียงเสียงพูดให้ตรงกับการเคลื่อนไหวของปาก และสามารถรันได้ทั้งแบบโลคัลและผ่าน GUI ที่โฮสต์ไว้ เวิร์กโฟลว์ทั่วไป:

ส่งออกวิดีโอหรือชุดเฟรม (ลำดับภาพ) จาก MidJourney
สร้างไฟล์เสียง (OpenAI TTS)
เรียกใช้ Wav2Lip เพื่อสร้างวิดีโอใหม่ที่มีรูปร่างปากตรงกับเสียง

Wav2Lip เหมาะอย่างยิ่งสำหรับการจัดตำแหน่งปากแบบ 1:1 และเป็นโอเพนซอร์ส คุณอาจต้องมีการประมวลผลหลังการแต่งรูปเพื่อขัดเกลาภาพ

ใช้ API เชิงพาณิชย์สำหรับการลิปซิงค์แบบขั้นตอนเดียว

บริการต่างๆ เช่น Sync.so, Synthesia และอื่นๆ นำเสนอ API/GUI pipeline ที่จัดการทั้งเสียงพูดและการลิปซิงค์/การพากย์เสียง ซึ่งบางครั้งอาจรวมถึงการพากย์เสียงหลายภาษาด้วย บริการเหล่านี้อาจเร็วกว่าและไม่ต้องใช้เทคนิคมากนัก แต่เป็นบริการแบบเสียเงินและอาจมีข้อจำกัดด้านการควบคุมอย่างละเอียด

บันทึกการปฏิบัติเกี่ยวกับความสมจริง

ความสมจริงที่สมบูรณ์แบบมักต้องใช้การแสดงออกเล็กๆ น้อยๆ การกระพริบตา และการเคลื่อนไหวศีรษะ โดยบริการลิปซิงค์บางบริการจะเพิ่มสิ่งเหล่านี้ให้โดยอัตโนมัติ ในขณะที่บริการอื่นๆ จำเป็นต้องปรับแต่งด้วยตนเอง
หากตัวละครได้รับการออกแบบให้มีสไตล์ (ไม่ใช่ภาพเหมือนจริง) ข้อผิดพลาดเล็กๆ น้อยๆ จากการลิปซิงค์จะสังเกตเห็นได้น้อยลง สำหรับภาพระยะใกล้ ควรใช้เวลาในการปรับแต่ง DAW + การปรับแต่งใบหน้า

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

ใช้วิดีโอ MidJourney ใน CometAPI

โคเมทเอพีไอ เสนอราคาต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ API กลางการเดินทาง และ API วิดีโอ Midjourneyยินดีต้อนรับสู่การลงทะเบียนและสัมผัสประสบการณ์ CometAPI เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว CometAPI รองรับความละเอียด SD 480P และ HD 720P

วิธีการโทร: ใช้พารามิเตอร์ videoType=vid_1.1_i2v_720

วิดีโอ Midjourney V1รุ่น: นักพัฒนาสามารถบูรณาการการสร้างวิดีโอผ่าน RESTful API โครงสร้างคำขอทั่วไป (ตัวอย่าง)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

รุ่นเสียง

นักพัฒนาสามารถเข้าถึง GPT 4o audio และ tts-1 ได้ผ่าน CometAPI ซึ่งเป็นรุ่นใหม่ล่าสุด (จุดสิ้นสุด：gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) จะได้รับการอัปเดตอยู่เสมอจากเว็บไซต์อย่างเป็นทางการ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API เสียง สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

สรุป

การเพิ่มเสียงและเสียงลงในวิดีโอ Midjourney นั้นง่ายมาก: สร้างคลิป Midjourney สั้น ๆ สังเคราะห์คำบรรยายสั้น ๆ ด้วย TTS ที่บังคับเลี้ยวได้ของ OpenAI จากนั้นรวมและปรับแต่งโดยใช้ ffmpeg. ใหม่ gpt-4o-mini-tts โมเดลนี้ช่วยให้คุณควบคุมสไตล์ได้อย่างแข็งแกร่ง ในขณะที่ Midjourney --video เวิร์กโฟลว์สร้างแอนิเมชั่นสั้น ๆ ที่สะอาด สมบูรณ์แบบสำหรับงานโซเชียล ต้นแบบ หรือแนวคิด

“Midjourney Video” คืออะไรกันแน่ และทำไมจึงต้องใช้เสียงจากภายนอก?

วิดีโอของ Midjourney ผลิตในปัจจุบัน

กฎและข้อจำกัดพื้นฐานของวิดีโอ Midjourney มีอะไรบ้าง?

ทำไมคุณควรเพิ่มเสียง ดนตรี และเอฟเฟกต์พิเศษ

ขั้นตอนการทำงานที่ง่ายที่สุดในการเพิ่มเสียงลงในวิดีโอ MidJourney คืออะไร

สูตรอาหารย่อหน้าเดียวแบบรวดเร็ว

เหตุใดการแยกภาพและเสียงจึงมีความสำคัญ

ฉันควรสร้างคำเตือน Midjourney สำหรับวิดีโออย่างไร

ฉันควรพิจารณาโมเดล OpenAI TTS แบบใด และทำไม?

ตัวเลือก TTS ที่มีอยู่ตอนนี้มีอะไรบ้าง?

ข้อควรระวังในการผลิตหรือข้อจำกัดปัจจุบันใดๆ หรือไม่

เครื่องมือตัวเลือกอื่น

ฉันจะสร้างไฟล์เสียงด้วย TTS (โค้ดปฏิบัติ) ของ OpenAI ได้อย่างไร

ตัวอย่าง A — รวดเร็ว `curl` (บรรทัดคำสั่ง)

ตัวอย่าง B: Python ใช้การร้องขอ

ฉันจะรวมเสียง TTS กับไฟล์วิดีโอ MidJourney ได้อย่างไร

ส่งออกวิดีโอจาก MidJourney

ผสานง่ายๆ ด้วย ffmpeg

ตัดแต่งหรือแพดเสียงให้มีความยาวเท่ากับความยาวของวิดีโอ

วิธีการชดเชยเสียง (หากจำเป็นต้องเริ่มการบรรยายในภายหลัง)

วิธีมิกซ์เพลงประกอบ + เสียงบรรยาย + เสียงเอฟเฟกต์

การแก้ไขขั้นสูง

บทและจังหวะ

จับคู่การเคลื่อนไหว ความเข้มข้น และพื้นผิว

สไตล์เสียงพวงมาลัย

เคล็ดลับการออกแบบเสียง

ฉันสามารถทำให้ตัวละครในวิดีโอ MidJourney “พูด” (ลิปซิงค์) กับเสียงที่สร้างขึ้นได้หรือไม่

ใช้เครื่องมือเปิดเช่น Wav2Lip (ภายในเครื่องหรือโฮสต์)

ใช้ API เชิงพาณิชย์สำหรับการลิปซิงค์แบบขั้นตอนเดียว

บันทึกการปฏิบัติเกี่ยวกับความสมจริง

เริ่มต้นใช้งาน

ใช้วิดีโอ MidJourney ใน CometAPI

รุ่นเสียง

สรุป

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

วิธีเพิ่มเสียงและเสียงลงในวิดีโอ Midjourney

“Midjourney Video” คืออะไรกันแน่ และทำไมจึงต้องใช้เสียงจากภายนอก?

วิดีโอของ Midjourney ผลิตในปัจจุบัน

กฎและข้อจำกัดพื้นฐานของวิดีโอ Midjourney มีอะไรบ้าง?

ทำไมคุณควรเพิ่มเสียง ดนตรี และเอฟเฟกต์พิเศษ

ขั้นตอนการทำงานที่ง่ายที่สุดในการเพิ่มเสียงลงในวิดีโอ MidJourney คืออะไร

สูตรอาหารย่อหน้าเดียวแบบรวดเร็ว

เหตุใดการแยกภาพและเสียงจึงมีความสำคัญ

ฉันควรสร้างคำเตือน Midjourney สำหรับวิดีโออย่างไร

ฉันควรพิจารณาโมเดล OpenAI TTS แบบใด และทำไม?

ตัวเลือก TTS ที่มีอยู่ตอนนี้มีอะไรบ้าง?

ข้อควรระวังในการผลิตหรือข้อจำกัดปัจจุบันใดๆ หรือไม่

เครื่องมือตัวเลือกอื่น

ฉันจะสร้างไฟล์เสียงด้วย TTS (โค้ดปฏิบัติ) ของ OpenAI ได้อย่างไร

ตัวอย่าง A — รวดเร็ว curl (บรรทัดคำสั่ง)

ตัวอย่าง B: Python ใช้การร้องขอ

ฉันจะรวมเสียง TTS กับไฟล์วิดีโอ MidJourney ได้อย่างไร

ส่งออกวิดีโอจาก MidJourney

ผสานง่ายๆ ด้วย ffmpeg

ตัดแต่งหรือแพดเสียงให้มีความยาวเท่ากับความยาวของวิดีโอ

วิธีการชดเชยเสียง (หากจำเป็นต้องเริ่มการบรรยายในภายหลัง)

วิธีมิกซ์เพลงประกอบ + เสียงบรรยาย + เสียงเอฟเฟกต์

การแก้ไขขั้นสูง

บทและจังหวะ

จับคู่การเคลื่อนไหว ความเข้มข้น และพื้นผิว

สไตล์เสียงพวงมาลัย

เคล็ดลับการออกแบบเสียง

ฉันสามารถทำให้ตัวละครในวิดีโอ MidJourney “พูด” (ลิปซิงค์) กับเสียงที่สร้างขึ้นได้หรือไม่

ใช้เครื่องมือเปิดเช่น Wav2Lip (ภายในเครื่องหรือโฮสต์)

ใช้ API เชิงพาณิชย์สำหรับการลิปซิงค์แบบขั้นตอนเดียว

บันทึกการปฏิบัติเกี่ยวกับความสมจริง

เริ่มต้นใช้งาน

ใช้วิดีโอ MidJourney ใน CometAPI

รุ่นเสียง

สรุป

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ตัวอย่าง A — รวดเร็ว `curl` (บรรทัดคำสั่ง)