Midjourney가 비디오 제작 분야에 진출한 것은 매우 흥미로운 일입니다. 정지 이미지를 짧고 반복 가능한 애니메이션 클립으로 변환하여 스토리텔링과 모션 기반 콘텐츠 제작의 문을 열어줍니다. 하지만 Midjourney가 완성도 높은 내장 오디오 트랙을 제공하기 전까지(만약 출시된다면), 크리에이터는 AI 오디오 도구와 기존 편집기를 활용하여 무음 비디오 출력에 오디오를 스티칭해야 합니다. 이 글에서는 현재 상황(도구, 워크플로, 팁, 법적 규제)을 설명하고, Midjourney 비디오 클립에 음성과 사운드를 추가하는 단계별 제작 워크플로를 제공합니다.
"미드저니 비디오"란 정확히 무엇이고, 왜 외부 오디오가 필요한가요?
Midjourney의 비디오 기능이 현재 생성하는 내용
Midjourney의 비디오 기능은 생성되거나 업로드된 이미지를 짧은 애니메이션 클립(초기 5초, 길이 조절 가능)으로 변환하여 동기화된 오디오나 립싱크 대사가 아닌, 모션과 카메라/피사체 움직임을 강조합니다. 이 도구는 완성된 시청각 내러티브가 아닌, 시각적으로 풍부한 짧은 루프를 생성하도록 설계되었습니다. 즉, 내보내는 모든 Midjourney 비디오는 무음이며, 움직이는 이미지 그 이상의 효과를 얻으려면 후반 작업에서 오디오와 함께 사용해야 합니다.
Midjourney 비디오의 기본 규칙과 제한 사항은 무엇입니까?
Midjourney의 비디오 기능은 시작 이미지를 짧은 애니메이션 클립(기본 5초)으로 변환합니다. 최대 21초까지 길이를 늘리고, "낮음" 또는 "높음" 모션을 선택하고, 반복 재생하고, 배치 크기를 변경할 수 있습니다. 비디오는 다음과 같이 다운로드할 수 있습니다. .mp4 그리고 Midjourney는 다음을 노출합니다. --video 매개변수(및 --motion low|high, --loop, --end, --bs #, --raw --end및 --bs 매개변수는 다음과 같습니다. Midjourney 공식 문서) Discord 또는 API 프롬프트용입니다. 해상도는 SD(480p)이며, HD(720p)입니다. 배치 크기와 모션 설정은 GPU 시간과 비용에 영향을 미칩니다.
실용적인 요점: 중간 여정 클립은 짧으므로(5~21초) 그 범위에 맞게 내레이션과 오디오를 계획하거나 여러 클립을 연결할 준비를 하세요. 다운로드 원시 비디오(.mp4) 후반작업에서 최상의 품질을 얻으려면 Midjourney의 Create 페이지를 참조하세요.
음성, 음악 및 SFX를 추가해야 하는 이유
오디오 추가:
- 맥락과 내러티브(내레이션)를 제공하여 추상적인 시각적 표현을 전달력 있게 만들어줍니다.
- 감정적 분위기(음악 선택)를 설정하고 시청자 유지율을 향상시킵니다.
- AI 비주얼을 현실감 있게 구현합니다(사운드 디자인, 폴리, 앰비언트 베드).
- 오디오가 필수적인 TikTok, YouTube 또는 릴에 적합한 콘텐츠 플랫폼을 만들어줍니다.
MidJourney 비디오에 음성과 사운드를 추가하는 가장 간단한 워크플로는 무엇입니까?
간단한 한 단락 레시피
- MidJourney에서 시각적 비디오나 애니메이션 프레임을 생성합니다(갤러리 → 애니메이션/비디오 기능).
- 제작된 비디오(MP4/GIF)를 내보내거나 다운로드합니다.
- OpenAI의 TTS를 사용하여 음성 해설을 제작합니다(예:
gpt-4o-mini-tts또는 다른 TTS 모델)로 변환하여 WAV/MP3로 내보낼 수 있습니다. - AI 오디오 도구(MM Audio, Udio, Runway 등의 도구가 도움이 될 수 있음)를 사용하여 배경 음악과 음향 효과를 만듭니다.
- DAW(Reaper, Audacity, Logic 또는 직접 병합을 위해 ffmpeg 사용)에서 정렬하고 믹싱합니다.
- 비디오에 얼굴이 포함되어 있고 입 모양을 음성과 일치시키려는 경우 선택적으로 AI 립싱크를 실행합니다(Wav2Lip, Sync.so 및 상용 서비스).
이러한 분리(시각적 vs. 청각적)가 중요한 이유
MidJourney는 시각적 창의성과 모션 디자인에 중점을 두는 반면, 오디오 디자인은 음성 생성, 오디오 디자인, 동기화 등 다른 기술 스택입니다. 각 작업을 분리하면 음성 캐릭터, 페이싱, 사운드 디자인, 마스터링 등 시각적 생성기와 씨름하지 않고도 훨씬 더 세밀한 제어가 가능합니다.
영상의 Midjourney 프롬프트를 어떻게 만들어야 하나요?
갤러리의 모든 이미지에서 비디오를 만들거나 공개적으로 호스팅된 이미지 URL을 Imagine 막대에 붙여넣고 다음을 추가하여 비디오를 만들 수 있습니다. --video 매개변수(Discord 또는 API)를 생성합니다. 생성 후 Midjourney Create 페이지 또는 Discord에서 MP4(Raw 또는 Social 버전)를 직접 다운로드할 수 있습니다.
업로드된 이미지를 시작 프레임으로 사용하는 간단한 Discord 스타일 예:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
배송 시 요청 사항:
- 시작 프레임으로 사용하려면 이미지 URL을 시작 부분에 넣으세요.
- 추가
--video그리고 모션 플래그(--motion lowor--motion high). --bs 1단일 출력만 필요한 경우(GPU 시간 절약).--raw덜 양식화하고 더 결정적인 움직임을 원한다면.
비디오가 원하는 내레이션보다 짧으면 Midjourney에서 비디오를 연장하거나(확장당 최대 +4초, 총 21초까지 연장 가능) 오디오를 잘라내거나 반복해서 길이에 맞게 조정하세요. 내레이션과 음향 효과를 정렬할 수 있도록 정확한 길이(초 + 밀리초)를 기록해 두세요. Midjourney는 '만들기' 페이지와 Discord에서 "원본 비디오 다운로드" 옵션을 제공하며, 이를 시작 파일로 사용하세요.
어떤 OpenAI TTS 모델을 고려해야 하며, 그 이유는 무엇입니까?
현재 사용 가능한 TTS 옵션은 무엇입니까?
OpenAI는 여러 TTS 옵션을 제공합니다. tts-1 / tts-1-hd 그리고 새로운 조종 가능 gpt-4o-mini-tts. 그만큼 gpt-4o-mini-tts 이 모델은 조정 가능성(톤, 페이싱, 감정을 지시할 수 있음)을 강조하며 유연하고 표현력 있는 음성 생성을 위해 설계되었습니다. tts-1 및 tts-1-hd 고품질의 보다 전통적인 TTS를 위한 강력한 선택으로 남아 있습니다. 사용하세요 gpt-4o-mini-tts 당신이 제어하고 싶을 때 방법 텍스트는 말로 표현됩니다(스타일, 분위기) tts-1-hd 스타일 제어가 덜 중요할 때 최대 충실도를 위해 penAI는 오디오 모델(2025년 확장된 음성 및 필사 기능 발표)을 계속 반복해 왔으므로 프로젝트에 대한 비용, 품질 및 제어의 균형을 이루는 모델을 선택하십시오. TTS 모델 API도 통합되어 있습니다. 코멧API.
생산상의 제한 사항이나 현재 제한 사항이 있나요?
gpt-4o-mini-tts 특히 1.52분 이상 긴 오디오 파일에서는 불안정함(일시 정지, 볼륨 변동)이 나타날 수 있습니다. 짧은 Midjourney 클립(2030초 미만)에서는 거의 문제가 되지 않지만, 긴 내레이션이나 장문 음성 해설의 경우 테스트하고 검증하는 것이 좋습니다. 긴 내레이션을 기대한다면 tts-1-hd 또는 텍스트를 짧은 덩어리로 나누고 조심스럽게 꿰매세요.
다른 옵션 도구
배경음악 및 음향효과: MM Audio(커뮤니티 도구), Udio, MagicShot, Runway와 같은 도구를 사용하면 어울리는 배경 음악과 상황에 맞는 음향 효과를 빠르게 제작할 수 있습니다. 커뮤니티 스레드와 튜토리얼에서는 제작자들이 이러한 도구를 MidJourney 영상에 혼합하는 방법을 보여줍니다. 프로덕션 수준의 컨트롤을 위해 스템(음악 + 앰비언트)을 생성하고 믹싱을 위해 내보낼 수 있습니다.
립싱크와 얼굴 애니메이션: 영상에 등장인물이나 얼굴 클로즈업이 포함되어 있고 사실적인 입 모양을 원한다면 Wav2Lip(오픈 소스)이나 Sync.so, Synthesia와 같은 상용 API 또는 기타 립싱크 서비스를 고려해 보세요. 이러한 도구는 오디오를 분석하여 음소에 맞춰 입 모양을 생성하고, 이를 대상 얼굴이나 프레임 시퀀스에 적용합니다.
OpenAI의 TTS(실용 코드)로 음성 파일을 생성하려면 어떻게 해야 하나요?
다음은 OpenAI의 TTS 엔드포인트를 사용하여 MP3(또는 WAV)를 생성하는 CometAPI 호출 형식의 두 가지 실제 예시입니다. CometAPI 계정 및 SDK 업데이트에 따라 음성 이름과 스트리밍 플래그를 조정할 수 있습니다.
⚠️ 교체
YOUR_CometAPI_API_KEYAPI 키로 테스트하세요. 먼저 짧은 문구로 테스트하세요.
CometAPI의 오디오 모델 DOC.
예시 A - 빠른 curl (명령줄)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
WAV를 선호하는 경우:
- 출력 파일 이름을 다음으로 변경하세요.
narration.wav, 그리고 (사용 가능한 경우) 본문에 오디오 형식 매개변수를 지정합니다(일부 SDK에서는 허용).format: "wav").
이것이 작동하는 이유 : TTS 엔드포인트는 텍스트를 입력받아 나중에 저장하고 비디오와 병합할 수 있는 바이너리 오디오 파일을 반환합니다. 사용 voice 및 instructions (가능한 경우) 운율과 스타일을 조정합니다.
예제 B: 요청을 사용하는 Python
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
TTS 오디오를 MidJourney 비디오 파일과 결합하려면 어떻게 해야 하나요?
MidJourney에서 비디오를 내보냅니다
MidJourney의 비디오/애니메이션 기능을 사용하면 MP4/GIF를 만들거나 갤러리에서 비디오를 내보낼 수 있습니다. 로컬 파일을 얻으려면 "애니메이션" 기능이나 갤러리 내보내기 옵션을 사용하세요.
ffmpeg로 간단히 병합
이미 가지고 계시다면 video.mp4 (오디오 없음 또는 플레이스홀더) 및 voiceover.wav (또는 mp3)의 경우 ffmpeg를 사용하여 병합합니다.
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
배송 시 요청 사항:
-shortest짧은 스트림에서 멈춥니다. 비디오를 오디오보다 더 길게 재생하려면 생략합니다(또는 그 반대).-c:v copy비디오 스트림을 변경하지 않습니다.-c:a aac오디오를 AAC로 인코딩합니다(MP4와 호환).-af "volume=...라우드니스 매칭을 위한 필터.- 전문적인 마무리 작업을 위해 DAW에서 오디오 스템을 열어 타이밍, EQ, 압축을 조정합니다.
정확한 비디오 길이에 맞게 오디오를 트리밍하거나 패딩합니다.
오디오가 비디오보다 길고 정확한 자르기를 원하는 경우:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
오디오가 짧고 나머지 부분을 채우거나 음성을 반복하는 배경 음악을 원할 경우 다음을 사용하세요. adelay, apad또는 배경 트랙과 믹싱합니다. 예: 20초 클립에 맞춰 내레이션을 반복합니다(음성에는 일반적으로 권장하지 않음):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
오디오 오프셋 방법(나중에 내레이션을 시작해야 하는 경우)
짧은 침묵 후에 내레이션을 시작해야 하거나 오프셋에 배치할 세그먼트가 여러 개 있는 경우 다음을 사용하세요. -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 두 번째 입력을 0.5초 지연시킵니다.
여러 오디오 트랙이나 매우 정확한 배치를 위해 사용하세요. -filter_complex 과 adelay TTS를 작은 세그먼트(파일당 한 문장)로 생성한 후:
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
여기에 adelay 밀리초(2500ms = 2.5초)가 걸리므로 텍스트를 시각적 신호에 정확하게 맞출 수 있습니다.
내레이션은 짧고 장면을 잘 살릴 수 있도록 하세요. Midjourney의 영상은 짧고 스타일리시한 경우가 많으므로 영상의 템포에 맞는 간결한 도입부(약 5~15초)를 사용하는 것이 좋습니다. 텍스트를 시각적인 컷이나 모션 큐에 맞춰 짧은 문장으로 나누세요.
배경음악 + 내레이션 + 음향효과 믹싱 방법
filter_complex 여러 오디오 입력을 믹싱하고 볼륨을 조절합니다. 예:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
이것은 내레이션을 혼합합니다(narration.mp3)과 음악 (music.mp3) 음악 레벨을 낮게 설정하여 음성 아래에 위치하도록 합니다. 사이드체인 필터를 사용하여 다이나믹 더킹(내레이션 재생 시 음악이 페이드 아웃되는 효과)을 적용하거나 DAW에서 편집하여 정밀한 페이드 아웃 효과를 적용할 수도 있습니다.
고급 편집
대본과 페이싱
- 간결한 스크립트를 작성하고 시각적 신호(타임코드나 프레임 번호)를 표시하여 TTS 출력이 장면 변화에 맞춰 정렬되도록 합니다.
- 더 자연스러운 리듬을 위해 짧은 문장을 사용하세요. 긴 내용이 필요하다면 의도적으로 잠깐 멈추거나 여러 개의 TTS 통화로 나누세요.
동작, 강도, 질감을 일치시키세요
- 일시적인 SFX를 사용해 시각적 컷이나 카메라 움직임을 강조합니다.
- 느리고 그림 같은 Midjourney 모션을 위해 (
--motion low), 미묘한 분위기와 긴 리버브 테일을 선호합니다. - 높은 액션을 위해 (
--motion high), 강렬한 SFX, 템포에 맞는 음악적 히트곡, 짧은 리버브를 사용합니다.
스티어링 음성 스타일
지시적 메시지를 사용하여 조종하세요 gpt-4o-mini-tts — 예를 들어, "instructions": "Calm, conversational, slight warmth, medium speed" 또는 해당 지침을 텍스트 페이로드의 일부로 포함합니다. 예:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
주의: 정확한 매개변수 이름은 SDK 버전마다 다릅니다. SDK가 지원하는 필드를 테스트하세요.
사운드 디자인 팁
- 볼륨이 낮은 베드 트랙(음악)을 추가하고 음성 중에 사이드체인하거나 덕킹합니다.
- 시각적 전환에 맞춰 짧은 쉬익 소리, 라이저 소리 또는 강렬한 음향 효과를 사용하세요. 음향 효과는 짧고 명확하게 유지하세요.
- 플랫폼 전반에 걸쳐 일관된 음량을 위해 음성을 정규화(-1 dBFS)하고 가볍게 압축(비율 2:1)합니다.
- 소셜 플랫폼의 경우 호환성을 위해 최종 비디오를 AAC-LC 오디오와 H.264 비디오로 인코딩합니다.
MidJourney 비디오 속 캐릭터가 생성된 음성에 맞춰 "말"(립싱크)하도록 할 수 있나요?
네, 립싱크 모델을 사용하여 TTS 오디오의 음소를 입 모양 프레임에 매핑합니다. 두 가지 일반적인 접근 방식은 다음과 같습니다.
Wav2Lip(로컬 또는 호스팅)과 같은 오픈 도구를 사용하세요.
Wav2Lip은 음성 오디오를 입 모양에 맞춰 정렬하며, 로컬 또는 호스팅된 GUI를 통해 실행할 수 있습니다. 일반적인 워크플로는 다음과 같습니다.
- MidJourney에서 비디오나 일련의 프레임(이미지 시퀀스)을 내보냅니다.
- 음성 파일(OpenAI TTS)을 생성합니다.
- Wav2Lip을 실행하여 입 모양이 오디오와 일치하는 새로운 비디오를 출력합니다.
Wav2Lip은 1:1 입 정렬에 매우 적합하며 오픈 소스입니다. 시각적으로 다듬기 위해 약간의 후처리가 필요할 수 있습니다.
원스텝 립싱크를 위해 상용 API를 사용하세요
Sync.so, Synthesia 등의 서비스는 음성 및 립싱크/더빙을 모두 처리하는 API/GUI 파이프라인을 제공하며, 경우에 따라 다국어 더빙도 지원합니다. 이러한 서비스는 더 빠르고 기술적인 측면이 덜하지만, 유료 서비스이므로 세밀한 제어가 제한될 수 있습니다.
현실주의에 대한 실용적인 노트
- 완벽한 사실감을 구현하려면 미세 표정, 눈 깜박임, 머리 움직임이 필요한 경우가 많습니다. 일부 립싱크 서비스에서는 이러한 요소를 자동으로 추가하지만, 수동 조정이 필요한 서비스도 있습니다.
- 캐릭터가 양식화되어 있으면(사실적이지 않으면) 작은 립싱크 오류는 눈에 띄지 않습니다. 클로즈업의 경우 DAW와 얼굴 보정 파이프라인에 시간을 투자하세요.
시작 가이드
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
CometAPI에서 MidJourney 비디오 사용
코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다. 중간 여정 API 및 Midjourney 비디오 API, CometAPI에 등록하고 체험해 보세요. 시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 여기를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 받았는지 확인하세요. CometAPI는 SD 480P 및 HD 720P 해상도를 지원합니다.
호출 방법: videoType=vid_1.1_i2v_720 매개변수를 사용하세요.
Midjourney V1 비디오세대: 개발자는 RESTful API를 통해 비디오 생성 기능을 통합할 수 있습니다. 일반적인 요청 구조(예시)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
오디오 모델
개발자는 CometAPI를 통해 GPT 4o 오디오 및 tts-1에 액세스할 수 있습니다. 이는 최신 모델 버전(엔드포인트:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1)는 공식 웹사이트를 통해 항상 업데이트됩니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 오디오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.
결론
Midjourney 비디오에 음성과 사운드를 추가하는 것은 간단합니다. 짧은 Midjourney 클립을 생성하고 OpenAI의 조정 가능한 TTS로 짧은 내레이션을 합성한 다음 다음을 사용하여 결합하고 다듬습니다. ffmpeg. 새로운 gpt-4o-mini-tts 이 모델은 강력한 스타일 제어 기능을 제공하는 반면 Midjourney의 --video 워크플로는 깔끔하고 짧은 애니메이션을 제작합니다. 소셜, 프로토타입 또는 컨셉 작업에 적합합니다.


