Midjourney가 영상 영역으로 확장한 것은 2025년 가장 큰 크리에이티브 기술 이슈 가운데 하나였다. 이미지 중심 도구로 사랑받아 온 Midjourney는 정지 이미지를 짧은 애니메이션 클립으로 바꾸는 “Image-to-Video” 워크플로를 추가했으며, 시스템은 빠르게 진화하고 있다.
Midjourney의 비디오 기능은 “Animate” 플로우를 통해 단일 이미지를 짧은 클립으로 애니메이션화하는 이미지-투-비디오 워크플로로, 기본적으로 5초 분량의 클립을 생성하며 ~21초까지 연장이 가능하다. 이 기능은 2025년 중반에 Midjourney의 V1 비디오 모델로 공개되었고, CometAPI의 Midjourney Video V1 API를 통해 사용할 수 있다.
Midjourney V1란?
Midjourney V1의 기능과 사용자 제공 방식
Midjourney의 V1 비디오 모델은 단일 정지 이미지(내부에서 생성했거나 외부에 호스팅된 이미지)를 자동 또는 수동 애니메이션 모드와 모션 강도 플래그(--motion low / --motion high)를 사용하여 기본 약 5초 길이의 짧은 애니메이션 클립으로 변환한다. 사용자는 4초 단위로 클립을 확장할 수 있으며(~21초까지), 배치 크기, 루프, 엔드 프레임을 제어할 수 있다. 비디오 출력은 MP4이다. Midjourney의 V1 Video 모델은 짧고 스타일라이즈된, 루프 가능한 클립에 최적화된 이미지-투-비디오 모델이다. V1 모델의 일반적인 특성은 다음과 같다:
- 기본 클립 길이 ~5초, 제어 가능한 연장 메커니즘(4초 단위, 문서화된 한도까지).
- 소스 이미지의 예술적 스타일(붓 터치, 색감, 무드) 보존에 중점.
- 빠른 반복을 위한 해상도/품질 트레이드오프; V1은 풀 시네마틱 출력보다는 소셜 및 웹 콘텐츠 지향.
이러한 제약은 에셋과 프롬프트 설계 방식에 영향을 준다. V1은 장면 길이가 긴 시퀀스보다 간결한 모션, 애니메이티드 스틸, 제품 히어로 루프, 짧은 캐릭터 튠 등에 가장 적합하다.
CometAPI가 Midjourney Video 모델을 제공하는 방식
CometAPI는 단일 REST 인터페이스 뒤에서 수백 개의 AI 모델(텍스트, 이미지, 오디오, 그리고 이제 이미지-투-비디오)에 대한 액세스를 집계하는 멀티 모델 게이트웨이다. CometAPI의 Midjourney Video 제공은 Midjourney의 V1 Video 기능을 래핑하여 엔지니어가 Discord/웹 상호작용에만 의존하지 않고 프로그램적으로 이미지-투-비디오 생성을 호출할 수 있게 한다. 이는 크리에이티브 파이프라인 자동화, PoC 구축, 앱이나 콘텐츠 제작 워크플로에 짧은 애니메이티드 에셋을 통합하는 데 유용하다.
CometAPI의 Midjourney Video는 개발자가 인증을 수행하고, /mj/submit/video 엔드포인트를 호출하며, 시작 이미지 URL을 포함할 수 있는 prompt, videoType(예: vid_1.1_i2v_480), mode(fast/relax), animateMode(automatic/manual) 등의 파라미터를 전달할 수 있게 한다. CometAPI는 Midjourney의 Discord 중심 워크플로를 직접 연동하는 것과 비교해 단일 API 키와 REST 인터페이스라는 편의성과 더 낮은 호출 단가를 제공한다.
API 호출 전에 무엇을 준비해야 하나요?
어떤 자격 증명과 계정이 필요한가요?
- CometAPI에 가입하고 계정 대시보드에서 API 키를 생성한다(CometAPI는
sk-xxxxx와 같은 베어러 토큰을 사용). - 외부 이미지를 시작 프레임으로 사용할 계획이라면 이미지 에셋이 온라인에서 접근 가능(공개 접근 가능한 URL)한지 확인한다. Midjourney는 외부 이미지→비디오 워크플로를 위해 도달 가능한 URL을 필요로 한다.
사전에 결정할 사항
- 시작 이미지 — 피사체와 구도가 명확한 이미지를 선택한다; 가로세로비는 최종 비디오의 해상도/화면비에 영향을 준다(Midjourney는 시작 가로세로비를 SD/HD 픽셀 크기에 매핑함).
- 모션 스타일 — Low 대 High 모션(
--motion lowvs--motion high)을 정하고, 카메라/피사체 모션을 자동 추론할지 수동으로 제어할지 결정한다. - 길이 및 배치 크기 — 기본은 5초; ~21초까지 확장 가능. 배치 크기는 기본 4(Midjourney가 4개 변형을 반환)이며, 연산 비용을 절약하려면 1 또는 2로 요청할 수 있다.
- 해상도 — V1은 기본적으로 SD(480p)가 중심; HD(720p)는 파라미터 지정을 필요로 하며, 예: vid_1.1_i2v_480.
CometAPI의 Midjourney 비디오 엔드포인트를 호출하는 방법(단계별 예시)
최소 요청 페이로드는 무엇인가요?
최소한 다음을 전송한다:
prompt: 시작 이미지 URL과 선택적 텍스트 모션 프롬프트(예:" add a dog running from left to right").videoType: 예:vid_1.1_i2v_480.mode:"fast"(또는 요금제에서 허용되는 경우"relax").animateMode:"automatic"또는"manual".
다음은 POST to[ 보여주는 샘플 curl이다. 아래는 CometAPI의 예시를 정리한, 복사해 바로 사용할 수 있는 curl 예시:
curl --location --request POST ' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": " A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Python 예시(requests)
Python을 선호한다면, 비디오 작업을 제출하고 완료를 폴링하는 requests 기반의 간단한 예시가 있다(플레이스홀더를 교체). 실무에서는 제출 → 폴링 → 다운로드 패턴을 앱의 비동기/잡 시스템에 맞게 조정하라. 아래 예시는 의도적으로 단순화되어 있다.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": " A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
Midjourney/CometAPI 비디오에 오디오(보이스, 음악, 효과음)를 어떻게 추가하나요?
Midjourney가 기본적으로 오디오를 생성하나요?
아니요 — V1 시점에서 Midjourney의 비디오 출력은 무음(MP4에 오디오 트랙 없음)이다. 사용자는 외부에서 사운드를 추가한다. (오디오/비디오를 함께 생성하는 다른 AI 시스템도 있지만, Midjourney V1은 시각적 모션에 집중한다.)
보이스와 사운드를 추가하는 권장 파이프라인
- 텍스트-음성 변환(TTS)으로 내레이션/보이스 — ElevenLabs, Replica 등 보이스 클로닝/TTS 서비스를 사용해 스크립트에서 음성 트랙을 생성한다. 이러한 서비스는 자연스러운 화법을 제공하며 분당 비용도 낮은 편이다. (LinkedIn/커뮤니티 포스트에서는 가벼운 보이스 작업용으로 ElevenLabs를 자주 추천한다.)
- AI 오디오 디자인 도구로 음악/SFX — MM Audio, Magicshot 같은 도구 또는 특화된 SFX 생성기를 통해 클립에 맞는 배경 앰비언스와 효과음을 생성할 수 있다. 커뮤니티 가이드와 튜토리얼은 MM Audio 등 오디오 AI에서 우수한 품질을 보여준다.
- 수동 DAW/에디터 접근(정밀 제어) — 생성된 MP4를 DaVinci Resolve / Premiere / Audacity에 임포트하여 TTS 음성, 효과음을 추가하고 믹스한다. 정확한 립싱크와 타이밍에는 이 방법이 최적이다. 커뮤니티 튜토리얼과 YouTube 가이드는 Midjourney 비디오에 오디오를 맞추는 단계별 절차를 제공한다.
빠른 예: ffmpeg로 오디오와 비디오 결합
무음 비디오 파일(video.mp4)과 TTS 음성 파일(speech.mp3)이 준비되어 있다고 가정하면:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
더 복잡한 믹스(배경 음악 + 대사 + 효과음)의 경우, DAW에서 단일 믹스드 오디오 트랙을 렌더링한 뒤 위와 같이 비디오에 멀티플렉싱하면 된다.
애니메이션을 제어하는 모션 프롬프트는 어떻게 작성하나요?
모션 프롬프트 패턴
Midjourney V1의 모션 프롬프트는 자연어 중심이다. 다음 패턴이 유용하다:
- 방향/동작: “카메라를 왼쪽으로 돌리 이동시키는 동안 피사체가 앞으로 걸어간다”
- 물체 모션: “나뭇잎이 나무에서 떨어져 카메라 쪽으로 흩날린다”
- 카메라 지시: “천천히 줌 인, 살짝 패럴럭스, 2배 속도”
- 시간적 특성: “미묘한 모션, 루프 가능, 시네마틱 리듬”
간결한 모션 문장으로 시작한 뒤, 스타일과 타이밍을 수식어로 덧붙인다. 예: "start_frame_url animate: '느린 나선형 카메라, 피사체가 부드럽게 위아래로 움직임, 루프 가능', style: '필름 그레인, 시네마틱, 2 fps 템포'". 실험과 소규모 반복이 핵심이다.
수동 vs 자동 애니메이션
- 자동: 모델이 그럴듯한 모션을 추론하도록 둔다. 빠른 실험에 최적.
- 수동: 일관되고 재현 가능한 결과를 위해 명시적인 카메라 경로와 피사체 벡터를 제공한다 — 예측 가능한 안무가 필요하거나 실사 영상과 매칭해야 할 때 유용.
비디오를 연장하고 배치 크기를 변경하거나 루프를 만들려면?
비디오 길이 연장
생성 후 Midjourney(및 CometAPI 같은 래퍼)는 "Extend" 컨트롤을 제공한다. Midjourney UI에서는 5초 클립을 한 번에 4초씩(~21초까지) 연장할 수 있다. 프로그램적으로는 동일 엔드포인트를 extend 플래그와 함께 호출하거나 원본 클립을 참조하는 새로운 extend 작업을 제출한다(CometAPI 문서에는 파라미터화된 엔드포인트와 버튼이 개요에 제시되어 있다). 연장 비용은 초기 생성과 유사하게 예상하라.
루프 비디오 만들기 또는 엔드 프레임 지정
- 루프를 위해 시작 프레임을 엔드 프레임으로 재사용하거나
--loop파라미터를 추가한다. - 다른 엔드 프레임을 원한다면 또 다른 이미지 URL을 제공한다(
end로). 가로세로비가 호환되어야 한다. Midjourney는--end파라미터를 지원한다. 연장을manual로 사용해 연속성을 위해 프롬프트를 중간에 조정하는 것을 고려하라.
배치 크기와 비용 제어
Midjourney는 기본적으로 여러 변형(배치 크기 4)을 생성한다. 프로덕션이나 비용 민감한 흐름에서는 bs:1로 설정해 연산을 줄인다. Midjourney 문서에는 SD/HD 및 서로 다른 배치 크기에 대한 GPU 시간 추정이 포함되어 있어 비용 예측에 유용하다. CometAPI는 경쟁력 있는 가격을 제공한다.
결론
Midjourney의 V1 Video 모델은 프로그래머블 비디오로의 첫 공개 단계로, 보수적으로 설계되었지만 가능성이 크다. 더 긴 시퀀스, 더 높은 충실도, 더 통제 가능한 카메라 리그 등 점진적 모델 업데이트가 기대된다. CometAPI는 집계자 역할을 통해 여러 공급자별 인증과 동시성 특이점을 다루지 않고도 Midjourney 비디오를 앱에 추가하려는 개발자의 통합 장벽을 낮춘다.
개발자는 CometAPI를 통해 MIdjourney Video API에 접근할 수 있다. 시작하려면 CometAPI의 Playground에서 모델 기능을 탐색하고, 자세한 지침은 API 가이드를 참고하라. 접근 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하라. 통합을 돕기 위해 CometAPI는 공식 가격보다 훨씬 낮은 가격을 제공한다.
준비되었나요?→ Midjourney 무료 체험!
