Midjourney가 영상 영역으로 확장한 것은 2025년 가장 큰 크리에이티브 테크놀로지 이야기 중 하나였습니다. 이미지 중심의 사랑받는 도구로 시작한 Midjourney는 정지 이미지를 짧은 애니메이션 클립으로 바꾸는 “Image-to-Video” 워크플로우를 추가했으며 — 시스템은 빠르게 발전하고 있습니다.
Midjourney의 비디오 기능은 “Animate” 플로우를 통해 단일 이미지를 짧은 클립으로 애니메이션화하는 이미지-투-비디오 워크플로우로, 기본적으로 5초 클립을 생성하고 최대 약 ~21초까지 확장할 수 있습니다. 이 기능은 2025년 중반에 Midjourney의 V1 비디오 모델로 출시되었으며 CometAPI의 Midjourney Video V1 API를 통해 사용할 수 있습니다.
What is Midjourney V1
Midjourney V1의 기능과 사용자에게 제공되는 방식
Midjourney의 V1 비디오 모델은 단일 정지 이미지(내부에서 생성된 이미지 또는 외부에 호스팅된 이미지)를 자동 또는 수동 애니메이션 모드와 모션 강도 플래그(--motion low / --motion high)를 사용해 기본 약 5초 길이의 짧은 애니메이션 클립으로 변환합니다. 사용자는 4초 단위로 클립을 확장(최대 ~21초)하고 배치 크기, 루프 및 엔드 프레임을 제어할 수 있으며 비디오 출력은 MP4입니다. Midjourney의 V1 Video 모델은 짧고 스타일화된 루프형 클립에 최적화된 image-to-video 모델입니다. V1 모델의 일반적인 특성은 다음과 같습니다:
- 기본 클립 길이는 약 ~5초이며, 제어된 확장 메커니즘(4초 단위, 문서화된 상한까지)을 제공합니다.
- 소스 이미지의 예술적 스타일(붓질, 색감, 분위기) 보존에 중점을 둡니다.
- 빠른 반복을 위한 해상도 및 품질 트레이드오프; V1은 풀 시네마틱 출력보다는 소셜 및 웹 콘텐츠 지향입니다.
이러한 제약은 에셋과 프롬프트를 설계하는 방식에 영향을 줍니다: V1은 긴 장면보다 간결한 모션, 애니메이션화된 스틸, 제품 히어로 루프, 짧은 캐릭터 튠에 가장 적합합니다.
CometAPI가 Midjourney Video 모델을 제공하는 방식
CometAPI는 단일 REST 인터페이스 뒤에서 수백 개의 AI 모델(텍스트, 이미지, 오디오, 그리고 이제 이미지-투-비디오)에 대한 액세스를 집계하는 멀티 모델 게이트웨이입니다. CometAPI의 Midjourney Video 제공은 Midjourney의 V1 Video 기능을 래핑하여 엔지니어가 Discord/웹 상호작용에만 의존하지 않고 프로그램적으로 이미지-투-비디오 생성을 호출할 수 있도록 합니다. 이는 크리에이티브 파이프라인 자동화, PoC 구축, 앱이나 콘텐츠 제작 워크플로우에 짧은 애니메이션 에셋을 통합하는 데 유용합니다.
CometAPI의 Midjourney Video는 개발자가 인증을 수행하고 /mj/submit/video 엔드포인트를 호출하여 prompt(시작 이미지 URL을 포함할 수 있음), videoType(예: vid_1.1_i2v_480), mode(fast/relax), animateMode(automatic/manual) 등의 매개변수를 전달할 수 있도록 합니다. CometAPI는 단일 API 키 + REST 인터페이스의 편의성과 호출당 더 낮은 가격을 제공하여 Midjourney의 Discord 중심 워크플로우를 직접 통합하는 것보다 유리합니다.
API를 호출하기 전에 어떻게 준비하나요?
어떤 자격 정보와 계정이 필요하나요?
- CometAPI에 가입하고 계정 대시보드에서 API 키를 생성합니다(CometAPI는
sk-xxxxx와 같은 베어러 토큰을 사용). - 외부 이미지를 시작 프레임으로 사용할 계획이라면 이미지 에셋이 온라인에 제공되어 있어야 합니다(공개적으로 접근 가능한 URL). Midjourney는 외부 이미지→비디오 워크플로우에 대해 도달 가능한 URL이 필요합니다.
사전에 결정해야 할 사항
- 시작 이미지 — 주제와 구도가 명확한 이미지를 선택하세요; 종횡비는 최종 비디오 해상도/종횡비에 영향을 줍니다(Midjourney는 시작 종횡비를 SD/HD 픽셀 크기에 매핑).
- 모션 스타일 — Low vs High 모션(
--motion lowvs--motion high)을 결정하고, 카메라/피사체 모션을 자동 추론으로 할지 수동 제어할지 선택합니다. - 길이 & 배치 크기 — 기본은 5초; 최대 약 ~21초까지 확장할 수 있습니다. 배치 크기는 기본 4(Midjourney는 4가지 변형을 반환)지만, 컴퓨트 절약을 위해 1 또는 2를 요청할 수 있습니다.
- 해상도 — V1은 기본적으로 주로 SD(480p)입니다; HD(720p)는 vid_1.1_i2v_480 등과 같은 파라미터 지정이 필요합니다.
CometAPI의 Midjourney 비디오 엔드포인트를 호출하는 방법(단계별 예시)
최소 요청 페이로드는 무엇인가요?
최소한 다음을 전송합니다:
prompt: 시작 이미지 URL과 선택적 텍스트 모션 프롬프트(예:"https://.../frame.png add a dog running from left to right").videoType: 예:vid_1.1_i2v_480.mode:"fast"(또는 요금제에서 허용되면"relax").animateMode:"automatic"또는"manual".
다음은 https://api.cometapi.com/mj/submit/video.에 POST하는 curl 샘플입니다. 아래는 CometAPI의 예시를 정리해 바로 복사해 사용할 수 있는 curl 예시입니다:
curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Python 예시(requests)
Python을 선호한다면, 비디오 작업을 제출하고 완료될 때까지 폴링하는 requests 기반의 견고한 예시가 있습니다(플레이스홀더를 교체하세요). 제출 → 폴링 → 다운로드는 실무에서 유용한 패턴입니다. 아래 예시는 의도적으로 단순하며, 프로덕션에서는 앱의 비동기/잡 시스템에 맞게 조정해야 합니다.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
Midjourney/CometAPI 비디오에 오디오(보이스, 음악, 효과음)를 어떻게 추가하나요?
Midjourney가 기본적으로 오디오를 생성하나요?
아니요 — V1 기준으로 Midjourney의 비디오 출력은 무음입니다(오디오가 내장되지 않은 MP4). 사용자가 외부에서 사운드를 추가합니다. (오디오/비디오를 함께 생성하는 다른 AI 시스템도 있지만, Midjourney의 V1은 시각적 모션에 집중합니다.)
권장 파이프라인(보이스 및 사운드 추가)
- 내레이션/보이스용 TTS — ElevenLabs, Replica 등의 보이스 클로닝/TTS 서비스를 사용해 스크립트로부터 음성 트랙을 생성합니다. 이러한 서비스는 자연스러운 음성 스타일을 제공하며 분당 낮은 비용인 경우도 있습니다. (LinkedIn/커뮤니티 포스트에서는 간편한 보이스 선택지로 ElevenLabs를 권장합니다.)
- 음악/SFX용 AI 오디오 디자인 도구 — MM Audio, Magicshot 또는 전문 SFX 생성기를 사용해 클립에 맞는 배경 앰비언스와 효과음을 만듭니다. 커뮤니티 가이드와 튜토리얼은 MM Audio 및 기타 오디오 AI의 우수한 품질을 보여줍니다.
- 수동 DAW/에디터 접근(정밀 제어) — 생성된 MP4를 DaVinci Resolve/ Premiere/ Audacity에 가져와 TTS 오디오, 효과음을 추가하고 믹싱합니다. 정밀한 립싱크와 타이밍이 필요할 때 가장 좋은 방법입니다. 커뮤니티 튜토리얼과 YouTube 워크스루에 오디오를 Midjourney 비디오에 맞추는 단계별 접근이 소개되어 있습니다.
빠른 예시: ffmpeg로 오디오 + 비디오 합치기
video.mp4(무음)와 speech.mp3(TTS)가 준비되었다고 가정:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
보다 고급 믹스(배경 음악 + 대사 + 효과음)의 경우, DAW에서 단일 믹스 오디오 트랙을 렌더링한 뒤 위와 같이 비디오에 멀티플렉싱하세요.
애니메이션을 제어하는 모션 프롬프트는 어떻게 작성하나요?
모션 프롬프트 패턴
Midjourney V1의 모션 프롬프트는 자연어 기반입니다. 유용한 패턴:
- 방향/액션: “카메라가 왼쪽으로 돌리 이동하고 피사체는 앞으로 걸어간다”
- 객체 모션: “나뭇잎이 나무에서 떨어져 카메라를 향해 흘러온다”
- 카메라 지시: “느리게 줌 인, 약한 패럴랙스, 2배 속도”
- 시간적 특성: “미묘한 모션, 루프 가능, 시네마틱 리듬”
간결한 모션 문장으로 시작한 다음, 스타일과 타이밍을 위한 형용사를 덧붙이세요: 예를 들어, "start_frame_url animate: '느린 나선형 카메라, 피사체가 부드럽게 흔들림, 루프 가능', style: '필름 그레인, 시네마틱, 2 fps 템포'". 실험과 작은 반복이 핵심입니다.
수동 vs 자동 애니메이션
- 자동: 모델이 그럴듯한 모션을 추론하도록 합니다. 빠른 실험에 적합합니다.
- 수동: 일관되고 반복 가능한 결과를 위해 명시적인 카메라 경로와 피사체 벡터를 제공합니다 — 예측 가능한 안무가 필요하거나 실사 영상과 매칭해야 할 때 유용합니다.
비디오 확장, 배치 크기 변경, 루프 생성 방법
비디오 길이 확장
생성 후 Midjourney(및 CometAPI 같은 래퍼)는 "Extend" 컨트롤을 제공합니다. Midjourney의 UI는 5초 클립을 4초 단위로 확장(최대 ~21초)할 수 있게 합니다. 프로그램적으로는 동일한 엔드포인트를 extend 플래그와 함께 호출하거나 원본 클립을 참조하는 새 extend 작업을 제출합니다(CometAPI 문서에 파라미터화된 엔드포인트와 버튼 개요가 표시됨). 확장 비용은 초기 생성과 유사할 것으로 예상하세요.
루프 비디오 생성 또는 엔드 프레임 지정
- 루프를 만들려면 시작 프레임을 엔드 프레임으로 재사용하거나
--loop파라미터를 추가하세요. - 다른 엔드 프레임을 원한다면,
end로 다른 이미지 URL을 제공하고 종횡비가 호환되도록 하세요. Midjourney는--end파라미터를 지원합니다. 연속성을 위해 중간 확장 시 프롬프트를 미세 조정하려면manual확장을 고려하세요.
배치 크기와 비용 제어
Midjourney는 기본적으로 여러 변형(배치 크기 4)을 생성합니다. 프로덕션 또는 비용 민감한 플로우에선 컴퓨트 절약을 위해 bs:1로 설정하세요. Midjourney 문서에는 SD/HD 및 서로 다른 배치 크기에 대한 GPU 시간 추정이 포함되어 있어 비용 예측에 유용합니다. CometAPI는 경쟁력 있는 가격을 제공합니다.
결론
Midjourney의 V1 Video 모델은 프로그램적 비디오로의 첫 공개 단계입니다 — 설계는 보수적이지만 기대가 큽니다. 더 긴 시퀀스, 더 높은 충실도, 더 제어 가능한 카메라 리그가 점진적으로 개선될 것으로 예상합니다. CometAPI는 집계자 역할을 통해 여러 제공업체별 인증 및 동시성 특이점을 처리하지 않고도 개발자가 Midjourney 비디오를 앱에 추가할 수 있도록 통합 장벽을 낮춥니다.
개발자는 CometAPI를 통해 MIdjourney Video API에 액세스할 수 있습니다. 시작하려면 CometAPI의 Playground에서 모델 기능을 탐색하고 자세한 지침은 API 가이드를 참고하세요. 액세스하기 전에 CometAPI에 로그인하고 API 키를 확보했는지 확인하세요. CometAPI는 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 도와드립니다.
준비되셨나요?→ Midjourney 무료 체험!
