Làm thế nào để tạo video trong Midjourney API?

Việc Midjourney lấn sân sang video là một trong những câu chuyện công nghệ sáng tạo lớn nhất năm 2025. Từ một công cụ ưu tiên ảnh được yêu thích, Midjourney đã bổ sung quy trình “Image-to-Video” biến ảnh tĩnh thành các clip hoạt hình ngắn — và hệ thống đang thay đổi rất nhanh.

Khả năng video của Midjourney là một quy trình chuyển ảnh thành video, hoạt hóa một ảnh đơn lẻ thành clip ngắn qua luồng “Animate”, mặc định tạo các clip 5 giây và cho phép kéo dài tới ~21 giây. Tính năng ra mắt giữa năm 2025 dưới dạng mô hình video V1 của Midjourney và có sẵn thông qua Midjourney Video V1 API của CometAPI.

Midjourney V1 là gì

Midjourney V1 làm gì và nó được hiển thị tới người dùng như thế nào

Mô hình video V1 của Midjourney biến một ảnh tĩnh đơn lẻ (có thể là ảnh được tạo trong Midjourney hoặc ảnh lưu trữ bên ngoài) thành các clip hoạt hình ngắn — mặc định khoảng 5 giây — sử dụng chế độ hoạt ảnh tự động hoặc thủ công và cờ cường độ chuyển động (--motion low / --motion high). Người dùng có thể kéo dài clip theo bội số 4 giây (tối đa ~21 giây) và kiểm soát kích thước lô, vòng lặp và khung hình kết thúc; đầu ra video là MP4. Mô hình Video V1 của Midjourney là mô hình chuyển ảnh thành video được tối ưu cho các clip ngắn, có phong cách, có thể lặp. Những đặc điểm điển hình của V1 gồm:

Độ dài clip cơ bản ~5 giây, với cơ chế kéo dài có kiểm soát (tăng mỗi lần 4 giây, tới giới hạn đã được tài liệu hóa).
Nhấn mạnh việc giữ nguyên phong cách nghệ thuật của ảnh nguồn (nét vẽ, màu sắc, tâm trạng).
Cân bằng giữa độ phân giải và chất lượng để lặp nhanh; V1 hướng tới nội dung mạng xã hội và web hơn là đầu ra điện ảnh đầy đủ.

Những ràng buộc này định hình cách bạn thiết kế tài nguyên và prompt: V1 phù hợp nhất cho chuyển động ngắn gọn, ảnh tĩnh được hoạt hóa, vòng lặp sản phẩm nổi bật hoặc những đoạn nhân vật ngắn thay vì các cảnh dài.

CometAPI cung cấp mô hình Midjourney Video như thế nào

CometAPI là cổng đa mô hình tổng hợp quyền truy cập vào hàng trăm mô hình AI (văn bản, hình ảnh, âm thanh, và nay cả chuyển ảnh thành video) phía sau một bề mặt REST duy nhất. Dịch vụ Midjourney Video của CometAPI bọc khả năng Video V1 của Midjourney để kỹ sư có thể gọi sinh video từ ảnh bằng lập trình thay vì chỉ dựa vào tương tác Discord/web. Điều đó hữu ích để tự động hóa pipeline sáng tạo, xây dựng proof-of-concepts, và tích hợp các tài sản hoạt hình ngắn vào ứng dụng hoặc quy trình sản xuất nội dung.

CometAPI’s Midjourney Video cho phép nhà phát triển xác thực, gọi endpoint /mj/submit/video và truyền các tham số như prompt (có thể bao gồm URL ảnh bắt đầu), videoType (ví dụ, vid_1.1_i2v_480), mode (fast/relax), và animateMode (automatic/manual). CometAPI có giá theo lượt thấp hơn và thuận tiện (một API key + giao diện REST) so với tích hợp trực tiếp qua quy trình lấy Discord làm trung tâm của Midjourney.

Tôi cần chuẩn bị gì trước khi gọi API?

Tôi cần thông tin xác thực và tài khoản gì?

Đăng ký tại CometAPI và tạo API key từ bảng điều khiển tài khoản (CometAPI sử dụng bearer token như sk-xxxxx).
Đảm bảo bạn có tài sản hình ảnh sẵn sàng trực tuyến (URL có thể truy cập công khai) nếu dự định dùng ảnh ngoài làm khung hình bắt đầu. Midjourney cần URL có thể truy cập cho quy trình ảnh→video với ảnh bên ngoài.

Những quyết định cần đưa ra từ đầu

Ảnh bắt đầu — chọn ảnh có chủ thể và bố cục rõ ràng; tỷ lệ khung ảnh ảnh hưởng đến độ phân giải/tỷ lệ của video cuối (Midjourney ánh xạ tỷ lệ khung ảnh bắt đầu sang kích cỡ pixel SD/HD).
Phong cách chuyển động — quyết định chuyển động Low vs High (--motion low vs --motion high) và liệu bạn muốn suy luận tự động hay điều khiển thủ công chuyển động camera/chủ thể.
Độ dài & kích thước lô — mặc định là 5 giây; bạn có thể kéo dài tới ~21 giây. Kích thước lô mặc định là 4 (Midjourney trả về 4 biến thể), nhưng bạn có thể yêu cầu 1 hoặc 2 để tiết kiệm tính toán.
Độ phân giải — V1 chủ yếu là SD (480p) theo mặc định; HD (720p) cần mô tả tham số, chẳng hạn vid_1.1_i2v_480.

Tôi gọi endpoint video của CometAPI dành cho Midjourney như thế nào (từng bước kèm ví dụ)?

Payload tối thiểu là gì?

Tối thiểu, bạn gửi:

prompt: URL ảnh bắt đầu và tùy chọn prompt chuyển động dạng văn bản (ví dụ, "https://.../frame.png add a dog running from left to right").
videoType: ví dụ, vid_1.1_i2v_480.
mode: "fast" (hoặc "relax" nếu gói cho phép).
animateMode: "automatic" hoặc "manual".

Đây là một ví dụ curl minh họa POST tới https://api.cometapi.com/mj/submit/video. Dưới đây là ví dụ curl đã làm sạch, sẵn sàng sao chép, được điều chỉnh từ ví dụ của CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Ví dụ Python (requests)

Nếu bạn thích Python, dưới đây là ví dụ chắc chắn dùng requests để gửi một job video và thăm dò khi hoàn tất (thay thế các placeholder). Đây là mẫu thực tế: gửi → thăm dò → tải xuống. Ví dụ bên dưới cố tình đơn giản và nên được điều chỉnh cho hệ thống async/job của ứng dụng trong môi trường sản xuất.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Làm thế nào để thêm âm thanh (giọng nói, nhạc, hiệu ứng âm thanh) vào video Midjourney/CometAPI?

Midjourney có tạo âm thanh nguyên bản không?

Không — ở phiên bản V1, đầu ra video của Midjourney là im lặng (MP4 không có audio nhúng). Người dùng bổ sung âm thanh bên ngoài. (Có các hệ thống AI khác tạo cả âm thanh/video, nhưng V1 của Midjourney tập trung vào chuyển động hình ảnh.)

Quy trình khuyến nghị để thêm giọng nói và âm thanh

Text-to-Speech (TTS) cho thuyết minh/giọng nói — Sử dụng ElevenLabs, Replica hoặc dịch vụ nhân bản giọng nói/TTS tương tự để tạo track giọng từ kịch bản. Những dịch vụ này cho phép tạo phong cách giọng nói tự nhiên và đôi khi với chi phí thấp theo phút. (Các bài viết LinkedIn/cộng đồng khuyến nghị ElevenLabs như một lựa chọn nhẹ cho giọng nói.)
Công cụ thiết kế âm thanh AI cho nhạc/SFX — Các công cụ như MM Audio, Magicshot hoặc trình tạo SFX chuyên dụng có thể tạo nền âm thanh và hiệu ứng phù hợp với clip. Hướng dẫn cộng đồng và tutorial cho thấy chất lượng tốt từ MM Audio và các AI âm thanh khác.
Cách làm thủ công bằng DAW/Editor (kiểm soát tinh) — Nhập MP4 đã tạo vào DaVinci Resolve / Premiere / Audacity, thêm audio TTS, hiệu ứng âm thanh và mix. Đây là cách tốt nhất cho đồng bộ khẩu hình và thời gian chính xác. Tutorial cộng đồng và video hướng dẫn YouTube cung cấp từng bước để khớp âm thanh với video Midjourney.

Ví dụ nhanh: kết hợp âm thanh + video bằng `ffmpeg`

Giả sử video.mp4 (im lặng) và speech.mp3 (TTS) đã sẵn sàng:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Với các bản mix nâng cao hơn (nhạc nền + hội thoại + hiệu ứng), hãy render một track âm thanh tổng hợp duy nhất từ DAW của bạn rồi mux nó vào video như trên.

Tôi nên viết prompt chuyển động thế nào để kiểm soát hoạt ảnh?

Mẫu prompt chuyển động

Việc prompt chuyển động trong Midjourney V1 dựa trên ngôn ngữ tự nhiên. Các mẫu hữu ích:

Hướng/hoạt động: “camera dolly sang trái trong khi chủ thể bước về phía trước”
Chuyển động vật thể: “lá rơi từ cây và trôi về phía camera”
Chỉ dẫn camera: “zoom chậm vào, parallax nhẹ, tốc độ 2x”
Tính chất thời gian: “chuyển động tinh tế, có thể lặp, nhịp điện ảnh”

Bắt đầu với một câu chuyển động ngắn gọn, sau đó thêm tính từ cho phong cách và thời gian: ví dụ, "start_frame_url animate: 'camera xoáy chậm, chủ thể nhấp nhô nhẹ, có thể lặp', style: 'hạt phim, điện ảnh, nhịp 2 fps'". Thử nghiệm và lặp nhỏ là điều cần thiết.

Hoạt ảnh tự động vs thủ công

Tự động: Để mô hình suy luận chuyển động hợp lý. Phù hợp cho thử nghiệm nhanh.
Thủ công: Cung cấp đường đi camera và vector chủ thể cụ thể để có kết quả nhất quán, có thể lặp lại — hữu ích khi bạn cần biên đạo dự đoán được hoặc khớp với footage live-action.

Làm thế nào để kéo dài video, đổi batch size, hoặc tạo vòng lặp?

Kéo dài độ dài video

Sau khi tạo, Midjourney (và các wrapper như CometAPI) cung cấp điều khiển “Extend”. UI của Midjourney cho phép kéo dài clip 5 giây thêm 4 giây mỗi lần kéo dài (tối đa ~21 giây). Về mặt lập trình, bạn hoặc gọi cùng endpoint với cờ extend hoặc gửi một job extend mới tham chiếu tới clip gốc (tài liệu của CometAPI hiển thị các endpoint tham số hóa và các nút trong tổng quan). Chi phí kéo dài kỳ vọng tương tự một lần tạo ban đầu.

Tạo video loop hoặc chỉ định khung hình kết thúc

Để loop, tái sử dụng khung hình bắt đầu làm khung hình kết thúc hoặc thêm tham số --loop.
Với khung hình kết thúc khác, cung cấp URL ảnh khác (dưới dạng end) và đảm bảo tương thích về tỷ lệ khung. Midjourney hỗ trợ tham số --end. Cân nhắc dùng kéo dài manual để tinh chỉnh prompt giữa các lần kéo dài nhằm giữ tính liên tục.

Batch size và kiểm soát chi phí

Midjourney tạo nhiều biến thể theo mặc định (batch size 4). Với sản xuất hoặc luồng nhạy chi phí, đặt bs:1 để giảm tính toán. Tài liệu của Midjourney bao gồm ước tính thời gian GPU cho SD vs HD và các kích thước lô khác nhau (hữu ích cho dự báo chi phí). CometAPI có giá cạnh tranh.

Kết luận

Mô hình Video V1 của Midjourney là bước công khai đầu tiên vào video có thể gọi bằng lập trình — thiết kế thận trọng nhưng đầy hứa hẹn. Chúng tôi kỳ vọng những cập nhật mô hình lặp cải thiện chuỗi dài hơn, độ trung thực cao hơn và rig camera điều khiển được hơn. Vai trò của CometAPI như bộ tổng hợp giúp giảm rào cản tích hợp cho nhà phát triển muốn thêm video Midjourney vào ứng dụng mà không phải xử lý xác thực và đặc thù đồng thời của nhiều nhà cung cấp.

Nhà phát triển có thể truy cập MIdjourney Video API thông qua CometAPI. Để bắt đầu, khám phá khả năng mô hình của CometAPI trong Playground và tham khảo hướng dẫn API để có chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy API key. Com e tAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí Midjourney!

Midjourney V1 là gì

Midjourney V1 làm gì và nó được hiển thị tới người dùng như thế nào

CometAPI cung cấp mô hình Midjourney Video như thế nào

Tôi cần chuẩn bị gì trước khi gọi API?

Tôi cần thông tin xác thực và tài khoản gì?

Những quyết định cần đưa ra từ đầu

Tôi gọi endpoint video của CometAPI dành cho Midjourney như thế nào (từng bước kèm ví dụ)?

Payload tối thiểu là gì?

Ví dụ Python (requests)

Làm thế nào để thêm âm thanh (giọng nói, nhạc, hiệu ứng âm thanh) vào video Midjourney/CometAPI?

Midjourney có tạo âm thanh nguyên bản không?

Quy trình khuyến nghị để thêm giọng nói và âm thanh

Ví dụ nhanh: kết hợp âm thanh + video bằng `ffmpeg`

Tôi nên viết prompt chuyển động thế nào để kiểm soát hoạt ảnh?

Mẫu prompt chuyển động

Hoạt ảnh tự động vs thủ công

Làm thế nào để kéo dài video, đổi batch size, hoặc tạo vòng lặp?

Kéo dài độ dài video

Tạo video loop hoặc chỉ định khung hình kết thúc

Batch size và kiểm soát chi phí

Kết luận

Đọc thêm

500+ Mô hình trong Một API

Làm thế nào để tạo video trong Midjourney API?

Midjourney V1 là gì

Midjourney V1 làm gì và nó được hiển thị tới người dùng như thế nào

CometAPI cung cấp mô hình Midjourney Video như thế nào

Tôi cần chuẩn bị gì trước khi gọi API?

Tôi cần thông tin xác thực và tài khoản gì?

Những quyết định cần đưa ra từ đầu

Tôi gọi endpoint video của CometAPI dành cho Midjourney như thế nào (từng bước kèm ví dụ)?

Payload tối thiểu là gì?

Ví dụ Python (requests)

Làm thế nào để thêm âm thanh (giọng nói, nhạc, hiệu ứng âm thanh) vào video Midjourney/CometAPI?

Midjourney có tạo âm thanh nguyên bản không?

Quy trình khuyến nghị để thêm giọng nói và âm thanh

Ví dụ nhanh: kết hợp âm thanh + video bằng ffmpeg

Tôi nên viết prompt chuyển động thế nào để kiểm soát hoạt ảnh?

Mẫu prompt chuyển động

Hoạt ảnh tự động vs thủ công

Làm thế nào để kéo dài video, đổi batch size, hoặc tạo vòng lặp?

Kéo dài độ dài video

Tạo video loop hoặc chỉ định khung hình kết thúc

Batch size và kiểm soát chi phí

Kết luận

Đọc thêm

500+ Mô hình trong Một API

Ví dụ nhanh: kết hợp âm thanh + video bằng `ffmpeg`