Làm thế nào để tạo video thông qua Midjourney API?

CometAPI
AnnaDec 29, 2025
Làm thế nào để tạo video thông qua Midjourney API?

Việc Midjourney lấn sân sang video là một trong những câu chuyện công nghệ sáng tạo lớn nhất năm 2025. Từ một công cụ ưu tiên hình ảnh được yêu thích, Midjourney đã bổ sung quy trình “Image-to-Video” để biến ảnh tĩnh thành các đoạn clip hoạt hình ngắn — và hệ thống đang thay đổi rất nhanh.

Khả năng video của Midjourney là một quy trình image-to-video, trong đó một ảnh đơn được hoạt họa thành clip ngắn qua luồng “Animate”, mặc định tạo clip dài năm giây và cho phép mở rộng tới khoảng ~21 giây. Tính năng này ra mắt giữa năm 2025 với tên mô hình video V1 của Midjourney và có sẵn thông qua Midjourney Video V1 API của CometAPI.

Midjourney V1 là gì

Midjourney V1 làm gì và được hiển thị tới người dùng như thế nào

Mô hình video V1 của Midjourney biến một ảnh tĩnh (do Midjourney tạo hoặc ảnh được lưu trữ bên ngoài) thành các clip hoạt hình ngắn — mặc định khoảng 5 giây — sử dụng chế độ hoạt họa tự động hoặc thủ công và cờ cường độ chuyển động (--motion low / --motion high). Người dùng có thể mở rộng clip theo bước 4 giây (tối đa khoảng ~21 giây) và điều khiển kích thước lô, chế độ lặp và khung kết thúc; đầu ra video là MP4. Mô hình Video V1 của Midjourney là một mô hình image-to-video được tối ưu cho các clip ngắn, giàu phong cách, dễ lặp. Các đặc trưng điển hình của V1 gồm:

  • Độ dài clip cơ bản khoảng ~5 giây, với cơ chế mở rộng có kiểm soát (từng bước 4 giây, tới một giới hạn đã được ghi nhận).
  • Nhấn mạnh việc giữ gìn phong cách nghệ thuật từ ảnh nguồn (nét cọ, màu sắc, tâm trạng).
  • Thỏa hiệp giữa độ phân giải và chất lượng để lặp nhanh; V1 hướng tới nội dung mạng xã hội và web hơn là đầu ra điện ảnh đầy đủ.

Những ràng buộc này định hình cách bạn thiết kế tài sản và prompt: V1 phù hợp nhất cho chuyển động ngắn gọn, ảnh tĩnh được hoạt họa, vòng lặp sản phẩm nổi bật hoặc các đoạn nhân vật ngắn, thay vì những cảnh dài.

CometAPI cung cấp mô hình Midjourney Video như thế nào

CometAPI là cổng đa mô hình tập hợp quyền truy cập vào hàng trăm mô hình AI (văn bản, hình ảnh, âm thanh và nay là image-to-video) sau một bề mặt REST duy nhất. Dịch vụ Midjourney Video của CometAPI bao bọc khả năng Video V1 của Midjourney để kỹ sư có thể gọi tạo image-to-video bằng lập trình thay vì chỉ dựa vào Discord/web. Điều đó hữu ích để tự động hóa pipeline sáng tạo, xây dựng proof-of-concept và tích hợp tài sản hoạt hình ngắn vào ứng dụng hoặc quy trình sản xuất nội dung.

Midjourney Video của CometAPI có thể giúp nhà phát triển xác thực, gọi endpoint /mj/submit/video và truyền các tham số như prompt (có thể gồm URL ảnh bắt đầu), videoType (ví dụ: vid_1.1_i2v_480), mode (fast/relax) và animateMode (automatic/manual). CometAPI có chi phí mỗi lần gọi thấp hơn và tiện lợi hơn (một khóa API + giao diện REST) so với tích hợp trực tiếp qua quy trình tập trung Discord của Midjourney.

Tôi cần chuẩn bị gì trước khi gọi API?

Tôi cần thông tin xác thực và tài khoản nào?

  1. Đăng ký tại CometAPI và tạo khóa API từ bảng điều khiển tài khoản (CometAPI dùng bearer token như sk-xxxxx).
  2. Đảm bảo bạn có ảnh/tài sản sẵn sàng trực tuyến (URL có thể truy cập công khai) nếu dự định dùng ảnh bên ngoài làm khung bắt đầu. Midjourney cần URL có thể truy cập cho quy trình image→video với ảnh ngoài.

Những quyết định cần đưa ra từ đầu

  • Ảnh bắt đầu — chọn ảnh có chủ thể và bố cục rõ ràng; tỷ lệ khung ảnh ảnh hưởng tới độ phân giải/tỷ lệ của video cuối (Midjourney ánh xạ tỷ lệ ảnh đầu vào sang kích thước pixel SD/HD).
  • Phong cách chuyển động — chọn chuyển động Low hay High (--motion low so với --motion high) và liệu bạn muốn suy diễn tự động hay điều khiển thủ công chuyển động camera/chủ thể.
  • Độ dài & kích thước lô — mặc định là 5 giây; bạn có thể mở rộng tới khoảng ~21 giây. Kích thước lô mặc định là 4 (Midjourney trả về 4 biến thể), nhưng bạn có thể yêu cầu 1 hoặc 2 để tiết kiệm tài nguyên.
  • Độ phân giải — V1 chủ yếu là SD (480p) theo mặc định; HD (720p) cần mô tả tham số, như vid_1.1_i2v_480.

Tôi gọi endpoint video Midjourney của CometAPI như thế nào (từng bước kèm ví dụ)?

Payload yêu cầu tối thiểu là gì?

Tối thiểu, bạn gửi:

  • prompt: URL ảnh bắt đầu và tùy chọn prompt chuyển động dạng văn bản (ví dụ: "![image](https://.../frame.png) add a dog running from left to right").
  • videoType: ví dụ: vid_1.1_i2v_480.
  • mode: "fast" (hoặc "relax" nếu gói cho phép).
  • animateMode: "automatic" hoặc "manual".

Đây là một curl mẫu minh họa POST tới[![image](https://api.cometapi.com/mj/submit/video.) Dưới đây là ví dụ curl đã làm sạch, có thể sao chép dùng ngay, được điều chỉnh từ ví dụ của CometAPI:

curl --location --request POST '![image](https://api.cometapi.com/mj/submit/video') \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) Một khung cảnh biển yên bình — camera từ từ zoom out và một con mòng biển bay ngang",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Ví dụ Python (requests)

Nếu bạn thích Python, đây là một ví dụ vững chắc dùng requests để gửi tác vụ video và thăm dò đến khi hoàn tất (hãy thay thế các placeholder). Đây là mẫu thực tiễn: gửi → thăm dò → tải xuống. Ví dụ dưới đây cố ý đơn giản và nên được điều chỉnh cho hệ thống async/job của ứng dụng trong môi trường sản xuất.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) Một con phố thành thị yên ả — camera lia sang trái, mưa rơi",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Gửi tác vụ
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Thăm dò trạng thái đến khi hoàn tất (ví dụ polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # thăm dò tối đa ~60 lần
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video sẵn sàng:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Tạo video thất bại: " + str(st))
    time.sleep(2)

Tôi thêm âm thanh (giọng nói, nhạc, hiệu ứng) vào video Midjourney/CometAPI như thế nào?

Midjourney có tạo âm thanh nguyên bản không?

Không — ở phiên bản V1, đầu ra video của Midjourney là im lặng (MP4 không nhúng audio). Người dùng bổ sung âm thanh ở bên ngoài. (Có các hệ thống AI khác tạo audio/video cùng lúc, nhưng V1 của Midjourney tập trung vào chuyển động thị giác.)

Quy trình khuyến nghị để thêm giọng nói và âm thanh

  1. Text-to-Speech (TTS) cho thuyết minh/giọng nói — Dùng ElevenLabs, Replica hoặc các dịch vụ TTS/giọng nói tương tự để tạo track giọng nói từ kịch bản. Các dịch vụ này cho phép tạo giọng nói tự nhiên và đôi khi với chi phí thấp theo phút. (Các bài viết trên LinkedIn/cộng đồng thường khuyến nghị ElevenLabs như lựa chọn gọn nhẹ cho giọng nói.)
  2. Công cụ thiết kế âm thanh AI cho nhạc/SFX — Các công cụ như MM Audio, Magicshot hoặc trình tạo SFX chuyên dụng có thể tạo nền nhạc và hiệu ứng phù hợp với clip. Hướng dẫn cộng đồng và tutorial cho thấy chất lượng tốt từ MM Audio và các AI âm thanh khác.
  3. Cách tiếp cận DAW/Editor thủ công (kiểm soát chi tiết) — Nhập MP4 đã tạo vào DaVinci Resolve / Premiere / Audacity, thêm TTS, hiệu ứng âm thanh và mix. Đây là cách tốt nhất cho đồng bộ khẩu hình và thời gian chính xác. Tutorial cộng đồng và video hướng dẫn trên YouTube cung cấp quy trình từng bước để khớp âm thanh với video Midjourney.

Ví dụ nhanh: ghép audio + video bằng ffmpeg

Giả sử đã có video.mp4 (không âm thanh) và speech.mp3 (TTS):

# Chuẩn hóa độ dài âm thanh (tùy chọn), sau đó ghép:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Với mix nâng cao hơn (nhạc nền + thoại + hiệu ứng), hãy render một track âm thanh đã trộn từ DAW rồi mux vào video như trên.

Tôi nên viết motion prompt như thế nào để điều khiển hoạt họa?

Mẫu prompt chuyển động

Motion prompting trong Midjourney V1 dựa trên ngôn ngữ tự nhiên. Các mẫu hữu ích:

  • Hướng/động tác: “camera dolly sang trái khi chủ thể bước về phía trước”
  • Chuyển động đối tượng: “chiếc lá rơi từ cây và trôi về phía camera”
  • Chỉ dẫn camera: “zoom in chậm, parallax nhẹ, tốc độ 2x”
  • Tính chất thời gian: “chuyển động tinh tế, có thể lặp, nhịp điệu điện ảnh”

Bắt đầu bằng một câu chuyển động ngắn gọn, sau đó thêm tính từ cho phong cách và nhịp: ví dụ, "start_frame_url animate: 'camera xoáy chậm, chủ thể lắc nhẹ, có thể lặp', style: 'film grain, cinematic, nhịp 2 fps'". Việc thử nghiệm và lặp nhỏ là thiết yếu.

Hoạt họa thủ công so với tự động

  • Tự động: Để mô hình suy diễn chuyển động hợp lý. Phù hợp cho thử nghiệm nhanh.
  • Thủ công: Cung cấp đường đi camera và vector của chủ thể một cách tường minh để có kết quả nhất quán, lặp lại — hữu ích khi cần biên đạo dự đoán được hoặc khớp với footage live-action.

Tôi mở rộng video, thay đổi kích thước lô hoặc tạo vòng lặp như thế nào?

Mở rộng độ dài video

Sau khi tạo, Midjourney (và các wrapper như CometAPI) cung cấp điều khiển "Extend". Giao diện Midjourney cho phép bạn mở rộng clip 5 giây thêm 4 giây mỗi lần (tối đa khoảng ~21 giây). Ở mức lập trình, bạn hoặc gọi cùng endpoint với cờ extend hoặc gửi một tác vụ extend mới tham chiếu clip gốc (tài liệu của CometAPI hiển thị các endpoint tham số hóa và nút trong phần tổng quan). Chi phí mở rộng thường tương tự tạo lần đầu.

Tạo video lặp hoặc chỉ định khung kết thúc

  • Để lặp, tái sử dụng khung bắt đầu làm khung kết thúc hoặc thêm tham số --loop.
  • Để dùng khung kết thúc khác, cung cấp URL ảnh khác (dưới dạng end) và đảm bảo tương thích về tỷ lệ. Midjourney hỗ trợ tham số --end. Cân nhắc dùng mở rộng manual để tinh chỉnh prompt trong quá trình mở rộng nhằm đảm bảo tính liên tục.

Kích thước lô và kiểm soát chi phí

Midjourney mặc định tạo nhiều biến thể (kích thước lô 4). Với sản xuất hoặc luồng nhạy chi phí, đặt bs:1 để giảm tài nguyên. Tài liệu của Midjourney có ước tính thời gian GPU cho SD vs HD và các kích thước lô khác nhau (hữu ích cho dự báo chi phí). CometAPI cung cấp mức giá cạnh tranh.

Kết luận

Mô hình Video V1 của Midjourney là bước đi công khai đầu tiên vào video lập trình — thiết kế thận trọng nhưng đầy hứa hẹn. Chúng tôi kỳ vọng các bản cập nhật lặp lại sẽ cải thiện độ dài chuỗi, độ trung thực cao hơn và bộ điều khiển camera chi tiết hơn. Vai trò của CometAPI như một bộ tập hợp giúp hạ thấp rào cản tích hợp cho nhà phát triển muốn thêm video Midjourney vào ứng dụng mà không phải xử lý xác thực và tính đồng thời đặc thù từng nhà cung cấp.

Nhà phát triển có thể truy cập MIdjourney Video API thông qua CometAPI. Để bắt đầu, hãy khám phá các khả năng mô hình của CometAPI trong Playground và tham khảo hướng dẫn API để biết chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy được khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí Midjourney!

Sẵn sàng giảm 20% chi phí phát triển AI?

Bắt đầu miễn phí trong vài phút. Bao gồm tín dụng dùng thử miễn phí. Không cần thẻ tín dụng.

Đọc thêm