การขยับตัวของ Midjourney เข้าสู่งานวิดีโอเป็นหนึ่งในเรื่องราวเทคโนโลยีสร้างสรรค์ที่ใหญ่ที่สุดของปี 2025 สิ่งที่เริ่มจากเครื่องมือเน้นภาพนิ่งที่ผู้ใช้รัก ได้เพิ่มเวิร์กโฟลว์ “Image-to-Video” ที่แปลงภาพนิ่งให้เป็นคลิปแอนิเมชันสั้นๆ — และระบบก็กำลังพัฒนาอย่างรวดเร็ว
ความสามารถด้านวิดีโอของ Midjourney คือเวิร์กโฟลว์ image-to-video ที่ทำให้ภาพเดี่ยวเคลื่อนไหวเป็นคลิปสั้นผ่านโฟลว์ “Animate” โดยเริ่มต้นผลิตคลิปความยาว 5 วินาทีตามค่าเริ่มต้น และขยายได้สูงสุดประมาณ ~21 วินาที ฟีเจอร์นี้เปิดตัวกลางปี 2025 ในฐานะโมเดลวิดีโอ V1 ของ Midjourney และพร้อมใช้งานผ่าน CometAPI's Midjourney Video V1 API
Midjourney V1 คืออะไร
Midjourney V1 ทำอะไรได้บ้างและถูกนำเสนอให้ผู้ใช้อย่างไร
โมเดลวิดีโอ V1 ของ Midjourney แปลงภาพนิ่งหนึ่งภาพ (ทั้งที่สร้างใน Midjourney หรือรูปที่โฮสต์ภายนอก) ให้เป็นคลิปแอนิเมชันสั้นๆ — โดยค่าเริ่มต้นราว 5 วินาที — ผ่านโหมดอนิเมชันแบบอัตโนมัติหรือแมนนวล และแฟล็กความเข้มข้นของการเคลื่อนไหว (--motion low / --motion high) ผู้ใช้สามารถขยายคลิปครั้งละ 4 วินาที (ได้สูงสุด ~21 วินาที) และควบคุมขนาดแบตช์ การวนลูป และเฟรมท้าย; เอาต์พุตวิดีโอเป็น MP4 โมเดล V1 Video ของ Midjourney เป็นโมเดล image-to-video ที่ปรับแต่งเพื่อคลิปสั้น แบบมีสไตล์ และวนลูปได้ ลักษณะทั่วไปของโมเดล V1 ได้แก่:
- ความยาวคลิปพื้นฐาน ~5 วินาที พร้อมกลไกการขยายที่ควบคุมได้ (เพิ่มครั้งละ 4 วินาที ถึงขีดจำกัดตามเอกสาร)
- เน้นรักษาสไตล์ศิลป์จากภาพต้นทาง (ลายพู่กัน สี โทน)
- ปรับสมดุลความละเอียดและคุณภาพเพื่อการทดลองที่รวดเร็ว; V1 มุ่งเป้าไปที่คอนเทนต์โซเชียลและเว็บมากกว่างานภาพยนตร์เต็มรูปแบบ
ข้อจำกัดเหล่านี้ส่งผลต่อการออกแบบแอสเซ็ตและพรอมป์ต: V1 เหมาะกับการเคลื่อนไหวกระชับ การทำภาพนิ่งให้ขยับ ลูปโชว์สินค้า หรือท่าทางตัวละครสั้นๆ มากกว่าซีนยาว
CometAPI นำเสนอโมเดล Midjourney Video อย่างไร
CometAPI เป็นเกตเวย์หลายโมเดลที่รวมการเข้าถึงโมเดล AI นับร้อย (ข้อความ ภาพ เสียง และตอนนี้คือ image-to-video) ภายใต้ผิว REST เดียว บริการ Midjourney Video ของ CometAPI ครอบโมเดล V1 Video ของ Midjourney เพื่อให้นักพัฒนาสามารถเรียกสร้าง image-to-video แบบโปรแกรมมิ่งได้ แทนการพึ่งพาเพียง Discord/เว็บ ทำให้เหมาะกับการทำออโตเมชันสายการผลิตครีเอทีฟ การสร้างต้นแบบ และผนวกแอสเซ็ตวิดีโอสั้นเข้ากับแอปหรือเวิร์กโฟลว์ผลิตคอนเทนต์
CometAPI’s Midjourney Video ช่วยให้นักพัฒนายืนยันตัวตน เรียกใช้งานเอ็นด์พอยต์ /mj/submit/video และส่งพารามิเตอร์อย่าง prompt (ซึ่งสามารถรวม URL ของภาพเริ่มต้นได้), videoType (เช่น vid_1.1_i2v_480), mode (fast/relax) และ animateMode (automatic/manual) CometAPI มีค่าบริการต่อครั้งที่ต่ำกว่าและสะดวกกว่า (คีย์ API เดียว + อินเทอร์เฟซ REST) เมื่อเทียบกับการเชื่อมต่อโดยตรงผ่านเวิร์กโฟลว์ที่เน้น Discord ของ Midjourney
ควรเตรียมอะไรบ้างก่อนเรียก API?
ต้องมีบัญชีและข้อมูลยืนยันตัวตนอะไร?
- สมัครใช้งานที่ CometAPI และสร้างคีย์ API จากแดชบอร์ดบัญชีของคุณ (CometAPI ใช้ bearer token รูปแบบ
sk-xxxxx) - ตรวจสอบให้แน่ใจว่าคุณมีแอสเซ็ตภาพที่เข้าถึงออนไลน์ได้ (URL ที่สาธารณะเข้าถึงได้) หากต้องการใช้ภาพภายนอกเป็นเฟรมเริ่มต้น Midjourney ต้องการ URL ที่เข้าถึงได้สำหรับเวิร์กโฟลว์ image→video ภายนอก
สิ่งที่ต้องตัดสินใจก่อนเริ่ม
- ภาพเริ่มต้น — เลือกภาพที่มีวัตถุหลักและองค์ประกอบชัดเจน; อัตราส่วนภาพมีผลต่อความละเอียด/อัตราส่วนของวิดีโอสุดท้าย (Midjourney จะแม็ปอัตราส่วนภาพเริ่มต้นไปยังขนาดพิกเซล SD/HD)
- สไตล์การเคลื่อนไหว — เลือก Low หรือ High motion (
--motion lowvs--motion high) และตัดสินใจว่าจะให้ระบบเดาเองหรือควบคุมการเคลื่อนของกล้อง/วัตถุด้วยตนเอง - ความยาว & ขนาดแบตช์ — ค่าเริ่มต้น 5 วินาที; ขยายได้สูงสุด ~21 วินาที ขนาดแบตช์เริ่มต้นคือ 4 (Midjourney ส่งกลับ 4 เวอร์ชัน) แต่คุณสามารถขอ 1 หรือ 2 เพื่อลดการใช้ทรัพยากร
- ความละเอียด — V1 ส่วนใหญ่เป็น SD (480p) โดยค่าเริ่มต้น; HD (720p) ต้องระบุพารามิเตอร์ เช่น vid_1.1_i2v_480
จะเรียกใช้เอ็นด์พอยต์ Midjourney video ของ CometAPI อย่างไร (ทีละขั้นพร้อมตัวอย่าง)?
เพย์โหลดคำขอขั้นต่ำคืออะไร?
อย่างน้อยที่สุด คุณต้องส่ง:
prompt: URL ของภาพเริ่มต้นและข้อความคำสั่งการเคลื่อนไหวเพิ่มเติม (เช่น" เพิ่มหมาวิ่งจากซ้ายไปขวา")videoType: เช่นvid_1.1_i2v_480mode:"fast"(หรือ"relax"หากแผนของคุณรองรับ)animateMode:"automatic"หรือ"manual"
นี่คือตัวอย่าง curl ที่แสดงการ POST ไปยัง[ ต่อไปนี้เป็นตัวอย่าง curl ที่ปรับให้สะอาด พร้อมคัดลอกไปใช้ ซึ่งอ้างอิงจากตัวอย่างของ CometAPI:
curl --location --request POST ' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": " A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
ตัวอย่าง Python (requests)
หากคุณถนัด Python นี่คือตัวอย่างแบบกระชับด้วย requests ที่ส่งงานวิดีโอและโพลสถานะจนเสร็จ (แทนที่ข้อมูลตัวอย่างให้เหมาะ) เป็นแพทเทิร์นที่ใช้งานจริงได้: ส่งงาน → โพลสถานะ → ดาวน์โหลด ตัวอย่างด้านล่างเรียบง่ายโดยตั้งใจ ควรดัดแปลงให้เข้ากับระบบ async/job ของแอปในโปรดักชัน
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": " A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
จะใส่เสียง (พากย์ เพลง เอฟเฟกต์เสียง) ลงในวิดีโอ Midjourney/CometAPI ได้อย่างไร?
Midjourney สร้างเสียงในตัวได้หรือไม่?
ไม่ได้ — ณ เวอร์ชัน V1 เอาต์พุตวิดีโอของ Midjourney เป็นไฟล์เงียบ (MP4 ที่ไม่มีเสียงฝัง) ผู้ใช้จึงเติมเสียงภายนอก (มีระบบ AI อื่นที่สร้างภาพและเสียงร่วมกัน แต่ V1 ของ Midjourney เน้นการเคลื่อนไหวภาพ)
เวิร์กโฟลว์ที่แนะนำในการเพิ่มเสียงพากย์และซาวด์
- Text-to-Speech (TTS) สำหรับบรรยาย/พากย์เสียง — ใช้ ElevenLabs, Replica หรือบริการโคลนเสียง/TTS อื่นๆ เพื่อสร้างแทร็กเสียงจากสคริปต์ บริการเหล่านี้ให้เสียงพูดเป็นธรรมชาติและมักมีราคาต่อเวลาที่คุ้มค่า (ชุมชน/LinkedIn แนะนำ ElevenLabs เป็นตัวเลือกน้ำหนักเบาสำหรับงานพากย์)
- เครื่องมือออกแบบเสียงด้วย AI สำหรับเพลง/เอฟเฟกต์ — เครื่องมืออย่าง MM Audio, Magicshot หรือเจนเนอเรเตอร์ SFX เฉพาะทางสามารถสร้างบรรยากาศและเอฟเฟกต์ที่เข้ากับคลิป แนวทางจากชุมชนแสดงคุณภาพที่ดีจาก MM Audio และ AI เสียงอื่นๆ
- ทำด้วย DAW/โปรแกรมตัดต่อแบบแมนนวล (ควบคุมละเอียด) — นำเข้า MP4 (เงียบ) เข้า DaVinci Resolve / Premiere / Audacity เติมเสียง TTS เอฟเฟกต์ และมิกซ์ วิธีนี้ดีที่สุดสำหรับลิปซิงก์และไทมิงที่แม่นยำ คู่มือในชุมชนและวิดีโอบน YouTube มีขั้นตอนจับคู่เสียงกับวิดีโอของ Midjourney
ตัวอย่างเร็ว: รวมเสียง + วิดีโอด้วย ffmpeg
สมมติว่ามี video.mp4 (ไม่มีเสียง) และ speech.mp3 (TTS) พร้อมแล้ว:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
สำหรับการมิกซ์ขั้นสูง (เพลงพื้นหลัง + บทสนทนา + เอฟเฟกต์) ให้เรนเดอร์เป็นแทร็กเสียงเดียวจาก DAW ของคุณ แล้วจึงมัลติเพล็กซ์ลงในวิดีโอตามคำสั่งด้านบน
ควรเขียน motion prompt อย่างไรเพื่อควบคุมอนิเมชัน?
แพทเทิร์นของ motion prompt
การเขียน motion prompt ใน Midjourney V1 ใช้ภาษาธรรมชาติ แพทเทิร์นที่มีประโยชน์:
- ทิศทาง/การกระทำ: “กล้องดอลลีไปทางซ้าย ในขณะที่ตัวละครเดินไปข้างหน้า”
- การเคลื่อนของวัตถุ: “ใบไม้ร่วงจากต้นและลอยเข้าหากล้อง”
- คำสั่งกล้อง: “ซูมเข้าแบบช้า มีพารัลแลกซ์เล็กน้อย ความเร็ว 2x”
- คุณภาพเชิงเวลา: “การเคลื่อนไหวละมุน วนลูปได้ จังหวะแบบภาพยนตร์”
เริ่มจากประโยคสั้นๆ ที่อธิบายการเคลื่อนไหว จากนั้นจึงเติมคำคุณศัพท์ด้านสไตล์และไทมิง: เช่น "start_frame_url animate: 'กล้องหมุนวนช้าๆ ตัวแบบโยกเบาๆ วนลูปได้', style: 'ฟิล์มเกรน โทนภาพยนตร์ จังหวะ 2 fps'" การทดลองและไอเทอเรชันเล็กๆ เป็นกุญแจสำคัญ
Manual vs automatic animation
- Automatic: ให้โมเดลอนุมานการเคลื่อนไหวที่เป็นไปได้ เหมาะสำหรับทดลองอย่างรวดเร็ว
- Manual: ระบุเส้นทางกล้องและเวกเตอร์ของตัวแบบอย่างชัดเจนเพื่อผลลัพธ์ที่สม่ำเสมอและทำซ้ำได้ — เหมาะเมื่อคุณต้องการท่าทางที่คาดเดาได้หรือให้ตรงกับฟุตเทจไลฟ์แอ็กชัน
จะขยายความยาววิดีโอ เปลี่ยนขนาดแบตช์ หรือสร้างลูปได้อย่างไร?
การขยายความยาววิดีโอ
หลังการสร้าง วิดีโอของ Midjourney (และตัวครอบอย่าง CometAPI) มีปุ่ม "Extend" ให้ใช้งาน UI ของ Midjourney อนุญาตให้ขยายคลิป 5 วินาทีเดิมครั้งละ 4 วินาที (ได้สูงสุด ~21 วินาที) ในเชิงโปรแกรม คุณสามารถเรียกเอ็นด์พอยต์เดิมพร้อมแฟล็ก extend หรือส่งงาน extend ใหม่ที่อ้างอิงคลิปเดิม (เอกสารของ CometAPI แสดงเอ็นด์พอยต์และพารามิเตอร์ที่เกี่ยวข้อง) ค่าบริการการขยายคาดว่าจะใกล้เคียงกับการสร้างครั้งแรก
การสร้างวิดีโอวนลูปหรือกำหนดเฟรมสุดท้าย
- หากต้องการลูป ให้ใช้เฟรมเริ่มต้นซ้ำเป็นเฟรมสุดท้าย หรือเพิ่มพารามิเตอร์
--loop - หากต้องการเฟรมสุดท้ายที่ต่างออกไป ให้ระบุ URL ของภาพอีกภาพ (เป็น
end) และให้แน่ใจว่าอัตราส่วนภาพเข้ากันได้ Midjourney รองรับพารามิเตอร์--endพิจารณาใช้การขยายแบบmanualเพื่อปรับพรอมป์ตระหว่างขยายให้ต่อเนื่อง
ขนาดแบตช์และการควบคุมต้นทุน
โดยปกติ Midjourney จะสร้างหลายเวอร์ชัน (ขนาดแบตช์ 4) สำหรับงานโปรดักชันหรือกรณีที่ต้องคุมต้นทุน ให้ตั้งค่า bs:1 เพื่อลดการใช้คอมพิวต์ เอกสารของ Midjourney มีการประเมินเวลา GPU สำหรับ SD/HD และขนาดแบตช์ต่างๆ (มีประโยชน์ต่อการคาดการณ์ต้นทุน) CometAPI มีราคาที่แข่งขันได้
สรุป
โมเดลวิดีโอ V1 ของ Midjourney คือก้าวแรกสู่การทำวิดีโอแบบโปรแกรมมิ่ง — ถูกออกแบบมาอย่างระมัดระวังแต่มีอนาคตสดใส เราคาดว่าจะมีการอัปเดตโมเดลอย่างต่อเนื่อง ทั้งลำดับภาพที่ยาวขึ้น ความเที่ยงตรงสูงขึ้น และการควบคุมกล้องที่ละเอียดขึ้น บทบาทของ CometAPI ในฐานะตัวรวบรวมผู้ให้บริการช่วยลดอุปสรรคด้านการผสานระบบสำหรับนักพัฒนาที่ต้องการเพิ่มวิดีโอของ Midjourney ลงในแอป โดยไม่ต้องรับมือกับการยืนยันตัวตนและความซับซ้อนเฉพาะผู้ให้บริการหลายราย
นักพัฒนาสามารถเข้าถึง MIdjourney Video API ผ่าน CometAPI เพื่อเริ่มต้น สำรวจความสามารถของโมเดลบน CometAPI ใน Playground และอ่านคู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าถึง โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับคีย์ API แล้ว CometAPI มีราคาเสนอต่ำกว่าราคาทางการอย่างมากเพื่อช่วยให้คุณผสานใช้งานได้อย่างคุ้มค่า
พร้อมเริ่มหรือยัง?→ ทดลองใช้งาน Midjourney ฟรี!
