Midjourney ซึ่งได้รับการยกย่องมายาวนานในด้านเทคโนโลยีการสังเคราะห์ภาพอันล้ำสมัย ได้ก้าวเข้าสู่โลกแห่งการสร้างวิดีโออย่างกล้าหาญเมื่อไม่นานมานี้ ด้วยการเปิดตัวเครื่องมือวิดีโอที่ขับเคลื่อนด้วย AI Midjourney มุ่งมั่นที่จะขยายขอบเขตการสร้างสรรค์ให้กว้างไกลกว่าภาพนิ่ง ช่วยให้ผู้ใช้สามารถสร้างคลิปแอนิเมชันได้โดยตรงภายในแพลตฟอร์ม บทความนี้จะวิเคราะห์จุดกำเนิด กลไก จุดแข็ง ข้อจำกัด และโอกาสในอนาคตของความสามารถด้านวิดีโอของ Midjourney โดยอ้างอิงจากข่าวสารล่าสุดและความคิดเห็นจากผู้เชี่ยวชาญ
Midjourney's V1 Video Model คืออะไร?
โมเดลวิดีโอ V1 ของ Midjourney ถือเป็นก้าวแรกของบริษัทในการสร้างวิดีโอที่ขับเคลื่อนด้วย AI โดยขยายขีดความสามารถหลักในการแปลงข้อความแจ้งเตือนเป็นรูปภาพและภาพเคลื่อนไหวแบบไดนามิก V18 เปิดตัวเมื่อวันที่ 2025 มิถุนายน 1 ช่วยให้ผู้ใช้สามารถสร้างคลิปวิดีโอสั้นๆ ได้สูงสุด 20 วินาทีจากภาพเดียว ไม่ว่าจะเป็นภาพที่ผู้ใช้อัปโหลดเองหรือ AI สร้างขึ้นผ่านโมเดลภาพที่ได้รับการยอมรับของ Midjourney
หัวข้อสำคัญ
- การแปลงรูปภาพเป็นวิดีโอ: แปลงภาพนิ่งเป็นวิดีโอ 5 คลิป ความยาว XNUMX วินาที ซึ่งสามารถเย็บต่อกันให้ยาวขึ้นได้
- ราคาสมัครสมาชิก: มีจำหน่ายในราคา 10 เหรียญสหรัฐต่อเดือน ถือเป็นตัวเลือกที่เข้าถึงได้สำหรับทั้งผู้ชื่นชอบและมืออาชีพ
- เข้าถึงได้ผ่าน Discord: เช่นเดียวกับโมเดลภาพ V1 ได้ถูกรวมเข้ากับอินเทอร์เฟซบอท Discord ของ Midjourney ช่วยให้ผู้ใช้ที่มีอยู่สามารถนำไปใช้ได้อย่างราบรื่น
เทคโนโลยีพื้นฐาน
V1 ของ Midjourney ใช้ประโยชน์จากสถาปัตยกรรมแบบกระจาย ซึ่งดัดแปลงมาจากโครงสร้างหลักในการสร้างภาพ เพื่ออนุมานเส้นทางการเคลื่อนที่และสอดแทรกเฟรม แม้ว่ารายละเอียดที่แม่นยำของโมเดลจะเป็นกรรมสิทธิ์ของ David Holz ซีอีโอ ได้กล่าวถึงการใช้ประโยชน์จากเลเยอร์การปรับสภาพที่คำนึงถึงเวลาและกลไกการให้ความสนใจเชิงพื้นที่และเวลา เพื่อรักษาความสอดคล้องของภาพในทุกเฟรม
Midjourney สร้างวิดีโอจากภาพนิ่งได้อย่างไร
นวัตกรรมหลักเบื้องหลังวิดีโอของ Midjourney อยู่ที่การแปลงภาพสแนปช็อตเชิงพื้นที่เป็นลำดับเวลาผ่านกระบวนการ AI ขั้นสูง ต่างจากระบบแปลงข้อความเป็นวิดีโอแบบ end-to-end ตรงที่ V1 มุ่งเน้นไปที่การสร้างภาพเคลื่อนไหวให้กับภาพที่มีอยู่เดิม เพื่อให้มั่นใจได้ถึงการควบคุมและคุณภาพที่เหนือกว่า
รายละเอียดทางเทคนิค
- รุ่นรุ่น:วิดีโอ V1 เปิดตัวเมื่อวันที่ 18 มิถุนายน 2025 รองรับคลิปความยาวสูงสุด 21 วินาที โดยเพิ่มครั้งละ 5 วินาที
- ความละเอียด:เอาท์พุตดั้งเดิมสูงสุดคือ 480p (832×464) โดยมีแผนที่จะแนะนำ 720p และอาจจะเพิ่มการอัปสเกล HD ในรุ่นต่อไป
- รูปแบบ:ไฟล์ที่ส่งออก ได้แก่ MP4 แบบบีบอัดสำหรับการแชร์บนโซเชียลมีเดีย, RAW MP4 H.264 เพื่อคุณภาพที่สูงขึ้น และ GIF แบบเคลื่อนไหว วิดีโอจะถูกเก็บไว้ในคลาวด์และเข้าถึงได้ผ่าน URL แบบถาวร
การสอดแทรกเฟรมและเวกเตอร์การเคลื่อนที่
Midjourney วิเคราะห์ภาพอินพุตเพื่อระบุขอบเขตความหมาย เช่น ตัวละคร วัตถุ และพื้นหลัง และคาดการณ์เวกเตอร์การเคลื่อนที่ที่กำหนดว่าแต่ละขอบเขตควรเคลื่อนที่อย่างไรเมื่อเวลาผ่านไป โดยการสอดแทรกเวกเตอร์เหล่านี้ในหลายเฟรม โมเดลจะสร้างการเปลี่ยนภาพที่ราบรื่นซึ่งจำลองการเคลื่อนไหวตามธรรมชาติ
ความสม่ำเสมอและความเที่ยงตรงของสไตล์
เพื่อรักษารูปแบบศิลปะดั้งเดิม V1 จึงใช้การเข้ารหัสอ้างอิงสไตล์ (SREF) ซึ่งเป็นเทคนิคที่ล็อกจานสี จังหวะการปัด และสภาพแสงของภาพอินพุตตลอดทั้งวิดีโอ วิธีนี้ทำให้มั่นใจได้ว่าแอนิเมชันที่สร้างขึ้นจะให้ความรู้สึกเหมือนเป็นส่วนขยายของภาพนิ่ง ไม่ใช่เป็นผลงานศิลปะที่แยกออกมาต่างหาก
โมเดลวิดีโอของ Midjourney เปรียบเทียบกับคู่แข่งได้อย่างไร?
ภูมิทัศน์ของการสร้างวิดีโอด้วย AI นั้นมีการแข่งขันสูง โดยมีผลิตภัณฑ์อย่าง Sora ของ OpenAI, Adobe Firefly, Google Veo และ Runway Gen 4 แต่ละโซลูชันมุ่งเป้าไปที่กลุ่มผู้ใช้และกรณีการใช้งานที่แตกต่างกัน ตั้งแต่ผู้สร้างภาพยนตร์เชิงพาณิชย์ไปจนถึงผู้สร้างโซเชียลมีเดีย
การเปรียบเทียบคุณสมบัติ
| ความสามารถ | กลางทาง V1 | OpenAI โซระ | รันเวย์ เจเนอเรชั่น 4 | วิดีโอ Adobe Firefly | Google Veo 3 |
|---|---|---|---|---|---|
| โหมดอินพุต | ภาพนิ่ง | ข้อความแจ้ง | ข้อความหรือวิดีโอ | ข้อความแจ้ง | ข้อความหรือวิดีโอ |
| ระยะเวลาเอาต์พุต | สูงสุด 20 วินาที | สูงสุด 30 วินาที | สูงสุด 20 วินาที | สูงสุด 15 วินาที | สูงสุด 10 วินาที |
| การควบคุมสไตล์ | สูง (SREF) | กลาง | กลาง | จุดสูง | ต่ำ |
| การเข้าถึง | สมัครสมาชิก Discord | API, UI เว็บ | เว็บ UI | ปลั๊กอิน Adobe Creative Cloud | API ของ TensorFlow |
| ราคา | 10 เหรียญสหรัฐ/เดือน | ตามการใช้งาน | การสมัครสมาชิก | ตามการใช้งาน | ตามการใช้งาน |
Midjourney โดดเด่นด้วยแนวทางที่เน้นภาพเป็นอันดับแรก การควบคุมสไตล์ที่ล้ำลึก และการพัฒนาที่ขับเคลื่อนโดยชุมชน ในขณะที่คู่แข่งมักเน้นการสร้างข้อความเป็นวิดีโอโดยตรงหรือการบูรณาการองค์กร
การจัดตำแหน่งกรณีการใช้งาน
- เล่าเรื่องอย่างสร้างสรรค์: โมเดลของ Midjourney โดดเด่นในด้านแอนิเมชั่นที่มีสไตล์และเหมือนความฝันสำหรับศิลปินและนักออกแบบ
- การผลิตเชิงพาณิชย์: แพลตฟอร์มเช่น Adobe Firefly และ Runway ตอบโจทย์ผู้สร้างภาพยนตร์ที่ต้องการการควบคุมฉากที่แม่นยำและการผสานรวมเข้ากับขั้นตอนการตัดต่อที่มีอยู่
- การวิจัย AI เชิงทดลอง: Google Veo และ OpenAI Sora ขยายขอบเขตของความยาวและความละเอียด แต่ยังคงอยู่ในระยะการวิจัยหรือระยะเบต้าที่จำกัดเป็นส่วนใหญ่
Midjourney V1 มีข้อจำกัดอะไรบ้าง?
แม้จะมีการสาธิตที่น่าประทับใจ แต่ V1 ก็มีข้อจำกัดอยู่บ้าง ผู้ใช้รุ่นแรกและรีวิวต่างๆ ชี้ให้เห็นถึงหลายจุดที่ต้องปรับปรุงก่อนที่จะได้รับการพิจารณาให้เป็นเครื่องมือที่พร้อมใช้งานจริง
ข้อจำกัดด้านระยะเวลาและความละเอียด
ปัจจุบัน V20 ถูกจำกัดความยาวไว้ที่ 1 วินาทีและจำกัดความละเอียดไว้ที่ระดับปานกลาง จึงยังไม่สามารถสร้างลำดับความยาวพิเศษหรือคลิปความละเอียดสูงที่เหมาะสำหรับการออกอากาศได้ ผู้ใช้ที่ต้องการรูปแบบที่ยาวขึ้นต้องต่อคลิปหลายคลิปเข้าด้วยกันด้วยตนเอง ซึ่งอาจทำให้เกิดการเปลี่ยนฉากที่สะดุดสายตา
สิ่งประดิษฐ์การเคลื่อนไหวและความสอดคล้อง
ผู้ตรวจสอบพบสิ่งแปลกปลอมที่เกิดขึ้นเป็นครั้งคราว เช่น การเสียรูปของวัตถุที่ไม่เป็นธรรมชาติ การเคลื่อนไหวที่สั่นไหว หรือแสงที่ไม่สม่ำเสมอในแต่ละเฟรม ปัญหาเหล่านี้เกิดจากความท้าทายโดยธรรมชาติของการขยายภาพนิ่งไปยังโดเมนเวลาโดยไม่มีข้อมูลการฝึกวิดีโอเฉพาะ
ต้นทุนการคำนวณ
การสร้างวิดีโอต้องใช้ทรัพยากร GPU มากกว่าภาพนิ่งอย่างมาก โมเดลการสมัครสมาชิกของ Midjourney ช่วยลดความซับซ้อนในการประมวลผล แต่เบื้องหลัง มีรายงานว่าต้นทุนต่อการสร้างวิดีโอนั้นสูงกว่าการเรนเดอร์ภาพทั่วไปถึงแปดเท่า ซึ่งอาจจำกัดความสามารถในการโต้ตอบแบบเรียลไทม์และความสามารถในการปรับขนาดสำหรับผู้ใช้หนัก
เวิร์กโฟลว์และการบูรณาการ
ผู้ใช้โต้ตอบกับฟีเจอร์วิดีโอผ่านตัวปรับแต่งคำแนะนำง่ายๆ เช่น การเพิ่ม –video หรือเลือก "Animate" ในโปรแกรมแก้ไขเว็บ ระบบจะสร้างรูปแบบต่างๆ สี่แบบต่อคำขอ คล้ายกับตารางรูปภาพ ช่วยให้สามารถเลือกและปรับแต่งได้อย่างต่อเนื่อง การผสานรวมกับ Discord ช่วยให้มั่นใจว่าคำสั่งวิดีโอจะสอดคล้องกับเวิร์กโฟลว์แชทที่มีอยู่อย่างเป็นธรรมชาติ ขณะที่ UI เว็บมีฟังก์ชันลากและวางและแถบเลื่อนพารามิเตอร์สำหรับความเข้มของการเคลื่อนไหวและการเคลื่อนไหวของกล้อง
ผู้ใช้ที่สนใจสามารถดำเนินการอะไรได้บ้างในวันนี้?
สำหรับผู้ที่ต้องการทดลองใช้ AI วิดีโอ Midjourney สามารถเข้าถึงได้ทันที แต่แนวทางปฏิบัติที่ดีที่สุดจะสามารถปรับผลลัพธ์ให้เหมาะสมได้
เคล็ดลับวิศวกรรมที่รวดเร็ว
- ระบุทิศทางการเคลื่อนที่ : ใส่คำอธิบาย เช่น "กล้องแพนไปทางซ้าย" หรือ "ตัวละครส่ายเบาๆ" เพื่อนำทางเวกเตอร์การเคลื่อนไหวของโมเดล
- รูปแบบศิลปะอ้างอิง: ใช้แท็กสไตล์ (เช่น "ในสไตล์ของ Studio Ghibli") เพื่อล็อกความสวยงามทางสายตาในแต่ละเฟรม
- ทำซ้ำด้วยเมล็ดพันธุ์: บันทึกหมายเลขเมล็ดพันธุ์จากการเรนเดอร์ที่ประสบความสำเร็จเพื่อสร้างซ้ำและปรับแต่งผลลัพธ์ให้สม่ำเสมอ
เวิร์กโฟลว์หลังการประมวลผล
เนื่องจากเอาต์พุต V1 เป็นคลิปสั้นๆ ผู้ใช้จึงมักต่อภาพเรนเดอร์หลายภาพเข้าด้วยกันในซอฟต์แวร์ตัดต่อวิดีโอ ปรับแต่งสี และทำให้เฟรมที่สั่นไหวมีความเสถียร การรวมเอาต์พุตของ Midjourney เข้ากับ After Effects หรือ Premiere Pro จะช่วยยกระดับคุณภาพของภาพยนตร์
ความขยันหมั่นเพียรด้านจริยธรรมและกฎหมาย
ก่อนนำไปใช้ในเชิงพาณิชย์ โปรดตรวจสอบให้แน่ใจว่ารูปภาพต้นฉบับและการอ้างอิงแบบทันทีเป็นไปตามข้อกำหนดสิทธิ์การใช้งาน ติดตามข่าวสารจาก Midjourney เกี่ยวกับการฝังลายน้ำและการกรองเนื้อหา เพื่อให้สอดคล้องกับแนวทางปฏิบัติที่ดีที่สุดในปัจจุบัน
Midjourney มีแผนงานอะไรในอนาคตหลังจาก V1?
การเปิดตัว V1 เป็นเพียงก้าวแรกในวิสัยทัศน์ที่กว้างขึ้นของ Midjourney ซึ่งรวมถึงการจำลองแบบเรียลไทม์ การเรนเดอร์ 3 มิติ และการโต้ตอบที่ได้รับการปรับปรุง
การจำลองโลกเปิดแบบเรียลไทม์
เดวิด โฮลซ์ อธิบายว่าการสร้างวิดีโอด้วย AI เป็นประตูสู่ “การจำลองโลกเปิดแบบเรียลไทม์” ซึ่งผู้ใช้สามารถนำทางสภาพแวดล้อมที่สร้างโดย AI ได้อย่างไดนามิก การบรรลุเป้าหมายนี้จำเป็นต้องอาศัยความก้าวหน้าในการลดเวลาแฝง การเพิ่มประสิทธิภาพการสตรีม และโครงสร้างพื้นฐานการประมวลผลที่ปรับขนาดได้
ความสามารถในการเรนเดอร์ 3 มิติ
หลังจากวิดีโอ Midjourney วางแผนที่จะขยายโมเดลของตนให้สามารถผลิตเนื้อหา 3 มิติได้โดยตรงจากข้อความหรือรูปภาพ ซึ่งจะช่วยให้นักพัฒนาเกม สถาปนิก และผู้สร้างโลกเสมือนจริงมีเครื่องมือสร้างต้นแบบอย่างรวดเร็ว
การควบคุมและการปรับแต่งที่ได้รับการปรับปรุง
คาดว่าเวอร์ชันในอนาคต (V2, V3 เป็นต้น) จะมอบการควบคุมการเคลื่อนไหวของกล้อง แสง และพฤติกรรมของวัตถุได้ละเอียดยิ่งขึ้น การผสานรวมกับซอฟต์แวร์แอนิเมชัน (เช่น Adobe Premiere Pro) ผ่านปลั๊กอินหรือ API จะช่วยเพิ่มประสิทธิภาพเวิร์กโฟลว์ระดับมืออาชีพ
ผู้สร้างมีปฏิกิริยาอย่างไรต่อฟีเจอร์วิดีโอของ Midjourney?
การต้อนรับในช่วงแรกจากศิลปิน นักออกแบบ และผู้สร้างเนื้อหา เต็มไปด้วยความตื่นเต้นและความระมัดระวัง
ความกระตือรือร้นในการสำรวจเชิงสร้างสรรค์
ผู้ใช้จำนวนมากต่างชื่นชมความสามารถในการเติมชีวิตชีวาให้กับงานศิลปะภาพนิ่ง โซเชียลมีเดียเต็มไปด้วยคลิปวิดีโอแนวทดลองมากมาย ทั้งภาพทิวทัศน์เหนือจริงที่พลิ้วไหวไปตามสายลม ตัวละครที่กระพริบตาและพูด และภาพนิ่งที่กลับมามีชีวิตชีวาอีกครั้ง
ความกังวลเกี่ยวกับคุณภาพและการควบคุม
นักแอนิเมชันมืออาชีพชี้ให้เห็นว่าผลลัพธ์ของ V1 แม้จะดูมีแนวโน้มที่ดี แต่กลับขาดความแม่นยำและความสม่ำเสมอที่จำเป็นสำหรับงานสร้างที่ประณีต การควบคุมพารามิเตอร์ที่จำกัดเมื่อเทียบกับซอฟต์แวร์แอนิเมชันเฉพาะทาง หมายความว่ายังคงจำเป็นต้องแก้ไขงานหลังการผลิตด้วยตนเอง
การปรับปรุงที่ขับเคลื่อนโดยชุมชน
ชุมชน Discord ของ Midjourney กลายเป็นแหล่งรวมความคิดเห็น คำขอฟีเจอร์ และเคล็ดลับการปรับแต่งแบบเร่งด่วน จังหวะการเปิดตัวแบบวนซ้ำของบริษัท ซึ่งประกาศในช่วง Office Hours วันที่ 23 กรกฎาคม ชี้ให้เห็นถึงการนำการปรับปรุงที่ขับเคลื่อนโดยผู้ใช้มาใช้อย่างรวดเร็ว
ใช้ MidJourney ใน CometAPI
CometAPI ช่วยให้เข้าถึงโมเดล AI ได้มากกว่า 500 โมเดล รวมถึงโมเดลโอเพ่นซอร์สและโมเดลมัลติโมดัลเฉพาะทางสำหรับการแชท รูปภาพ โค้ด และอื่นๆ จุดแข็งหลักของ CometAPI อยู่ที่การทำให้กระบวนการบูรณาการ AI ที่มีความซับซ้อนแบบดั้งเดิมนั้นง่ายขึ้น
โคเมทเอพีไอ เสนอราคาต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ API กลางการเดินทาง และ API วิดีโอ Midjourneyและคุณสามารถทดลองใช้งานฟรีได้ในบัญชีของคุณหลังจากลงทะเบียนและเข้าสู่ระบบ! ยินดีต้อนรับสู่การลงทะเบียนและสัมผัสประสบการณ์ CometAPI CometAPI จ่ายตามการใช้งาน เริ่มต้นใช้งานโดยสำรวจความสามารถของโมเดลต่างๆ ใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว
วิดีโอ Midjourney V1 รุ่น: นักพัฒนาสามารถบูรณาการการสร้างวิดีโอผ่าน RESTful API โครงสร้างคำขอทั่วไป (ตัวอย่าง)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_480", "mode": "fast", "animateMode": "manual" }'
การบุกเบิกสู่การสร้างวิดีโอของ Midjourney ถือเป็นการขยายขีดความสามารถด้าน AI เชิงสร้างสรรค์อย่างมีตรรกะ โดยผสานสไตล์ภาพที่โดดเด่นเข้ากับการเคลื่อนไหวและเวลา แม้ว่าข้อจำกัดในปัจจุบันด้านความละเอียด ความแม่นยำของการเคลื่อนไหว และความท้าทายทางกฎหมายจะจำกัดความสามารถในการนำไปใช้งานได้ทันที แต่ชุดฟีเจอร์ที่พัฒนาอย่างรวดเร็วและการมีส่วนร่วมของชุมชนก็ส่งสัญญาณถึงศักยภาพในการเปลี่ยนแปลง ไม่ว่าจะเป็นคลิปวิดีโอสั้นๆ สื่อการตลาด หรือภาพร่างก่อนการสร้างภาพ วิดีโอของ Midjourney ก็พร้อมที่จะกลายเป็นเครื่องมือที่ขาดไม่ได้ในชุดเครื่องมือสร้างสรรค์ AI หากสามารถก้าวข้ามขีดจำกัดทางเทคนิคและจริยธรรมที่รออยู่ข้างหน้า
