Midjourney กลายเป็นหนึ่งในโปรแกรมสร้างภาพ AI ที่ถูกพูดถึงมากที่สุดอย่างรวดเร็ว โดยผสานรวมโมเดลการกระจายแสงอันล้ำสมัยเข้ากับอินเทอร์เฟซ Discord ที่เข้าถึงได้ง่าย ในบทความนี้ เราจะสำรวจการทำงานภายในของ Midjourney โดยผสานรวมการพัฒนาล่าสุดจากซีรีส์ v7
Midjourney คืออะไร และเหตุใดจึงมีความสำคัญ?
Midjourney คือแพลตฟอร์มปัญญาประดิษฐ์ (AI) เชิงสร้างสรรค์ที่แปลงข้อความแจ้งเตือนให้เป็นรูปภาพคุณภาพสูง เปิดตัวแบบโอเพ่นเบต้าเมื่อวันที่ 12 กรกฎาคม 2022 โดย Midjourney, Inc. ซึ่งตั้งอยู่ในซานฟรานซิสโก และได้รับความนิยมอย่างรวดเร็วในหมู่ครีเอทีฟ ผู้ที่ชื่นชอบงานอดิเรก และองค์กรต่างๆ ด้วยความสะดวกในการใช้งานผ่าน Discord และชุดฟีเจอร์ขั้นสูงที่กำลังเติบโตอย่างต่อเนื่อง ซึ่งแตกต่างจากเครื่องมือศิลปะ AI รุ่นก่อนๆ Midjourney เน้นการปรับปรุงแบบวนซ้ำ โดยมอบตัวเลือกข้อความแจ้งเตือนที่หลากหลายให้กับผู้ใช้ พร้อมชุดพารามิเตอร์ที่แข็งแกร่งสำหรับปรับแต่งสไตล์ องค์ประกอบ และรายละเอียดต่างๆ
ความสำคัญของแพลตฟอร์มนี้มาจากทั้งความเชี่ยวชาญทางเทคนิคและอิทธิพลทางวัฒนธรรม ภายในสามปีหลังจากการเปิดตัวรุ่นเบต้า Midjourney มีผู้ใช้งานหลายล้านคน ก่อให้เกิดการถกเถียงเกี่ยวกับศิลปะ AI ทรัพย์สินทางปัญญา และอนาคตของอาชีพสร้างสรรค์ ณ วันที่ 3 เมษายน 2025 Midjourney ได้เปิดตัวเวอร์ชัน 7 ซึ่งเป็นรุ่นที่ล้ำหน้าที่สุดจนถึงปัจจุบัน พร้อมนำเสนอความสามารถอันล้ำสมัย เช่น Draft Mode และ Omni Reference
Midjourney ตีความคำเตือนของผู้ใช้ได้อย่างไร
การแยกวิเคราะห์ภาษาธรรมชาติ
เมื่อผู้ใช้ป้อนข้อความแจ้งเตือน เช่น /imagine a futuristic cityscape at dusk—Midjourney เริ่มแรกใช้ตัวเข้ารหัสข้อความโดยอิงจากแบบจำลองภาษาขนาดใหญ่ ตัวเข้ารหัสนี้จะแปลงสตริงให้เป็นการแสดงเชิงนามธรรม (ลำดับของการฝัง) ที่จับความหมายเชิงความหมาย ตัวบ่งชี้ทางสรีรวิทยา และคุณลักษณะที่วัดปริมาณได้ เช่น สีและความเข้มของแสง
การฝังแบบหลายโหมด
เนื่องจากเวอร์ชัน 7 รองรับทั้งอินพุตข้อความและรูปภาพในเวิร์กโฟลว์แบบรวม ไพพ์ไลน์ของ Midjourney จึงผสานการฝังพรอมต์เข้ากับการฝังรูปภาพที่เป็นทางเลือก ฟีเจอร์ Omni Reference ที่เปิดตัวในเวอร์ชัน 7 ช่วยให้ผู้ใช้สามารถอ้างอิงรูปภาพหลายภาพพร้อมกัน โดยให้น้ำหนักแต่ละภาพตามพารามิเตอร์ที่ผู้ใช้กำหนด จึงทำให้สามารถผสมผสานสไตล์ที่ปรับแต่งได้สูง
การปรับปรุงอย่างรวดเร็ว
Midjourney ยังวิเคราะห์โครงสร้างคำกระตุ้นโดยจดจำไวยากรณ์ "การถ่วงน้ำหนัก" (เช่น --iw สำหรับน้ำหนักภาพหรือ --ar สำหรับอัตราส่วนภาพ) และพารามิเตอร์เฉพาะ เช่น --stylize เพื่อปรับระดับการตีความทางศิลปะ การประมวลผลเบื้องต้นนี้ช่วยให้มั่นใจได้ว่าแบบจำลองการแพร่กระจายปลายทางจะได้รับทั้งแบบแผนความหมายและข้อจำกัดด้านรูปแบบที่แม่นยำตามที่ผู้ใช้ต้องการ
กระบวนการแพร่กระจายพื้นฐานคืออะไร?
แบบจำลองการแพร่กระจายแฝง
หัวใจสำคัญของการสร้างภาพของ Midjourney คือแบบจำลองการแพร่กระจายแฝง (LDM) กล่าวโดยสรุป LDM จะค่อยๆ ลดทอนสัญญาณรบกวนเวกเตอร์สัญญาณรบกวนแบบสุ่มในพื้นที่แฝงมิติสูง โดยได้รับคำแนะนำจากการฝังตัวแบบพรอมต์ แต่ละขั้นตอนของการลดทอนสัญญาณรบกวนจะปรับการแสดงภาพแฝงเล็กน้อยเพื่อให้ได้ภาพที่สอดคล้องกัน โดยใช้ประโยชน์จากสถาปัตยกรรมประสาทแบบ U-Net เพื่อทำนายและกำจัดสัญญาณรบกวน
การแนะนำการใส่ใจแบบไขว้
ในแต่ละรอบการวนซ้ำ ชั้น cross-attention ช่วยให้เครือข่ายสามารถ "ใส่ใจ" เฉพาะบางส่วนของข้อความที่ฝังอยู่ เพื่อให้แน่ใจว่าคำบางคำ (เช่น "gothic cathedral") มีผลต่อภาพที่ปรากฏอย่างชัดเจนยิ่งขึ้น กลไกนี้ช่วยเพิ่มความเที่ยงตรงให้กับเจตนาของผู้ใช้ และรองรับองค์ประกอบที่ซับซ้อนโดยไม่ต้องปรับแต่งพารามิเตอร์ด้วยตนเอง
การถอดรหัสเป็นพื้นที่พิกเซล
เมื่อขั้นตอนการแพร่กระจายในพื้นที่แฝงเสร็จสมบูรณ์ เครือข่ายตัวถอดรหัสจะแปลงการแสดงผลแฝงขั้นสุดท้ายกลับเข้าไปในพื้นที่พิกเซล ทำให้เกิดภาพที่มีความละเอียดเต็ม ตัวถอดรหัสนี้ได้รับการฝึกฝนร่วมกับแบบจำลองการแพร่กระจายเพื่อให้แน่ใจว่าการจัดการแฝงและผลลัพธ์ภาพมีความสอดคล้องกัน ส่งผลให้ได้ภาพที่แสดงถึงทั้งความถูกต้องเชิงแนวคิดและความงดงามทางสุนทรียศาสตร์
สถาปัตยกรรมของ Midjourney จัดระเบียบอย่างไร?
ตัวเข้ารหัสข้อความ
โดยทั่วไปแล้ว ตัวเข้ารหัสข้อความจะเป็นตัวแปลงที่ฝึกฝนจากคอร์ปัสขนาดใหญ่ของคำบรรยายภาพและชุดข้อมูลข้อความ-ภาพแบบจับคู่ ในเวอร์ชัน 7 มีรายงานว่า Midjourney ได้เปลี่ยนไปใช้สถาปัตยกรรมที่มีประสิทธิภาพมากขึ้น ซึ่งช่วยลดความหน่วงขณะเดียวกันก็ปรับปรุงการจัดตำแหน่งเชิงความหมายระหว่างพรอมต์และภาพ
โครงสร้างการแพร่กระจาย U-Net
โครงสร้างหลักของการแพร่กระจาย U-Net ประกอบด้วยเส้นทางการสุ่มตัวอย่างแบบดาวน์แซมปลิงและอัพแซมปลิงหลายเส้นทาง สลับกับบล็อกที่เหลือและโมดูลความสนใจ โครงข่ายนี้รับผิดชอบกระบวนการกำจัดสัญญาณรบกวนแบบวนซ้ำ โดยผสานรวมคำแนะนำที่รวดเร็วในแต่ละระดับความละเอียด เพื่อรักษาความสอดคล้องโดยรวมและรายละเอียดที่ละเอียด
ตัวถอดรหัสภาพ
ตัวถอดรหัสภาพขั้นสุดท้ายจะแมปเวกเตอร์แฝงกับค่าพิกเซล RGB ในการอัปเดตล่าสุด ตัวถอดรหัสของ Midjourney ได้รับการปรับปรุงให้รองรับความละเอียดสูงขึ้น (สูงสุด 2048×2048) โดยไม่ทำให้การใช้หน่วยความจำ GPU เพิ่มขึ้นตามสัดส่วน เนื่องจากกลไกการใส่ใจประสิทธิภาพการใช้หน่วยความจำที่นำมาใช้ใน V7
กระบวนการสร้างภาพทำงานอย่างไรทีละขั้นตอน?
การแยกวิเคราะห์และการเข้ารหัสอย่างรวดเร็ว
เมื่อได้รับ /imagine a serene mountain lake at sunriseบอท Discord ของ Midjourney จะส่งต่อข้อความไปยังแบ็กเอนด์ ตัวสร้างโทเค็นจะแยกพรอมต์ออกเป็นโทเค็น ซึ่งตัวแปลงจะแปลงเป็นเอ็มเบดดิ้ง แฟล็กพารามิเตอร์ใดๆ (เช่น --ar 16:9) จะถูกแยกวิเคราะห์แยกกันและผนวกเป็นอินพุตของสไตล์
กระบวนการแพร่กระจาย
- การเขียนอักษรย่อ:มีการสร้างเทนเซอร์สัญญาณรบกวนแบบสุ่มในพื้นที่แฝง
- วงจรลดเสียงรบกวน:สำหรับแต่ละช่วงเวลา UNet จะทำนายค่าตกค้างของสัญญาณรบกวนที่ถูกกำหนดเงื่อนไขจากการฝังข้อความ แบบจำลองจะลบค่าตกค้างเหล่านี้ออกจากค่าแฝงปัจจุบัน แล้วค่อยๆ ปรับแต่งเพื่อให้ได้ภาพที่ชัดเจน
- การสุ่มตัวอย่าง:หลังจากขั้นตอนการลดสัญญาณรบกวนขั้นสุดท้ายแล้ว สัญญาณแฝงจะถูกถอดรหัสกลับเข้าไปในพื้นที่พิกเซล และสร้างภาพที่มีความละเอียด 512×512 (หรือแบบกำหนดเอง)
การปรับขนาดและการปรับแต่ง
จากนั้นผู้ใช้จะเลือก "Upscale" ตัวเลือกที่ชื่นชอบจากสี่ตัวเลือกที่สร้างขึ้น Midjourney ใช้เครือข่ายความละเอียดสูงพิเศษ ซึ่งเป็นรูปแบบหนึ่งของ ESRGAN เพื่อปรับปรุงรายละเอียดและลดสิ่งแปลกปลอม แพลตฟอร์มนี้ยังรองรับการรีโรล การรีมิกซ์เฉพาะพื้นที่ และการอัปแซมปลิงที่ความละเอียดมากกว่าความละเอียดเดิมสำหรับผลลัพธ์คุณภาพการพิมพ์
มีฟีเจอร์ใหม่อะไรบ้างที่กำหนดเวอร์ชัน 7?
การอ้างอิง Omni
Omni Reference คือระบบเสริมประสิทธิภาพที่ครอบคลุมทั้งระบบ ซึ่งช่วยให้ผู้ใช้สามารถรวมการอ้างอิงรูปภาพและข้อความหลายรายการไว้ในพรอมต์เดียว ด้วยการกำหนดค่าน้ำหนักให้กับการอ้างอิงแต่ละรายการ ผู้ใช้จึงสามารถควบคุมการผสมผสานสไตล์ได้อย่างเหนือชั้น ช่วยให้ได้ผลลัพธ์ที่ผสมผสานองค์ประกอบภาพที่แตกต่างกันได้อย่างราบรื่น
โหมดร่าง
โหมดร่างช่วยให้สามารถดูตัวอย่างภาพที่สร้างขึ้นได้อย่างรวดเร็วด้วยความละเอียดต่ำ ซึ่งช่วยให้สามารถทำซ้ำได้อย่างรวดเร็ว โดยผู้ใช้สามารถตรวจสอบร่าง ปรับคำสั่งหรือพารามิเตอร์ และยืนยันการเรนเดอร์คุณภาพสูงได้ก็ต่อเมื่อพึงพอใจแล้วเท่านั้น โหมดร่างมักจะทำงานได้เร็วกว่าการเรนเดอร์เต็มรูปแบบถึงสามถึงห้าเท่า ซึ่งช่วยปรับปรุงประสิทธิภาพเวิร์กโฟลว์ได้อย่างมาก
ปรับปรุงรายละเอียดและความสอดคล้องกัน
เวอร์ชัน 7 ยังได้นำเสนอระบบการฝึกที่ปรับปรุงใหม่ ซึ่งเน้นการเรนเดอร์ร่างกายและวัตถุให้มีความสม่ำเสมอ ส่งผลให้ปัญหาต่างๆ เช่น มือผิดรูปหรือพื้นผิวที่ไม่สอดคล้องกัน ซึ่งเป็นปัญหาที่พบได้ในรุ่นก่อนหน้า ลดลงอย่างมาก ทำให้ได้ภาพสุดท้ายที่น่าเชื่อถือมากขึ้น ทั้งในด้านการสร้างสรรค์และการใช้งานเชิงพาณิชย์
ใช้ MidJourney ใน CometAPI
CometAPI ช่วยให้เข้าถึงโมเดล AI ได้มากกว่า 500 โมเดล รวมถึงโมเดลโอเพ่นซอร์สและโมเดลมัลติโมดัลเฉพาะทางสำหรับการแชท รูปภาพ โค้ด และอื่นๆ จุดแข็งหลักของ CometAPI อยู่ที่การทำให้กระบวนการบูรณาการ AI ที่มีความซับซ้อนแบบดั้งเดิมนั้นง่ายขึ้น
โคเมทเอพีไอ เสนอราคาต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ API กลางการเดินทาง และ API วิดีโอ Midjourneyและคุณสามารถทดลองใช้งานฟรีในบัญชีของคุณได้หลังจากลงทะเบียนและเข้าสู่ระบบแล้ว! ยินดีต้อนรับสู่การลงทะเบียนและสัมผัสประสบการณ์ CometAPICometAPI จ่ายตามการใช้งาน
ใช้ v7 เพื่อสร้างภาพ: ก่อนที่จะใช้ MidJourney V7 เพื่อสร้างภาพ คุณต้องเริ่มสร้างบน CometAPI วันนี้ – ลงทะเบียน เข้าใช้งานได้ฟรีที่นี่ กรุณาเยี่ยมชม เอกสารการเริ่มต้นใช้งาน MidJourney V7 นั้นง่ายมาก เพียงเพิ่ม --v 7 พารามิเตอร์ที่ส่วนท้ายของพรอมต์ของคุณ คำสั่งง่ายๆ นี้จะบอก CometAPI ให้ใช้โมเดล V7 ล่าสุดเพื่อสร้างอิมเมจของคุณ
โดยสรุป รากฐานทางเทคโนโลยีของ Midjourney ซึ่งยึดโยงกับการเข้ารหัสข้อความขั้นสูง การสร้างแบบจำลองการแพร่กระจาย และการวนซ้ำที่ขับเคลื่อนโดยชุมชน ก่อให้เกิดแพลตฟอร์มอเนกประสงค์ที่ขยายขอบเขตความคิดสร้างสรรค์อย่างต่อเนื่อง เครื่องมือสร้างวิดีโอ AI ล่าสุดนี้ถือเป็นก้าวสำคัญสู่การสร้างสื่อสร้างสรรค์แบบดื่มด่ำ แม้ในยามที่ความท้าทายทางกฎหมายที่ได้รับความสนใจสูงกระตุ้นให้เกิดการไตร่ตรองอย่างมีวิจารณญาณเกี่ยวกับการพัฒนา AI อย่างมีความรับผิดชอบ การทำความเข้าใจกลไกการทำงานภายในของ Midjourney ช่วยให้เห็นพลวัตที่กว้างขึ้นของความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI ในศตวรรษที่ 21 และเป็นต้นแบบสำหรับนวัตกรรมในอนาคต
