Genie 3: โมเดลโลกเรียลไทม์ใหม่ของ DeepMind สามารถกำหนด AI แบบโต้ตอบใหม่ได้หรือไม่

ในการเคลื่อนไหวที่เน้นย้ำถึงความรวดเร็วของ AI เชิงสร้างสรรค์ที่ก้าวข้ามข้อความและรูปภาพ Google DeepMind ได้เปิดตัวในวันนี้ Genie 3ซึ่งเป็น “แบบจำลองโลก” อเนกประสงค์ที่สามารถเปลี่ยนข้อความหรือภาพธรรมดาให้กลายเป็นสภาพแวดล้อม 3 มิติแบบอินเทอร์แอคทีฟที่นำทางได้และทำงานแบบเรียลไทม์ ระบบนี้ถือเป็นก้าวกระโดดจากการทดลองวิดีโอเชิงสร้างสรรค์และแบบจำลองโลกก่อนหน้านี้: Genie 3 สามารถสร้างสภาพแวดล้อม 720p นานหลายนาทีที่อัตราประมาณ 24 เฟรมต่อวินาที และที่สำคัญคือ สามารถรักษา หน่วยความจำเชิงพื้นที่ เพื่อให้การเปลี่ยนแปลงที่ผู้ใช้ทำนั้นยังคงอยู่ต่อไปแม้สถานการณ์จะเปลี่ยนไป DeepMind กำหนดให้ Genie 3 เป็นก้าวสำคัญด้านการวิจัยสำหรับการสร้างตัวแทนที่เป็นรูปธรรมและมีประสิทธิภาพมากขึ้น และสำหรับสภาพแวดล้อมการฝึกอบรมแบบสังเคราะห์ ซึ่งอาจช่วยเพิ่มความเร็วในการเรียนรู้ของหุ่นยนต์หรือสร้างสื่อแบบโต้ตอบรูปแบบใหม่ๆ ได้

Genie 3 คืออะไร? มีข้อดีอะไรบ้าง

สิ่งที่ Genie 3 ทำได้ซึ่งรุ่นก่อนหน้าทำไม่ได้: Genie 3 ได้รับการอธิบายโดย DeepMind ว่าเป็นโมเดลแรกของโลกในตระกูลที่สามารถทำได้ การโต้ตอบแบบเรียลไทม์ ด้วยฉากที่สร้างขึ้นซึ่งคงความสม่ำเสมอเป็นเวลาหลายนาที ในขณะที่ระบบก่อนหน้านี้ (รวมถึงต้นแบบ DeepMind ก่อนหน้าและเครื่องมือสร้างวิดีโออื่นๆ) สามารถสร้างคลิปสั้นๆ หรือภาพเรนเดอร์แบบคงที่ได้ แต่ Genie 3 ช่วยให้ผู้ใช้สามารถเดินเข้าไปในฉาก เปลี่ยนแปลงวัตถุ เปลี่ยนแปลงสภาพอากาศ หรือเคลื่อนย้ายตัวละคร และโมเดลจะจดจำการเปลี่ยนแปลงเหล่านั้นได้เมื่อสภาพแวดล้อมพัฒนาอย่างต่อเนื่อง ในการสาธิตที่เผยแพร่โดย DeepMind โมเดลนี้สร้างสภาพแวดล้อมที่ความละเอียด 720p และ 24 FPS ที่รักษาพลวัตที่สอดคล้องกันตลอดหลายนาทีแทนที่จะเป็นวินาที และรองรับ “เหตุการณ์โลกที่ทันท่วงที” เพื่อให้ผู้สร้างสามารถใช้คำแนะนำติดตามเพื่อเปลี่ยนแปลงสิ่งที่โลกทำ

วิธีการทำงาน

DeepMind วางกรอบ Genie 3 ให้เป็นรุ่นถัดไป โมเดลโลก: สถาปัตยกรรมประสาทเทียมที่ได้รับการฝึกฝนให้เข้าใจและจำลองพลวัตของสภาพแวดล้อม แทนที่จะสร้างเฟรมคงที่เพียงอย่างเดียว ระบบนี้ผสานรวมความสามารถในการสร้างวิดีโอเชิงสร้างสรรค์เข้ากับหน่วยความจำเชิงพื้นที่และการสร้างแบบจำลองพลวัต ทำให้สามารถสังเคราะห์ฉาก 3 มิติที่มีพื้นผิว และจำลองพฤติกรรมของวัตถุ แสง และตัวแทนเมื่อเวลาผ่านไป ในทางปฏิบัติ ผู้ใช้เพียงแค่ป้อนข้อความหรือรูปภาพสั้นๆ แบบจำลองจะขยายข้อความนั้นให้เป็นฉากที่เล่นได้ เรนเดอร์และอัปเดตด้วยอัตราเฟรมแบบอินเทอร์แอคทีฟ แม้ว่าบล็อกโพสต์ทางเทคนิคของ DeepMind จะไม่ได้เผยแพร่ขนาดโมเดลหลักหรือสูตรการฝึกแบบเต็มรูปแบบต่อสาธารณะ แต่ความก้าวหน้าที่สำคัญคือความสามารถที่เพิ่มขึ้นของโมเดลในการรักษา ความคงทนของวัตถุเค้าโครงฉาก และความสอดคล้องของเหตุการณ์ในแต่ละนาที

ความสามารถที่ได้รับการพิสูจน์

ในเอกสารที่ DeepMind เผยแพร่พร้อมกับการประกาศ Genie 3 ได้สาธิตความสามารถเด่นๆ หลายประการที่สร้างความตื่นเต้นให้กับนักวิจัยและสื่อมวลชน:

การสำรวจแบบโต้ตอบด้วยอัตราแบบเรียลไทม์ สภาพแวดล้อมที่สร้างขึ้นจะทำงานที่ประมาณ 24 FPS และสามารถนำทางได้แบบเรียลไทม์ ช่วยให้สามารถ "เล่นได้" แทนที่จะเป็นวิดีโอคลิปครั้งเดียว
การเปลี่ยนแปลงอย่างต่อเนื่องและความจำเชิงพื้นที่ การกระทำเช่นการทาสีผนังหรือการย้ายเก้าอี้จะยังคงอยู่และจะถูกสังเกตในภายหลังในเซสชัน ซึ่งบ่งชี้ระดับหน่วยความจำสำหรับตำแหน่งและสถานะของวัตถุ
เหตุการณ์โลกที่น่าตื่นตา ผู้ใช้สามารถแทรกคำสั่งใหม่ระหว่างเซสชันได้ (เช่น "ทำให้ฝนตก" หรือ "สร้างตัวละคร") และโมเดลจะอัปเดตฉากอย่างสอดคล้องกัน
รันไทม์ขยายออกไป ในขณะที่รุ่นก่อนหน้าวัดเป็นวินาทีของความต่อเนื่อง Genie 3 แสดงให้เห็นพฤติกรรมที่สอดคล้องกัน นาที ของการมีปฏิสัมพันธ์

คุณสมบัติเหล่านี้รวมกันทำให้ Genie 3 รู้สึกเหมือนเป็นเครื่องสำหรับเนื้อหาแบบโต้ตอบและการจำลองมากกว่าการสาธิตวิดีโอเชิงสร้างสรรค์

ความพร้อมใช้งานและข้อจำกัดในปัจจุบัน

DeepMind และการรายงานข่าวที่เกี่ยวข้องแสดงให้เห็นชัดเจนว่า Genie 3 คือ ไม่ ผลิตภัณฑ์ที่เข้าถึงผู้บริโภคได้ทันที ปัจจุบันโมเดลนี้อยู่ในโครงการวิจัย/ทดสอบ และเปิดให้เฉพาะพันธมิตรภายในและภายนอกกลุ่มจำกัดเพื่อการประเมินเท่านั้น ยังไม่มีกำหนดการเผยแพร่สู่สาธารณะอย่างเป็นทางการ นอกจากนี้ DeepMind และนักวิเคราะห์อิสระยังระบุถึงข้อจำกัดทางเทคนิคที่สำคัญ: แม้ว่าฉากต่างๆ จะสามารถโต้ตอบได้เป็นเวลาหลายนาที แต่ระบบยังไม่สามารถจำลองความเป็นจริงทางภูมิศาสตร์ขนาดใหญ่หรือไม่มีขอบเขตจำกัดได้ และยังคงสามารถเกิดความผิดพลาดหรือภาพหลอนได้ โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับข้อเท็จจริงในโลกแห่งความเป็นจริงที่มีรายละเอียดปลีกย่อย หรือฟิสิกส์ที่ซับซ้อน

สรุปแล้ว Genie 3 เป็นเพียงก้าวสำคัญด้านการวิจัย ไม่ใช่แพลตฟอร์มที่เสร็จสมบูรณ์ ได้มีการเผยแพร่การสาธิตและสื่ออธิบายต่อสาธารณะแล้ว แต่ยังไม่มีกำหนดการเปิดตัวอย่างเป็นทางการสำหรับผู้บริโภค

ใช้กรณี

กรณีการใช้งานที่สำคัญที่สุดที่ DeepMind เน้นย้ำคือ สภาพแวดล้อมการฝึกอบรมแบบสังเคราะห์ สำหรับตัวแทนที่เป็นรูปธรรมและหุ่นยนต์ โลกจำลอง หากมีความสมจริงเพียงพอและสอดคล้องกันภายใน สามารถใช้เป็นชุดข้อมูลขนาดใหญ่และต้นทุนต่ำสำหรับการสอนหุ่นยนต์เกี่ยวกับการนำทาง การจัดการสินค้าคงคลัง หรือการประสานงานระหว่างตัวแทนหลายตัว ก่อนที่นโยบายเหล่านั้นจะถูกถ่ายโอนไปยังโลกแห่งความเป็นจริง DeepMind ระบุอย่างชัดเจนว่า Genie 3 เป็นเครื่องมือในการเร่งการวิจัยตัวแทนที่เรียนรู้โดยการโต้ตอบกับสภาพแวดล้อม ซึ่งอาจทำให้วงจรระหว่างการจำลองและการใช้งานจริงสั้นลง สื่อต่างๆ ได้ชี้ให้เห็นถึงหุ่นยนต์ในคลังสินค้า โลจิสติกส์ และการใช้งานในอุตสาหกรรมอื่นๆ ซ้ำแล้วซ้ำเล่า ซึ่งประสบการณ์สังเคราะห์จำนวนมากอาจลดความจำเป็นในการทดลองจริงที่มีค่าใช้จ่ายสูง

นอกเหนือจากหุ่นยนต์แล้ว อุตสาหกรรมสร้างสรรค์ต่างๆ เช่น เกม VR/AR การสร้างภาพจำลองล่วงหน้าสำหรับภาพยนตร์ และการศึกษา ล้วนมีโอกาสได้ประโยชน์ ลองนึกภาพนักออกแบบเกมร่างฉากด้วยภาษาธรรมชาติและก้าวเข้าสู่ต้นแบบที่เล่นได้ทันที หรือนักการศึกษาสร้างฉากประวัติศาสตร์ที่สมจริงให้นักเรียนได้สำรวจ ความเป็นไปได้เหล่านี้กำลังขับเคลื่อนความตื่นเต้นในชุมชนเกมและ XR อยู่แล้ว

ความปลอดภัย ความรับผิดชอบ และการกำกับดูแล — สิ่งสำคัญที่ต้องให้ความสำคัญ

ประกาศของ DeepMind มีส่วนความรับผิดชอบ: ทีมงานตระหนักถึงความเสี่ยงที่เกิดขึ้นเมื่อแบบจำลองสามารถสร้างโลกเสมือนจริงที่น่าเชื่อถือได้ ความเสี่ยงเหล่านี้มีตั้งแต่การใช้งานในทางที่ผิด (สภาพแวดล้อมแบบดีปเฟกหรือการจำลองที่ปลอมแปลงอย่างน่าเชื่อถือ) ไปจนถึงความล้มเหลวด้านความปลอดภัยในแอปพลิเคชันปลายทาง (การไว้วางใจผลการฝึกอบรมจำลองมากเกินไปในระบบหุ่นยนต์ที่สำคัญ) DeepMind ระบุว่าจะยังคงวิจัยการบรรเทาผลกระทบอย่างต่อเนื่อง ซึ่งรวมถึงกรอบการประเมิน การทำงานเป็นทีม และการเปิดตัวกับพันธมิตรอย่างจำกัด มาตรการป้องกันตามขั้นตอน ความโปร่งใสเกี่ยวกับข้อจำกัด และการประเมินอย่างรอบคอบจะเป็นสิ่งสำคัญยิ่งเมื่อแบบจำลองโลกแพร่หลายมากขึ้น

ความรู้ทางเทคนิคที่ไม่ทราบและคำถามที่ยังไม่ได้รับคำตอบ

บล็อกและสื่อสิ่งพิมพ์ของ DeepMind จำเป็นต้องอยู่ในระดับสูง พวกเขาจงใจหลีกเลี่ยงการเผยแพร่รายละเอียดสถาปัตยกรรม ชุดข้อมูลฝึกอบรม หรือจำนวนพารามิเตอร์ของแบบจำลองอย่างครบถ้วน คำถามทางเทคนิคที่สำคัญยังคงเปิดกว้างสำหรับชุมชนนักวิจัย:

ความสม่ำเสมอของขอบฟ้าในระยะยาวเกิดขึ้นได้อย่างไร? DeepMind จะหารือเกี่ยวกับกลไกที่ Genie 3 ใช้รักษาความคงอยู่ของวัตถุตลอดหลายนาที (โมดูลหน่วยความจำ บัฟเฟอร์แบบเป็นตอน การแมปที่ชัดเจน) ในแง่แนวคิด แต่รายละเอียดทางเทคนิคและเกณฑ์มาตรฐานที่สามารถทำซ้ำได้จะเป็นสิ่งสำคัญสำหรับการตรวจยืนยัน
มันสามารถถ่ายโอนไปยังหุ่นยนต์ได้ดีเพียงใด? การถ่ายโอนจากการจำลองไปสู่ความเป็นจริงนั้นเป็นเรื่องที่ยากมาก ไม่ว่าฟิสิกส์และพลวัตจำลองของ Genie 3 จะ "ใกล้เคียง" พอสำหรับการถ่ายโอนนโยบายไปยังฮาร์ดแวร์จริงหรือไม่ จำเป็นต้องมีการตรวจสอบเชิงประจักษ์
โหมดความล้มเหลวมีอะไรบ้าง? แบบจำลองอาจเกิดภาพหลอนทางภูมิศาสตร์ ทำนายฟิสิกส์ผิดพลาด หรือคลาดเคลื่อนไปอย่างละเอียดอ่อนและอันตรายหากไม่ได้รับการอธิบาย จำเป็นต้องมีชุดการประเมินที่มีประสิทธิภาพและการตรวจสอบอิสระ

การตอบคำถามเหล่านี้จะกำหนดว่า Genie 3 จะเปลี่ยนจากการสาธิตการวิจัยไปเป็นเครื่องมือปฏิบัติสำหรับอุตสาหกรรมได้เร็วแค่ไหน

ผลกระทบต่ออุตสาหกรรม: เกม การสร้างเนื้อหา และแพลตฟอร์มคลาวด์

หากความสามารถของ Genie 3 ขยายตัวและพร้อมใช้งานภายใต้ API ของนักพัฒนาหรือบริการคลาวด์ ผลกระทบทางธุรกิจก็จะกว้างขวาง:

การพัฒนาเกม: การสร้างต้นแบบอย่างรวดเร็วและการสร้างเนื้อหาอาจช่วยลดระยะเวลาในการพัฒนา เนื้อหาเชิงกระบวนการอาจได้รับการปลูกฝังด้วยภาษาธรรมชาติแล้วจึงถูกปรับแต่งโดยนักออกแบบมนุษย์ บทวิจารณ์เบื้องต้นในสื่อเกมและบล็อก XR คาดการณ์ว่าเครื่องมือดังกล่าวอาจเปลี่ยนแปลงวิธีที่ทีมขนาดเล็กและนักพัฒนาอิสระสร้างโลกขึ้นมา
การผลิตและสื่อเสมือนจริง: ผู้สร้างภาพยนตร์และศิลปิน VFX สามารถใช้การสร้างฉากแบบโต้ตอบเพื่อสร้างภาพจำลองล่วงหน้า การสร้างสตอรี่บอร์ด และแม้กระทั่งเป็นผู้ช่วยด้านความคิดสร้างสรรค์ในการผลิตสภาพแวดล้อมเบื้องหลังหรือองค์ประกอบเสมือน
ความต้องการด้านคลาวด์และการประมวลผล: การสร้างแบบจำลองโลกแบบโต้ตอบแบบเรียลไทม์ในระดับขนาดใหญ่จะต้องมีโครงสร้างพื้นฐานการให้บริการที่เพียงพอ ผู้ให้บริการคลาวด์และผู้จำหน่าย GPU อาจมองเห็นความต้องการสแต็กอนุมานที่มีความหน่วงต่ำที่รองรับการสร้างเฟรมเรตสูง

กรณีการใช้งานเหล่านี้บ่งบอกถึงผลิตภัณฑ์ใหม่และรูปแบบการกำหนดราคา - จาก API ของนักพัฒนาแบบจ่ายตามการใช้งานไปจนถึงสัญญาจำลององค์กรสำหรับหุ่นยนต์และโลจิสติกส์

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

โคเมทเอพีไอ สัญญาว่าจะติดตามพลวัตของโมเดลล่าสุด รวมถึง Genie 3 ซึ่งจะวางจำหน่ายพร้อมกับการเปิดตัวอย่างเป็นทางการ โปรดติดตามและให้ความสนใจกับ CometAPI ต่อไป ระหว่างรอ คุณสามารถติดตามโมเดลอื่นๆ และสำรวจความสามารถของโมเดลได้ใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด นักพัฒนาสามารถเข้าถึงได้ จีพีที-5 ,GPT-5 Nano และ GPT-5 Mini ผ่าน โคเมทเอพีไอรุ่นล่าสุดของ cometAPI ที่ระบุไว้เป็นข้อมูล ณ วันที่เผยแพร่บทความ ก่อนเข้าถึง โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว

การปิดบันทึก

Genie 3 เป็นการเตือนใจว่าเรื่องราวของ AI เชิงสร้างสรรค์กำลังขยายวงกว้างขึ้น เราไม่ได้แค่สร้างงานเขียนและภาพให้เป็นระบบอัตโนมัติอีกต่อไป แต่เรากำลังฝึกอบรมระบบที่สามารถจินตนาการ เรนเดอร์ และดูแลรักษาโลกทั้งใบได้ การประกาศของ DeepMind ถือเป็นจุดเปลี่ยนสำคัญบนเส้นทางนี้ ซึ่งนำมาซึ่งทั้งโอกาสและความรับผิดชอบอย่างเท่าเทียมกัน ขณะที่นักวิจัยและผู้ปฏิบัติงานผลักดันโมเดลเหล่านี้ไปข้างหน้า ความโปร่งใส การตรวจสอบอย่างรอบคอบ และการกำกับดูแลจะเป็นตัวกำหนดว่าโลกจำลองจะกลายเป็นห้องปฏิบัติการที่ปลอดภัยสำหรับนวัตกรรม หรือเป็นแหล่งที่มาของความเสี่ยงทางสังคมใหม่ๆ

Genie 3 เป็นการสาธิตอันโดดเด่นที่แสดงให้เห็นว่า AI เชิงสร้างสรรค์กำลังก้าวเข้าสู่ขอบเขตของ โลกที่มีการโต้ตอบและคงอยู่ตลอดไปการผสมผสานระหว่างการเรนเดอร์แบบเรียลไทม์ ความสอดคล้องกันหลายนาที และเหตุการณ์ที่พร้อมท์ได้ของแบบจำลองนี้ ถือเป็นความก้าวหน้าที่สำคัญในการสร้างแบบจำลองโลก และการประยุกต์ใช้แบบจำลองนี้ในการวิจัยหุ่นยนต์ เกม และการผลิตเสมือนจริงนั้นเห็นได้ชัดเจนในทันที กล่าวโดยสรุปคือ พรมแดนระหว่างแบบจำลองโลกเพิ่งก้าวไปข้างหน้า — เส้นทางจากความก้าวหน้านั้นไปสู่ผลิตภัณฑ์ในชีวิตประจำวันจะถูกกำหนดโดยวิศวกรรม การกำกับดูแล และการตรวจสอบอย่างรอบคอบ