ในวันที่ 20 พฤษภาคม 2025 Google DeepMind ได้เปิดตัวอย่างเงียบๆ การแพร่กระจายของราศีเมถุนโมเดลการแพร่กระจายข้อความในเชิงทดลองที่สัญญาว่าจะปรับเปลี่ยนภูมิทัศน์ของ AI เชิงสร้างสรรค์ โมเดลต้นแบบการวิจัยล้ำสมัยนี้ได้รับการจัดแสดงในงาน Google I/O 2025 โดยใช้เทคนิคการแพร่กระจายซึ่งเป็นที่นิยมในการสร้างรูปภาพและวิดีโอ เพื่อสร้างข้อความและโค้ดที่สอดคล้องกันโดยปรับแต่งสัญญาณรบกวนแบบสุ่มซ้ำๆ เกณฑ์มาตรฐานในช่วงแรกแนะนำว่าโมเดลนี้เทียบเคียงได้กับและในบางกรณีก็ทำได้ดีกว่าโมเดลที่ใช้ตัวแปลงที่มีอยู่ของ Google ในด้านความเร็วและคุณภาพ
Gemini Diffusion คืออะไร?
การแพร่กระจายถูกนำไปใช้กับการสร้างข้อความและโค้ดอย่างไร?
โมเดลภาษาขนาดใหญ่แบบดั้งเดิม (LLM) พึ่งพาสถาปัตยกรรมอัตโนมัติ โดยสร้างเนื้อหาทีละโทเค็นโดยทำนายคำถัดไปโดยอิงตามเอาต์พุตก่อนหน้าทั้งหมด ในทางตรงกันข้าม การแพร่กระจายของราศีเมถุน เริ่มต้นด้วยฟิลด์ของ "สัญญาณรบกวน" แบบสุ่ม และปรับแต่งสัญญาณรบกวนนี้ซ้ำๆ กันเป็นข้อความที่สอดคล้องกันหรือโค้ดที่เรียกใช้ได้ผ่านลำดับขั้นตอนการกำจัดสัญญาณรบกวน รูปแบบนี้สะท้อนถึงวิธีการที่โมเดลการแพร่กระจาย เช่น Imagen และ Stable Diffusion สร้างภาพ แต่เป็นครั้งแรกที่มีการปรับวิธีการดังกล่าวให้เหมาะกับการสร้างข้อความด้วยความเร็วเทียบเท่ากับการผลิต
เหตุใด “เสียงรบกวนต่อเรื่องราว” จึงมีความสำคัญ
ลองนึกภาพสัญญาณรบกวนบนหน้าจอโทรทัศน์เมื่อไม่มีสัญญาณ—ภาพสั่นไหวแบบสุ่มโดยไม่มีรูปแบบ ใน AI ที่ใช้การแพร่กระจาย สัญญาณรบกวนดังกล่าวเป็นจุดเริ่มต้น โดยโมเดลจะ “ปั้น” ความหมายจากความสับสนวุ่นวาย ค่อยๆ กำหนดโครงสร้างและความหมาย มุมมองแบบองค์รวมนี้ในแต่ละขั้นตอนการปรับแต่งช่วยให้แก้ไขตัวเองได้โดยธรรมชาติ บรรเทาปัญหาต่างๆ เช่น ความไม่สอดคล้องกันหรือ “ภาพหลอน” ที่อาจก่อกวนโมเดลแบบโทเค็นต่อโทเค็น
นวัตกรรมและความสามารถที่สำคัญ
- การผลิตแบบเร่งรัด:Gemini Diffusion สามารถสร้างข้อความเป็นบล็อกได้ทั้งหมดพร้อมกัน ซึ่งช่วยลดเวลาแฝงได้อย่างมากเมื่อเทียบกับวิธีการสร้างทีละโทเค็น .()
- ความสอดคล้องที่เพิ่มขึ้น:การสร้างกลุ่มข้อความที่ใหญ่ขึ้นในครั้งเดียวทำให้โมเดลมีความสอดคล้องกับบริบทมากขึ้น ส่งผลให้ผลลัพธ์มีความสอดคล้องและมีโครงสร้างตามตรรกะมากขึ้น ()
- การปรับแต่งซ้ำ:สถาปัตยกรรมของโมเดลช่วยให้สามารถแก้ไขข้อผิดพลาดแบบเรียลไทม์ในระหว่างกระบวนการสร้างข้อมูล จึงช่วยเพิ่มความแม่นยำและคุณภาพของผลลัพธ์สุดท้าย ()
เหตุใด Google จึงพัฒนา Gemini Diffusion?
การแก้ไขปัญหาคอขวดด้านความเร็วและเวลาแฝง
แม้ว่าแบบจำลองถดถอยอัตโนมัติจะมีประสิทธิภาพ แต่ก็ต้องเผชิญข้อจำกัดด้านความเร็วพื้นฐาน โทเค็นแต่ละตัวจะขึ้นอยู่กับบริบทก่อนหน้า ทำให้เกิดคอขวดแบบต่อเนื่อง Gemini Diffusion ขัดขวางข้อจำกัดนี้โดยเปิดใช้งานการปรับแต่งแบบขนานในทุกตำแหน่ง ส่งผลให้ การสร้างแบบ end-to-end เร็วขึ้น 4–5 เท่า เมื่อเปรียบเทียบกับคู่เทียบอัตโนมัติที่มีขนาดใกล้เคียงกัน การเร่งความเร็วนี้สามารถแปลเป็นค่าความหน่วงที่ต่ำลงสำหรับแอปพลิเคชันแบบเรียลไทม์ ตั้งแต่แชทบ็อตไปจนถึงผู้ช่วยเขียนโค้ด
การบุกเบิกเส้นทางใหม่สู่ AGI
นอกเหนือจากความเร็วแล้ว มุมมองแบบองค์รวมที่วนซ้ำของการแพร่กระจายยังสอดคล้องกับความสามารถหลักของปัญญาประดิษฐ์ทั่วไป (AGI) ได้แก่ การใช้เหตุผล การสร้างแบบจำลองโลก และการสังเคราะห์เชิงสร้างสรรค์ ผู้นำของ Google DeepMind มองเห็น Gemini Diffusion เป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นเพื่อสร้างระบบ AI เชิงรุกที่คำนึงถึงบริบทมากขึ้น ซึ่งสามารถทำงานได้อย่างราบรื่นในสภาพแวดล้อมดิจิทัลและทางกายภาพ
Gemini Diffusion ทำงานอย่างไรภายใต้ประทุน?
วงจรฉีดเสียงรบกวนและการลดเสียงรบกวน
- การเขียนอักษรย่อ:แบบจำลองเริ่มต้นด้วยเทนเซอร์สัญญาณรบกวนแบบสุ่ม
- ขั้นตอนการลดเสียงรบกวน:ในการทำซ้ำแต่ละครั้ง เครือข่ายประสาทจะทำนายวิธีการลดสัญญาณรบกวนเล็กน้อย โดยได้รับคำแนะนำจากรูปแบบที่เรียนรู้ของภาษาหรือโค้ด
- ความประณีต:ขั้นตอนที่ทำซ้ำจะบรรจบกันไปสู่ผลลัพธ์ที่มีความสอดคล้องกัน โดยในแต่ละรอบจะช่วยให้แก้ไขข้อผิดพลาดได้ครอบคลุมบริบททั้งหมด แทนที่จะต้องพึ่งพาโทเค็นในอดีตเพียงอย่างเดียว
นวัตกรรมทางสถาปัตยกรรม
- ความเท่าเทียม:การแยกการอ้างอิงโทเค็นออกจากกัน ทำให้การแพร่กระจายสามารถอัปเดตพร้อมกันได้ ส่งผลให้ใช้ฮาร์ดแวร์ได้เต็มประสิทธิภาพ
- ประสิทธิภาพของพารามิเตอร์:เกณฑ์มาตรฐานในระยะเริ่มต้นแสดงให้เห็นถึงประสิทธิภาพที่ทัดเทียมกับโมเดลอัตโนมัติถดถอยขนาดใหญ่แม้จะมีสถาปัตยกรรมที่กะทัดรัดกว่า
- การแก้ไขตนเองลักษณะของการวนซ้ำนั้นรองรับการปรับปรุงในช่วงกลางรุ่นโดยเนื้อแท้ ซึ่งมีความสำคัญสำหรับงานที่ซับซ้อน เช่น การดีบักโค้ดหรือการอนุมานทางคณิตศาสตร์
เกณฑ์มาตรฐานใดบ้างที่แสดงให้เห็นถึงประสิทธิภาพของ Gemini Diffusion?
ความเร็วในการสุ่มตัวอย่างโทเค็น
รายงานการทดสอบภายในของ Google อัตราการสุ่มตัวอย่างเฉลี่ย 1,479 โทเค็นต่อวินาทีก้าวกระโดดอย่างมากเมื่อเทียบกับรุ่น Gemini Flash ก่อนหน้า แม้ว่าจะมีค่าใช้จ่ายในการเริ่มต้นโดยเฉลี่ยอยู่ที่ 0.84 วินาทีต่อคำขอ เมตริกนี้เน้นย้ำถึงความสามารถของการแพร่กระจายสำหรับแอปพลิเคชันที่มีปริมาณงานสูง
การประเมินการเข้ารหัสและการใช้เหตุผล
- HumanEval (การเข้ารหัส):อัตราการผ่าน 89.6% ใกล้เคียงกับ Gemini 2.0 Flash-Lite ที่มี 90.2%
- MBPP (การเข้ารหัส):76.0% เทียบกับ 75.8% ของ Flash-Lite
- BIG-Bench Extra Hard (เหตุผล):15.0% ต่ำกว่า Flash-Lite ที่ 21.0%
- MMLU ระดับโลก (หลายภาษา):69.1% เมื่อเทียบกับ 79.0% ของ Flash-Lite
ผลลัพธ์ที่ผสมผสานเหล่านี้เผยให้เห็นความสามารถที่โดดเด่นของ Diffusion สำหรับงานแบบวนซ้ำในพื้นที่ (เช่น การเขียนโค้ด) และเน้นย้ำถึงพื้นที่ต่างๆ เช่น การใช้เหตุผลเชิงตรรกะที่ซับซ้อนและความเข้าใจในหลายภาษา ซึ่งการปรับปรุงด้านสถาปัตยกรรมยังคงมีความจำเป็น
Gemini Diffusion เปรียบเทียบกับรุ่น Gemini ก่อนหน้าได้อย่างไร?
Flash-Lite เทียบกับ Pro เทียบกับ Diffusion
- เจมินี่ 2.5 แฟลช-ไลท์ มอบการอนุมานที่คุ้มต้นทุนและปรับความล่าช้าให้เหมาะสมสำหรับงานทั่วไป
- ราศีเมถุน 2.5 โปร มุ่งเน้นไปที่การใช้เหตุผลและการเข้ารหัสเชิงลึก โดยมีโหมด “Deep Think” สำหรับย่อยปัญหาที่ซับซ้อน
- การแพร่กระจายของราศีเมถุน เชี่ยวชาญในด้านการสร้างที่รวดเร็วทันใจและเอาต์พุตที่แก้ไขได้เอง โดยวางตำแหน่งตัวเองเป็นแนวทางเสริมมากกว่าการทดแทนโดยตรง
จุดแข็งและข้อ จำกัด
- จุดแข็ง: ความเร็ว ความสามารถในการแก้ไข ประสิทธิภาพของพารามิเตอร์ ประสิทธิภาพที่แข็งแกร่งในงานโค้ด
- ข้อ จำกัด:ประสิทธิภาพที่ลดลงในการใช้เหตุผลเชิงนามธรรมและเกณฑ์มาตรฐานหลายภาษา ใช้หน่วยความจำมากขึ้นเนื่องจากต้องทำการกำจัดสัญญาณรบกวนหลายครั้ง ความสมบูรณ์ของระบบนิเวศล่าช้ากว่าเครื่องมืออัตโนมัติ
คุณสามารถเข้าถึง Gemini Diffusion ได้อย่างไร?
การเข้าร่วมโปรแกรมการเข้าถึงล่วงหน้า
Google ได้เปิด รายชื่อผู้รอ สำหรับการสาธิต Gemini Diffusion แบบทดลอง นักพัฒนาและนักวิจัยสามารถลงทะเบียนได้ทางบล็อก Google DeepMind การเข้าถึงล่วงหน้ามีจุดมุ่งหมายเพื่อรวบรวมคำติชม ปรับปรุงโปรโตคอลความปลอดภัย และปรับเวลาแฝงให้เหมาะสมก่อนเปิดตัวในวงกว้าง
ความพร้อมใช้งานและการบูรณาการในอนาคต
แม้ว่าจะยังไม่มีการประกาศวันวางจำหน่ายที่ชัดเจน แต่ Google ก็ให้คำใบ้ว่า พร้อมทั่วไป สอดคล้องกับการอัปเดต Gemini 2.5 Flash-Lite ที่กำลังจะมีขึ้น เส้นทางการรวมระบบที่คาดหวังไว้มีดังนี้:
- กูเกิล เอไอ สตูดิโอ เพื่อการทดลองแบบโต้ตอบ
- API ราศีเมถุน เพื่อการปรับใช้ที่ราบรื่นในกระบวนการผลิต
- แพลตฟอร์มของบุคคลที่สาม (เช่น Hugging Face) ซึ่งเป็นเจ้าภาพในการเปิดตัวจุดตรวจล่วงหน้าสำหรับการวิจัยทางวิชาการและเกณฑ์มาตรฐานที่ขับเคลื่อนโดยชุมชน
Google DeepMind ได้นำเสนอบทต่อไปของนวัตกรรม AI โดยการคิดใหม่เกี่ยวกับการสร้างข้อความและโค้ดผ่านเลนส์ของการแพร่กระจาย ไม่ว่า Gemini Diffusion จะเป็นผู้นำมาตรฐานใหม่หรือจะอยู่ร่วมกับยักษ์ใหญ่ด้านการประมวลผลอัตโนมัติ การผสมผสานระหว่างความเร็วและความสามารถในการแก้ไขตัวเองของ Gemini Diffusion สัญญาว่าจะปรับเปลี่ยนวิธีการที่เราสร้าง ปรับแต่ง และเชื่อถือระบบ AI เชิงสร้างสรรค์
เริ่มต้นใช้งาน
CometAPI มอบอินเทอร์เฟซ REST แบบรวมที่รวบรวมโมเดล AI หลายร้อยโมเดล รวมถึงตระกูล Gemini ภายใต้จุดสิ้นสุดที่สอดคล้องกัน พร้อมการจัดการคีย์ API ในตัว โควตาการใช้งาน และแดชบอร์ดการเรียกเก็บเงิน แทนที่จะต้องจัดการ URL และข้อมูลรับรองของผู้ขายหลายราย
นักพัฒนาสามารถเข้าถึงได้ API ของ Gemini 2.5 Flash เบื้องต้น (รุ่น:gemini-2.5-flash-preview-05-20) and API เจมินี่ 2.5 โปร (รุ่น:gemini-2.5-pro-preview-05-06)ฯลฯ ผ่านทาง โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว
