Gemini 3 Pro (Preview) เป็นโมเดลการให้เหตุผลแบบมัลติโมดัลเรือธงรุ่นใหม่ล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 ถูกวางตำแหน่งว่าเป็น “โมเดลที่ฉลาดที่สุดเท่าที่เคยมีมา” ออกแบบเพื่อการให้เหตุผลเชิงลึก เวิร์กโฟลว์เชิงตัวแทน การเขียนโค้ดขั้นสูง และความเข้าใจแบบมัลติโมดัลในบริบทยาว (ข้อความ ภาพ เสียง วิดีโอ โค้ด และการผสานเครื่องมือ)
คุณสมบัติหลัก
- รูปแบบสื่อ: ข้อความ ภาพ วิดีโอ เสียง, PDF (และผลลัพธ์เครื่องมือแบบมีโครงสร้าง)
- เชิงตัวแทน/เครื่องมือ: การเรียกใช้ฟังก์ชันในตัว, การค้นหาเป็นเครื่องมือ, การรันโค้ด, บริบทจาก URL และรองรับการจัดการเอเจนต์หลายขั้นตอน กลไก thought-signature ช่วยคงการให้เหตุผลหลายขั้นตอนข้ามการเรียกใช้งาน
- การเขียนโค้ด & “vibe coding”: ปรับให้เหมาะสำหรับการสร้างส่วนหน้า การสร้าง UI แบบโต้ตอบ และการโค้ดเชิงตัวแทน (ติดอันดับสูงสุดในลีดเดอร์บอร์ดที่ Google รายงาน) ถูกทำการตลาดว่าเป็นโมเดล “vibe-coding” ที่แข็งแกร่งที่สุดของพวกเขา
- ตัวควบคุมใหม่สำหรับนักพัฒนา:
thinking_level(low|high) เพื่อแลกเปลี่ยนต้นทุน/เวลาแฝงกับความลึกของการให้เหตุผล และmedia_resolutionควบคุมความเที่ยงตรงมัลติโมดัลต่อภาพหรือเฟรมวิดีโอ สิ่งเหล่านี้ช่วยปรับสมดุลระหว่างประสิทธิภาพ เวลาแฝง และต้นทุน
ผลงานบนเบนช์มาร์ก
- Gemini3Pro ได้อันดับหนึ่งใน LMARE ด้วยคะแนน 1501 แซง Grok-4.1-thinking ที่ 1484 คะแนน และยังนำหน้า Claude Sonnet 4.5 และ Opus 4.1
- ได้อันดับหนึ่งในสนามโปรแกรมมิง WebDevArena ด้วยคะแนน 1487
- ใน Humanity’s Last Exam ด้านการให้เหตุผลเชิงวิชาการ ทำได้ 37.5% (ไม่ใช้เครื่องมือ); ใน GPQA Diamond ด้านวิทยาศาสตร์ 91.9%; และใน MathArena Apex ด้านคณิตศาสตร์ 23.4% สร้างสถิติใหม่
- ในความสามารถมัลติโมดัล MMMU-Pro ทำได้ 81%; และใน Video-MMMM ด้านความเข้าใจวิดีโอ 87.6%

รายละเอียดทางเทคนิคและสถาปัตยกรรม
- พารามิเตอร์ “thinking level”: Gemini 3 มีตัวควบคุม
thinking_levelที่ให้ผู้พัฒนาแลกเปลี่ยนความลึกของการให้เหตุผลภายในกับเวลาแฝง/ต้นทุน โมเดลมองthinking_levelเป็นโควตาเชิงสัมพันธ์สำหรับการให้เหตุผลหลายขั้นตอนภายใน มากกว่าการรับประกันโทเคนแบบตายตัว ค่าเริ่มต้นของรุ่น Pro มักเป็นhighนี่เป็นตัวควบคุมใหม่ที่ชัดเจนเพื่อปรับจูนการวางแผนหลายขั้นตอนและความลึกของ chain-of-thought - เอาต์พุตแบบมีโครงสร้างและเครื่องมือ: โมเดลรองรับ เอาต์พุต JSON แบบมีโครงสร้าง และสามารถรวมกับเครื่องมือในตัว (การยึดโยงด้วย Google Search, บริบทจาก URL, การรันโค้ด ฯลฯ) บางคุณสมบัติ structured-output+tools เป็นแบบพรีวิวเฉพาะ
gemini-3-pro-preview - การผสานมัลติโมดัลและเชิงตัวแทน: Gemini 3 Pro ถูกสร้างมาเพื่อเวิร์กโฟลว์เชิงตัวแทนโดยเฉพาะ (เครื่องมือ + หลายเอเจนต์บนโค้ด/เทอร์มินัล/เบราว์เซอร์)
ข้อจำกัดและข้อควรระวังที่ทราบ
- ความถูกต้องเชิงข้อเท็จจริงยังไม่สมบูรณ์ — มีโอกาสเกิดอภินิหารข้อมูล แม้ Google จะอ้างว่าปรับปรุงความถูกต้องอย่างมาก แต่ในสถานการณ์เดิมพันสูง (กฎหมาย การแพทย์ การเงิน) ยังจำเป็นต้องมีการตรวจสอบเชิงยึดโยงและการทบทวนโดยมนุษย์
- ประสิทธิภาพบริบทยาวแตกต่างตามงาน รองรับหน้าต่างอินพุต 1M เป็นความสามารถหลัก แต่ประสิทธิผลเชิงประจักษ์อาจลดลงในบางเบนช์มาร์กเมื่อความยาวสุดขั้ว (พบการลดลงแบบจุดเดียวที่ 1M ในการทดสอบบริบทยาวบางรายการ)
- การแลกเปลี่ยนต้นทุนและเวลาแฝง บริบทขนาดใหญ่และการตั้งค่า
thinking_levelที่สูงเพิ่มการคำนวณ เวลาแฝง และต้นทุน; มีการคิดราคาเป็นชั้นตามปริมาณโทเคน ใช้thinking_levelและกลยุทธ์การ chunking เพื่อบริหารต้นทุน - ความปลอดภัยและตัวกรองเนื้อหา Google ยังคงใช้แนวนโยบายความปลอดภัยและชั้นการกลั่นกรอง; เนื้อหาหรือการกระทำบางอย่างยังถูกจำกัดหรือจะทริกเกอร์โหมดปฏิเสธ
การเปรียบเทียบ Gemini 3 Pro Preview กับโมเดลชั้นนำอื่น
การเปรียบเทียบในภาพรวม (พรีวิว → เชิงคุณภาพ):
เทียบกับ Gemini 2.5 Pro: ปรับดีขึ้นแบบก้าวกระโดดในด้านการให้เหตุผล การใช้เครื่องมือเชิงตัวแทน และการผสานมัลติโมดัล; รองรับบริบทใหญ่ขึ้นมากและเข้าใจงานระยะยาวได้ดีขึ้น DeepMind แสดงให้เห็นการเพิ่มขึ้นอย่างสม่ำเสมอในด้านการให้เหตุผลเชิงวิชาการ การเขียนโค้ด และงานมัลติโมดัล.
เทียบกับ GPT-5.1 และ Claude Sonnet 4.5 (ตามที่รายงาน): บนชุดเบนช์มาร์กของ Google/DeepMind Gemini 3 Pro ถูกนำเสนอว่านำหน้าบางเมตริกด้านเชิงตัวแทน มัลติโมดัล และบริบทยาว (ดู Terminal-Bench, MMMU-Pro, AIME) ผลเปรียบเทียบแตกต่างตามงาน
กรณีใช้งานทั่วไปและมูลค่าสูง
- สรุปเอกสาร/หนังสือขนาดใหญ่ & Q&A: การรองรับบริบทยาวทำให้เหมาะกับทีมกฎหมาย วิจัย และกำกับดูแล
- ความเข้าใจโค้ด & การสร้างโค้ดในระดับรีโป: การผสานกับเครื่องมือเขียนโค้ดและการให้เหตุผลที่ดีขึ้นช่วยการรีแฟกเตอร์โค้ดเบสขนาดใหญ่และเวิร์กโฟลว์รีวิวโค้ดอัตโนมัติ
- ผู้ช่วยผลิตภัณฑ์แบบมัลติโมดัล: เวิร์กโฟลว์ภาพ + ข้อความ + เสียง (การสนับสนุนลูกค้าที่รับภาพหน้าจอ คลิปเสียง และเอกสาร)
- การสร้างและแก้ไขสื่อ (ภาพถ่าย → วิดีโอ): คุณสมบัติของตระกูล Gemini รุ่นก่อนหน้าตอนนี้รวมความสามารถสไตล์ Veo / Flow สำหรับภาพถ่าย→วิดีโอ; พรีวิวบ่งชี้การสร้างมัลติมีเดียที่ลึกขึ้นสำหรับต้นแบบและเวิร์กโฟลว์สื่อ