Gemini 3 Pro (Preview) คือโมเดลให้เหตุผลแบบมัลติโหมดรุ่นเรือธงตัวใหม่ล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 ถูกวางตำแหน่งว่าเป็น “โมเดลที่ฉลาดที่สุดของพวกเขาจนถึงตอนนี้” ออกแบบมาเพื่อการให้เหตุผลเชิงลึก เวิร์กโฟลว์แบบเอเจนติก การเขียนโค้ดขั้นสูง และความเข้าใจแบบมัลติโหมดบริบทยาว (ข้อความ ภาพ เสียง วิดีโอ โค้ด และการผสานเครื่องมือ)
จุดเด่นสำคัญ
- Modalities: ข้อความ, ภาพ, วิดีโอ, เสียง, PDF (และผลลัพธ์เครื่องมือแบบมีโครงสร้าง)
- Agentic/tooling: การเรียกใช้ฟังก์ชันในตัว การค้นหาเป็นเครื่องมือ การรันโค้ด บริบทจาก URL และการรองรับการทำงานของเอเจนต์แบบหลายขั้นตอน กลไก thought-signature ช่วยคงการให้เหตุผลหลายขั้นตอนข้ามการเรียกใช้
- Coding & “vibe coding”: ปรับแต่งให้เหมาะกับการสร้างส่วนหน้า การสร้าง UI เชิงโต้ตอบ และการโค้ดแบบเอเจนติก (ติดอันดับสูงสุดในลีดเดอร์บอร์ดที่ Google รายงาน) ทำการตลาดว่าเป็นโมเดล “vibe-coding” ที่แข็งแกร่งที่สุดของพวกเขาจนถึงตอนนี้
- New developer controls:
thinking_level(low|high) เพื่อแลกเปลี่ยนระหว่างต้นทุน/ระยะเวลาแฝงกับความลึกของการให้เหตุผล และmedia_resolutionเพื่อควบคุมความคมชัดมัลติโหมดต่อภาพหรือเฟรมวิดีโอ ช่วยปรับสมดุลประสิทธิภาพ ระยะเวลาแฝง และต้นทุน
ประสิทธิภาพตามเกณฑ์มาตรฐาน
- Gemini3Pro ครองอันดับหนึ่งใน LMARE ด้วยคะแนน 1501 แซงหน้า Grok-4.1-thinking ที่ 1484 คะแนน และยังนำหน้า Claude Sonnet 4.5 และ Opus 4.1
- ได้อันดับหนึ่งในสนามแข่งขันการเขียนโปรแกรม WebDevArena ด้วยคะแนน 1487
- ใน Humanity’s Last Exam ด้านการให้เหตุผลเชิงวิชาการ ได้ 37.5% (ไม่ใช้เครื่องมือ); ใน GPQA Diamond ด้านวิทยาศาสตร์ 91.9%; และในการแข่งขันคณิตศาสตร์ MathArena Apex 23.4% ทำสถิติใหม่
- ด้านความสามารถมัลติโหมด ได้ MMMU-Pro 81%; และในการทำความเข้าใจวิดีโอ Video-MMMU 87.6%
รายละเอียดทางเทคนิคและสถาปัตยกรรม
- พารามิเตอร์ “Thinking level”: Gemini 3 มีตัวควบคุม
thinking_levelให้ผู้พัฒนาเลือกแลกเปลี่ยนความลึกของการให้เหตุผลภายในกับระยะเวลาแฝง/ต้นทุน โมเดลมองthinking_levelเป็นโควตาเชิงสัมพัทธ์สำหรับการให้เหตุผลแบบหลายขั้นตอนภายใน มากกว่าจะเป็นการการันตีโทเคนแบบตายตัว ค่าเริ่มต้นของรุ่น Pro มักเป็นhighนี่คือคอนโทรลใหม่เพื่อจูนการวางแผนหลายขั้นตอนและความลึกของ chain-of-thought - Structured outputs & tools: โมเดลรองรับการส่งออกแบบมีโครงสร้างเป็น เอาท์พุต JSON แบบมีโครงสร้าง และทำงานร่วมกับเครื่องมือในตัว (การยึดโยงด้วย Google Search บริบทจาก URL การรันโค้ด ฯลฯ) บางความสามารถ structured-output+tools ยังเป็นแบบพรีวิวสำหรับ
gemini-3-pro-preview - การผสานมัลติโหมดและเอเจนติก: Gemini 3 Pro ถูกออกแบบมาอย่างชัดเจนเพื่อเวิร์กโฟลว์แบบเอเจนติก (เครื่องมือ + เอเจนต์หลายตัวบนโค้ด/เทอร์มินัล/เบราว์เซอร์)
ข้อจำกัดและข้อควรระวังที่ทราบ
- ความถูกต้องของข้อเท็จจริงยังไม่สมบูรณ์ — อาจยังเกิดการแต่งข้อมูล (hallucinations) ได้ แม้จะมีการปรับปรุง แต่ในงานความเสี่ยงสูง (กฎหมาย การแพทย์ การเงิน) ยังต้องมีการยืนยันและตรวจทานโดยมนุษย์
- ประสิทธิภาพบริบทยาวขึ้นกับงาน แม้รองรับหน้าต่างอินพุต 1M แต่ประสิทธิผลเชิงประจักษ์อาจลดลงในบางเกณฑ์ที่ความยาวสุดขีด
- การแลกเปลี่ยนต้นทุนและระยะเวลาแฝง บริบทยาวและการตั้งค่า
thinking_levelสูงเพิ่มการคำนวณ ระยะเวลา และต้นทุน; มีการคิดราคาเป็นชั้นตามปริมาณโทเคน ใช้thinking_levelและการแบ่งชิ้นงานเพื่อควบคุมต้นทุน - นโยบายความปลอดภัยและตัวกรองเนื้อหา Google ยังคงใช้ชั้นความปลอดภัย/การกลั่นกรอง; บางเนื้อหาและการกระทำยังถูกจำกัดหรือกระตุ้นโหมดปฏิเสธ
การเปรียบเทียบ Gemini 3 Pro Preview กับโมเดลชั้นนำอื่น
การเปรียบเทียบระดับสูง (พรีวิว → เชิงคุณภาพ):
เมื่อเทียบกับ Gemini 2.5 Pro: มีการก้าวกระโดดด้านการให้เหตุผล การใช้เครื่องมือแบบเอเจนติก และการผสานมัลติโหมด; รองรับบริบทที่ใหญ่กว่ามากและเข้าใจงานยาวได้ดีกว่า DeepMind แสดงให้เห็นถึงการพัฒนาอย่างสม่ำเสมอในด้านการให้เหตุผลเชิงวิชาการ การโค้ด และงานมัลติโหมด.
เมื่อเทียบกับ GPT-5.1 และ Claude Sonnet 4.5 (ตามที่รายงาน): บนชุดเกณฑ์ของ Google/DeepMind โมเดลถูกนำเสนอว่ามีผลงานนำในหลายเมตริกด้านเอเจนติก มัลติโหมด และบริบทยาว (ดู Terminal-Bench, MMMU-Pro, AIME) ผลการเปรียบเทียบแตกต่างกันไปตามงาน
กรณีการใช้งานทั่วไปและมูลค่าสูง
- สรุปเอกสาร/หนังสือขนาดใหญ่และ Q&A: การรองรับบริบทยาวเหมาะกับทีมกฎหมาย วิจัย และคอมพลายแอนซ์
- ความเข้าใจและการสร้างโค้ดในสเกลรีโป: การผสานกับเครื่องมือโค้ดและการให้เหตุผลที่ดีขึ้นช่วยงานรีแฟคเตอร์ฐานโค้ดขนาดใหญ่และเวิร์กโฟลว์รีวิวโค้ดอัตโนมัติ
- ผู้ช่วยผลิตภัณฑ์แบบมัลติโหมด: เวิร์กโฟลว์ภาพ + ข้อความ + เสียง (งานซัพพอร์ตลูกค้าที่รับสกรีนช็อต คลิปเสียง และเอกสาร)
- การสร้างและตัดต่อมีเดีย (ภาพ → วิดีโอ): ความสามารถจากตระกูล Gemini ก่อนหน้า รวมถึงการทำงานแบบ Veo / Flow ภาพ→วิดีโอ; พรีวิวชี้ถึงศักยภาพการสร้างสรรค์มัลติมีเดียที่ลึกขึ้นสำหรับต้นแบบและเวิร์กโฟลว์มีเดีย
วิธีเข้าถึง Gemini 3 Pro API
ขั้นตอนที่ 1: สมัครเพื่อรับ API Key
เข้าสู่ระบบที่ cometapi.com หากยังไม่เป็นผู้ใช้ โปรดลงทะเบียนก่อน เข้าสู่ระบบ CometAPI console รับ API key สำหรับการเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง
ขั้นตอนที่ 2: ส่งคำขอไปยัง Gemini 3 Pro API
เลือกปลายทาง “gemini-3-pro” เพื่อส่งคำขอ API และกำหนด request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวก แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Gemini Generating Content และ Chat
ใส่คำถามหรือคำร้องขอของคุณลงในช่อง content—นี่คือสิ่งที่โมเดลจะตอบกลับ . ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์