Gemini 3 Pro (Preview) คือโมเดลการให้เหตุผลแบบมัลติโหมดระดับเรือธงรุ่นใหม่ล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 โดยถูกวางตำแหน่งให้เป็น “โมเดลที่ฉลาดที่สุดเท่าที่เคยมีมา” ของพวกเขา ออกแบบมาสำหรับการให้เหตุผลเชิงลึก เวิร์กโฟลว์แบบเอเจนต์ การเขียนโค้ดขั้นสูง และความเข้าใจแบบมัลติโหมดในบริบทยาว (ข้อความ รูปภาพ เสียง วิดีโอ โค้ด และการเชื่อมต่อเครื่องมือ)
คุณสมบัติหลัก
- รองรับหลายโมดัลลิตี: ข้อความ รูปภาพ วิดีโอ เสียง PDF (รวมถึงผลลัพธ์จากเครื่องมือแบบมีโครงสร้าง)
- ความสามารถแบบเอเจนต์/การใช้เครื่องมือ: มีการเรียกใช้ฟังก์ชันในตัว, search-as-tool, การรันโค้ด, URL context และรองรับการประสานงานเอเจนต์หลายขั้นตอน กลไก Thought-signature ช่วยคงการให้เหตุผลหลายขั้นตอนไว้ข้ามการเรียกใช้งาน
- การเขียนโค้ดและ “vibe coding”: ปรับให้เหมาะสำหรับการสร้างฟรอนต์เอนด์ การสร้าง UI แบบอินเทอร์แอกทีฟ และการเขียนโค้ดแบบเอเจนต์ (ครองอันดับบนลีดเดอร์บอร์ดที่เกี่ยวข้องตามที่ Google รายงาน) และถูกทำตลาดว่าเป็นโมเดล “vibe-coding” ที่แข็งแกร่งที่สุดของพวกเขาจนถึงตอนนี้
- ตัวควบคุมใหม่สำหรับนักพัฒนา:
thinking_level(low|high) เพื่อแลกเปลี่ยนระหว่างต้นทุน/เวลาแฝงกับความลึกของการให้เหตุผล และmedia_resolutionสำหรับควบคุมความละเอียดของมัลติโหมดต่อภาพหรือเฟรมวิดีโอ สิ่งเหล่านี้ช่วยสร้างสมดุลระหว่างประสิทธิภาพ เวลาแฝง และต้นทุน
ประสิทธิภาพบนเบนช์มาร์ก
- Gemini3Pro ได้อันดับหนึ่งใน LMARE ด้วยคะแนน 1501 แซงหน้า Grok-4.1-thinking ที่ได้ 1484 คะแนน และยังนำหน้า Claude Sonnet 4.5 และ Opus 4.1 ด้วย
- นอกจากนี้ยังได้อันดับหนึ่งในเวทีเขียนโปรแกรม WebDevArena ด้วยคะแนน 1487
- ในการให้เหตุผลเชิงวิชาการของ Humanity’s Last Exam ทำได้ 37.5% (ไม่ใช้เครื่องมือ); ในวิทยาศาสตร์ GPQA Diamond ทำได้ 91.9%; และในการแข่งขันคณิตศาสตร์ MathArena Apex ทำได้ 23.4% ซึ่งเป็นสถิติใหม่
- ในด้านความสามารถแบบมัลติโหมด MMMU-Pro ทำได้ 81%; และในการทำความเข้าใจวิดีโอ Video-MMMU ทำได้ 87.6%
รายละเอียดทางเทคนิคและสถาปัตยกรรม
- พารามิเตอร์ “Thinking level”: Gemini 3 เปิดให้ควบคุม
thinking_levelซึ่งช่วยให้นักพัฒนาปรับระดับความลึกของการให้เหตุผลภายในเทียบกับเวลาแฝง/ต้นทุนได้ โมเดลมองthinking_levelเป็นระดับเผื่อสำหรับการให้เหตุผลภายในหลายขั้นตอนแบบสัมพัทธ์ มากกว่าจะเป็นการรับประกันจำนวนโทเค็นแบบตายตัว โดยทั่วไปค่าเริ่มต้นของ Pro คือhighนี่คือการควบคุมใหม่อย่างชัดเจนสำหรับนักพัฒนาในการปรับแต่งการวางแผนหลายขั้นตอนและความลึกของ chain-of-thought - ผลลัพธ์แบบมีโครงสร้างและเครื่องมือ: โมเดลรองรับ structured JSON outputs และสามารถใช้งานร่วมกับเครื่องมือในตัวได้ (Google Search grounding, URL context, การรันโค้ด ฯลฯ) ฟีเจอร์บางอย่างของ structured-output+tools มีให้ใช้งานแบบพรีวิวเท่านั้นสำหรับ
gemini-3-pro-preview - การเชื่อมต่อแบบมัลติโหมดและเอเจนต์: Gemini 3 Pro ถูกสร้างขึ้นอย่างชัดเจนสำหรับเวิร์กโฟลว์แบบเอเจนต์ (การใช้เครื่องมือ + เอเจนต์หลายตัวผ่านโค้ด/เทอร์มินัล/เบราว์เซอร์)
ข้อจำกัดและข้อควรทราบ
- ความถูกต้องเชิงข้อเท็จจริงยังไม่สมบูรณ์ — ยังคงมีโอกาสเกิดภาพหลอนได้ แม้ Google จะอ้างว่าปรับปรุงด้าน factuality อย่างมาก แต่การตรวจสอบด้วยแหล่งอ้างอิงและการทบทวนโดยมนุษย์ยังคงจำเป็นในงานที่มีความเสี่ยงสูง (กฎหมาย การแพทย์ การเงิน)
- ประสิทธิภาพในบริบทยาวแตกต่างกันไปตามงาน การรองรับหน้าต่างอินพุต 1M เป็นความสามารถเชิงเทคนิคที่ชัดเจน แต่ประสิทธิผลเชิงประจักษ์อาจลดลงในบางเบนช์มาร์กเมื่อความยาวสูงมาก (พบการลดลงรายจุดที่ 1M ในการทดสอบบริบทยาวบางชุด)
- การแลกเปลี่ยนระหว่างต้นทุนและเวลาแฝง บริบทขนาดใหญ่และการตั้งค่า
thinking_levelที่สูงขึ้นจะเพิ่มการประมวลผล เวลาแฝง และต้นทุน โดยมีระดับราคาตามปริมาณโทเค็น ควรใช้thinking_levelและกลยุทธ์การแบ่งข้อมูลเป็นช่วงเพื่อจัดการต้นทุน - ความปลอดภัยและตัวกรองเนื้อหา Google ยังคงใช้แนวทางด้านความปลอดภัยและชั้นการกลั่นกรอง เนื้อหาและการกระทำบางอย่างยังถูกจำกัดหรือจะกระตุ้นโหมดปฏิเสธ
Gemini 3 Pro Preview เทียบกับโมเดลชั้นนำอื่นอย่างไร
การเปรียบเทียบระดับสูง (preview → เชิงคุณภาพ):
เมื่อเทียบกับ Gemini 2.5 Pro: มีการยกระดับแบบก้าวกระโดดในด้านการให้เหตุผล การใช้เครื่องมือแบบเอเจนต์ และการผสานรวมมัลติโหมด; รองรับบริบทขนาดใหญ่กว่ามากและเข้าใจเนื้อหาแบบยาวได้ดีกว่า DeepMind แสดงให้เห็นถึงการพัฒนาอย่างต่อเนื่องในด้านการให้เหตุผลเชิงวิชาการ การเขียนโค้ด และงานมัลติโหมด
เมื่อเทียบกับ GPT-5.1 และ Claude Sonnet 4.5 (ตามที่รายงาน): ในชุดเบนช์มาร์กของ Google/DeepMind นั้น Gemini 3 Pro ถูกนำเสนอว่าเป็นผู้นำในหลายตัวชี้วัดด้านเอเจนต์ มัลติโหมด และบริบทยาว (ดู Terminal-Bench, MMMU-Pro, AIME) ผลการเปรียบเทียบอาจแตกต่างกันไปตามงาน
กรณีการใช้งานทั่วไปและมีมูลค่าสูง
- การสรุปเอกสาร/หนังสือขนาดใหญ่และ Q&A: การรองรับบริบทยาวทำให้เหมาะอย่างยิ่งสำหรับทีมกฎหมาย วิจัย และกำกับดูแลการปฏิบัติตามข้อกำหนด
- การทำความเข้าใจและสร้างโค้ดในระดับรีโพ: การผสานรวมกับเครื่องมือสายการพัฒนาและการให้เหตุผลที่ดีขึ้นช่วยในงานรีแฟกเตอร์โค้ดเบสขนาดใหญ่และเวิร์กโฟลว์การตรวจสอบโค้ดอัตโนมัติ
- ผู้ช่วยผลิตภัณฑ์แบบมัลติโหมด: เวิร์กโฟลว์รูปภาพ + ข้อความ + เสียง (เช่น ฝ่ายสนับสนุนลูกค้าที่รับภาพหน้าจอ คลิปเสียงสนทนา และเอกสาร)
- การสร้างและแก้ไขสื่อ (ภาพถ่าย → วิดีโอ): ฟีเจอร์ในตระกูล Gemini รุ่นก่อนหน้าในตอนนี้รวมความสามารถแบบ Veo / Flow สำหรับแปลงภาพเป็นวิดีโอแล้ว; เวอร์ชันพรีวิวบ่งชี้ถึงความสามารถในการสร้างมัลติมีเดียที่ลึกขึ้นสำหรับต้นแบบและเวิร์กโฟลว์สื่อ
วิธีเข้าถึง Gemini 3 Pro API
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console ของคุณ รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งข้อมูล
ขั้นตอนที่ 2: ส่งคำขอไปยัง Gemini 3 Pro API
เลือกปลายทาง “gemini-3-pro” เพื่อส่งคำขอ API และกำหนด request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Gemini Generating Content และ Chat
แทรกคำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะของงานและข้อมูลผลลัพธ์