Gemini 3 Pro (Preview) คือโมเดลเหตุผลแบบมัลติโหมดเรือธงรุ่นล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 จัดวางตำแหน่งเป็น “โมเดลที่ฉลาดที่สุดของพวกเขาในปัจจุบัน” ออกแบบมาสำหรับการให้เหตุผลเชิงลึก เวิร์กโฟลว์แบบเอเจนต์ การเขียนโค้ดขั้นสูง และความเข้าใจมัลติโหมดบริบทยาว (ข้อความ รูปภาพ เสียง วิดีโอ โค้ด และการผสานเครื่องมือ)
คุณสมบัติสำคัญ
- รูปแบบสื่อ: ข้อความ รูปภาพ วิดีโอ เสียง ไฟล์ PDF (และเอาต์พุตของเครื่องมือแบบมีโครงสร้าง)
- เอเจนต์/เครื่องมือ: การเรียกใช้ฟังก์ชันในตัว การค้นหาเป็นเครื่องมือ การรันโค้ด คอนเท็กซ์จาก URL และรองรับการประสานงานเอเจนต์หลายขั้นตอน กลไก thought-signature ช่วยคงเหตุผลหลายขั้นตอนข้ามการเรียกใช้งาน
- การเขียนโค้ดและ “vibe coding”: ปรับให้เหมาะกับการสร้างส่วนหน้า (front-end) การสร้าง UI แบบโต้ตอบ และการโค้ดแบบเอเจนต์ (ติดอันดับสูงสุดในลีดเดอร์บอร์ดที่ Google รายงาน) มีการทำการตลาดว่าเป็นโมเดล “vibe-coding” ที่แข็งแกร่งที่สุดของพวกเขาจนถึงตอนนี้
- การควบคุมใหม่สำหรับนักพัฒนา:
thinking_level(low|high) เพื่อแลกเปลี่ยนระหว่างต้นทุน/ความหน่วงกับความลึกของการให้เหตุผล และmedia_resolutionเพื่อควบคุมความคมชัดมัลติโหมดต่อภาพหรือเฟรมวิดีโอ ช่วยบาลานซ์ประสิทธิภาพ ความหน่วง และต้นทุน
ผลการทดสอบมาตรฐาน
- Gemini3Pro คว้าอันดับหนึ่งใน LMARE ด้วยคะแนน 1501 แซงหน้า Grok-4.1-thinking ที่ 1484 คะแนน และนำหน้า Claude Sonnet 4.5 และ Opus 4.1
- ได้อันดับหนึ่งในสนามแข่งเขียนโปรแกรม WebDevArena ด้วยคะแนน 1487
- ใน Humanity’s Last Exam ด้านการให้เหตุผลเชิงวิชาการ ทำได้ 37.5% (โดยไม่ใช้เครื่องมือ); ใน GPQA Diamond ด้านวิทยาศาสตร์ ทำได้ 91.9%; และใน MathArena Apex การแข่งขันคณิตศาสตร์ ทำได้ 23.4% ทำสถิติใหม่
- ในความสามารถมัลติโหมด บน MMMU-Pro ทำได้ 81%; และในการทำความเข้าใจวิดีโอของ Video-MMMU ทำได้ 87.6%

รายละเอียดทางเทคนิคและสถาปัตยกรรม
- พารามิเตอร์ “thinking level”: Gemini 3 เปิดเผยตัวควบคุม
thinking_levelที่ให้ผู้พัฒนาปรับสมดุลความลึกของการให้เหตุผลภายในกับความหน่วง/ต้นทุน โมเดลตีความthinking_levelเป็นงบประมาณเชิงสัมพัทธ์สำหรับการให้เหตุผลแบบหลายขั้นตอนภายใน มากกว่าจะเป็นการรับประกันโทเคนแบบเข้มงวด ค่าเริ่มต้นของรุ่น Pro มักเป็นhighนี่เป็นตัวควบคุมใหม่ที่ชัดเจนสำหรับปรับความลึกของการวางแผนหลายขั้นตอนและห่วงโซ่การคิด - เอาต์พุตแบบมีโครงสร้างและเครื่องมือ: โมเดลรองรับเอาต์พุต JSON แบบมีโครงสร้าง และสามารถผสานกับเครื่องมือในตัว (การยึดโยงกับ Google Search คอนเท็กซ์จาก URL การรันโค้ด ฯลฯ) บางฟีเจอร์เอาต์พุตเชิงโครงสร้าง+เครื่องมือมีเฉพาะในพรีวิวของ
gemini-3-pro-preview - การผสานมัลติโหมดและเอเจนต์: Gemini 3 Pro ถูกสร้างมาเพื่อเวิร์กโฟลว์แบบเอเจนต์โดยเฉพาะ (เครื่องมือ + หลายเอเจนต์บนโค้ด/เทอร์มินัล/เบราว์เซอร์)
- รองรับอินพุตเป็นข้อความ รูปภาพ วิดีโอ เสียง และ PDF; เอาต์พุตเป็นข้อความ
ข้อจำกัดและข้อควรระวังที่ทราบ
- ความถูกต้องของข้อเท็จจริงยังไม่สมบูรณ์ — ยังมีโอกาสเกิดฮัลลูซิเนชัน แม้ Google จะระบุว่ามีการปรับปรุงความถูกต้อง แต่ในกรณีเดิมพันสูง (กฎหมาย การแพทย์ การเงิน) ยังจำเป็นต้องมีการตรวจสอบอิงหลักฐานและการทวนสอบโดยมนุษย์
- ประสิทธิภาพบริบทยาวขึ้นกับงาน แม้รองรับหน้าต่างอินพุต 1M เป็นความสามารถเชิงโครงสร้าง แต่ประสิทธิผลเชิงประจักษ์อาจลดลงบนบางเบนช์มาร์กเมื่อยาวสุดขีด (พบการลดลงแบบจุดที่ 1M ในบางการทดสอบบริบทยาว)
- การแลกเปลี่ยนต้นทุนและความหน่วง บริบทที่ใหญ่และการตั้งค่า
thinking_levelสูงจะเพิ่มการคำนวณ ความหน่วง และต้นทุน; มีบัตรราคาตามปริมาณโทเคน ใช้thinking_levelและกลยุทธ์การแบ่งเป็นชิ้นเพื่อบริหารต้นทุน - นโยบายความปลอดภัยและตัวกรองเนื้อหา Google ยังคงใช้ชั้นนโยบายความปลอดภัย/การกลั่นกรอง; เนื้อหาหรือการกระทำบางอย่างยังถูกจำกัดหรือจะทริกเกอร์โหมดปฏิเสธ
Gemini 3 Pro Preview เทียบกับโมเดลระดับท็อปอื่นอย่างไร
ภาพรวมระดับสูง (พรีวิว → เชิงคุณภาพ):
เมื่อเทียบกับ Gemini 2.5 Pro: มีการปรับปรุงแบบก้าวกระโดดด้านการให้เหตุผล การใช้เครื่องมือเชิงเอเจนต์ และการผสานมัลติโหมด; รองรับบริบทขนาดใหญ่ขึ้นและเข้าใจงานยาวได้ดีขึ้น DeepMind แสดงให้เห็นการเติบโตอย่างสม่ำเสมอในงานให้เหตุผลเชิงวิชาการ การเขียนโค้ด และงานมัลติโหมด
เมื่อเทียบกับ GPT-5.1 และ Claude Sonnet 4.5 (ตามที่รายงาน): บนชุดเบนช์มาร์กของ Google/DeepMind นำเสนอว่า Gemini 3 Pro นำหน้าบนเมตริกหลายด้านของเอเจนต์ มัลติโหมด และบริบทยาว (ดู Terminal-Bench, MMMU-Pro, AIME) ผลเปรียบเทียบจะแตกต่างกันไปตามงาน
กรณีใช้งานทั่วไปและมูลค่าสูง
- สรุป/ถามตอบเอกสารหรือหนังสือขนาดใหญ่: การรองรับบริบทยาวทำให้เหมาะกับทีมกฎหมาย งานวิจัย และคอมพลายแอนซ์
- ความเข้าใจและการสร้างโค้ดในสเกลระดับรีโป: การผสานกับทูลเชนการโค้ดและการให้เหตุผลที่ดีขึ้นช่วยรีแฟกเตอร์โค้ดเบสขนาดใหญ่และทำเวิร์กโฟลว์โค้ดรีวิวอัตโนมัติ
- ผู้ช่วยผลิตภัณฑ์แบบมัลติโหมด: เวิร์กโฟลว์ภาพ + ข้อความ + เสียง (ซัพพอร์ตลูกค้าที่รับสกรีนช็อต คลิปเสียงสนทนา และเอกสาร)
- การสร้างและตัดต่อมีเดีย (photo → video): ความสามารถ photo→video สไตล์ Veo / Flow จากตระกูล Gemini รุ่นก่อน ขณะพรีวิวบ่งชี้การสร้างมัลติมีเดียที่ลึกขึ้นสำหรับต้นแบบและเวิร์กโฟลว์สื่อ
วิธีเรียกใช้ API gemini-3-pro-preview จาก CometAPI
ราคา Gemini 3 Pro Preview ใน CometAPI ลด 20% จากราคาทางการ:
| โทเคนอินพุต | $1.60 |
| โทเคนเอาต์พุต | $9.60 |
ขั้นตอนที่ต้องทำ
- ล็อกอินที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน
- ลงชื่อเข้าใช้ คอนโซล CometAPI
- รับคีย์ API สิทธิ์เข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับคีย์โทเคน: sk-xxxxx แล้วส่ง

วิธีการใช้งาน
- เลือกเอ็นด์พอยต์ “
gemini-3-pro-preview” เพื่อส่งคำขอ API และกำหนด request body วิธีและโครงสร้างคำขอสามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา และมีการทดสอบผ่าน Apifox เพื่อความสะดวก - แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
- ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content — โมเดลจะตอบกลับตามสิ่งนี้
- . ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI จัดให้มี REST API ที่เข้ากันได้อย่างเต็มรูปแบบ — เพื่อการย้ายใช้งานอย่างไร้รอยต่อ รายละเอียดสำคัญสำหรับ Chat :
- Base URL: v1/chat/completions
- Model Names:
gemini-3-pro-preview - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.
ดูเพิ่มเติม GPT-5.1 API
