ข้อมูลจำเพาะทาง技术 — Gemini 3.1 Pro
| รายการ | gemini-3-pro (สรุปสาธารณะ) |
|---|---|
| ผู้ให้บริการ | |
| รหัสโมเดลตามมาตรฐาน | gemini-3-pro (พรีวิวสาธารณะ) |
| ประเภทอินพุต | ข้อความ, รูปภาพ, วิดีโอ, เสียง, PDF |
| ประเภทเอาต์พุต | ข้อความ (ภาษาธรรมชาติ, เอาต์พุตแบบมีโครงสร้าง, เพย์โหลดสำหรับเรียกฟังก์ชัน) |
| ขีดจำกัดโทเค็นอินพุต (บริบท) | 1,048,576 โทเค็น |
| ขีดจำกัดโทเค็นเอาต์พุต | 65,536 โทเค็น |
| การเรียกใช้ฟังก์ชัน / การใช้เครื่องมือ | รองรับ (การเรียกใช้ฟังก์ชัน, เอาต์พุตแบบมีโครงสร้าง, การผสานรวมเครื่องมือ) |
| รองรับมัลติโหมด | รองรับมัลติโหมดเต็มรูปแบบ (รูปภาพ, วิดีโอ, เสียง, เอกสาร) |
| การรันโค้ดและโฟลว์แบบเอเจนต์ | รองรับ (โหมดเอเจนต์, ผู้ช่วยเขียนโค้ด, การประสานเครื่องมือ) |
| ขอบเขตความรู้สิ้นสุด | มกราคม 2025 |
Gemini 3.1 Pro คืออะไร?
Gemini 3.1 Pro เป็นโมเดลเรือธงแบบสาธารณะในตระกูล Gemini 3 ของ Google วางตำแหน่งเป็นโมเดลให้เหตุผลแบบมัลติโมดัลระดับล้ำสมัย พร้อมด้วยความสามารถแบบเอเจนต์และเครื่องมือสำหรับนักพัฒนาขั้นสูง โมเดลนี้เน้นการจัดการบริบทความจุสูง (อินพุตมากกว่า 1M โทเค็น), รองรับสื่ออย่างกว้างขวาง (รูปภาพ, วิดีโอ, เสียง, PDF) และการผสานรวมเชิงลึกสำหรับการใช้เครื่องมือ การเรียกใช้ฟังก์ชัน และเวิร์กโฟลว์ที่เน้นโค้ด (เช่น Gemini Code Assist และโหมดเอเจนต์)
Gemini 3 Pro ถูกนำเสนอโดย Google ว่าได้รับการปรับแต่งเพื่อทั้งประสบการณ์เชิงโต้ตอบของนักพัฒนา (การเขียนโค้ดหน่วงต่ำและเวิร์กโฟลว์เอเจนต์) และความเข้าใจแบบมัลติโมดัลความเที่ยงตรงสูง (การตีความและการให้เหตุผลบนอินพุตสื่อผสม)
คุณสมบัติหลักของ Gemini 3.1 Pro
Gemini-3.1 Pro (ผ่านพรีวิว) นำเสนอคุณสมบัติดังต่อไปนี้:
การผสานมัลติโหมด
ประมวลผลอินพุตได้หลากหลายประเภท:
- ภาษาธรรมชาติ
- รูปภาพ
- คำพูด/เสียง
- วิดีโอ
ด้วยการแทนโทเค็นแบบหนึ่งเดียวเพื่อการให้เหตุผลข้ามโมดัล
หน้าต่างบริบทที่ขยายออกไป
ความจุบริบทขนาดใหญ่มากถึง ~1 ล้านโทเค็น ทำให้สามารถจัดการกับ:
- เอกสารยาว
- การสังเคราะห์หลายเอกสาร
- ฐานโค้ดและบทถอดเสียง
ซึ่งเหนือกว่าหลายโมเดลคู่แข่งที่โดยทั่วไปรองรับ ~32 K–262 K โทเค็น
การขยายแบบ Sparse Mixture-of-Experts (MoE)
การกำหนดเส้นทางแบบ Sparse MoE ช่วยขยายความจุภายในของโมเดลโดยไม่เพิ่มต้นทุนคำนวณตามสัดส่วน ช่วยปรับปรุงความสามารถในการให้เหตุผลในสเกลใหญ่
การให้เหตุผล/การวางแผนขั้นสูง
นวัตกรรมอย่างการฝึกแบบ chain-of-thought, การเรียนรู้เชิงเสริมแรงจากข้อเสนอแนะของมนุษย์ และชุดทดสอบเฉพาะทาง ทำให้โมเดลแข็งแกร่งในงานตรรกะและคณิตศาสตร์
คะแนนเบนช์มาร์กที่อ้างว่าได้:
AIME 2025: 100% (พร้อมการรันโค้ด)
SWE-Bench Verified: 83.9%
ARC-AGI-2: 71.8%
LiveCodeBench Pro: 2844 Elo
Terminal-Bench 2.0: 63.5%
MMMLU: 93.6%
กรณีใช้งานตัวอย่างสำหรับองค์กร
- ไปป์ไลน์สื่อแบบครบวงจร: รับเข้าวิดีโอ บทถอดเสียง และรูปภาพ เพื่อสร้างสรุปที่ซิงก์กัน เมทาดาทา และอินไซต์เชิงโครงสร้างในสเกลใหญ่
- การสร้างและทบทวนโค้ดขนาดใหญ่: ใช้ใน IDEs และ CI pipelines เพื่อสร้างโค้ดอัตโนมัติ รีแฟกเตอร์โปรเจ็กต์หลายไฟล์ และสร้างข้อเสนอแนะการทดสอบในฐานโค้ดขนาดใหญ่
- ระบบอัตโนมัติแบบเอเจนต์: ประสานเอเจนต์หลายเครื่องมือที่โต้ตอบกับบริการคลาวด์ ระบบออเคสตราชัน และ API ภายใน โดยใช้การเรียกฟังก์ชันแบบมีโครงสร้าง
- งานวิจัยและการผลิตเนื้อหา: ร่างเนื้อหาระดับยาว (รายงาน หนังสือ) ที่ผสมผสานข้อความและมัลติมีเดีย พร้อมคงไว้ซึ่งการอ้างอิงภายใน
วิธีเข้าถึง Gemini 3.1 Pro API
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ระบบที่ CometAPI console รับ API key ของอินเทอร์เฟซเป็นข้อมูลรับรองการเข้าถึง คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx และส่ง
ขั้นตอนที่ 2: ส่งคำขอไปยัง Gemini 3.1 Pro API
เลือกเอนด์พอยต์ “gemini-3.1-pro” เพื่อส่งคำขอ API และกำหนด request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวก แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ Base URL คือ Gemini Generating Content และ Chat
ใส่คำถามหรือคำขอของคุณลงในช่อง content—นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: เรียกดูและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต
ดูเพิ่มเติม Gemini 3 Pro API