ข้อมูลจำเพาะทางเทคนิค — Gemini 3.1 Pro
| รายการ | gemini-3-pro (สรุปสาธารณะ) |
|---|---|
| ผู้ให้บริการ | |
| รหัสโมเดลแคนนอนิคัล | gemini-3-pro (พรีวิวสาธารณะ) |
| ประเภทอินพุต | ข้อความ, รูปภาพ, วิดีโอ, เสียง, PDF |
| ประเภทเอาต์พุต | ข้อความ (ภาษาธรรมชาติ, ผลลัพธ์เชิงโครงสร้าง, เพย์โหลดสำหรับเรียกฟังก์ชัน) |
| ขีดจำกัดโทเค็นอินพุต (บริบท) | 1,048,576 โทเค็น |
| ขีดจำกัดโทเค็นเอาต์พุต | 65,536 โทเค็น |
| การเรียกฟังก์ชัน / การใช้เครื่องมือ | รองรับ (การเรียกฟังก์ชัน, ผลลัพธ์แบบมีโครงสร้าง, การผสานเครื่องมือ) |
| มัลติโหมด | รองรับมัลติโหมดเต็มรูปแบบ (รูปภาพ, วิดีโอ, เสียง, เอกสาร) |
| การรันโค้ดและโฟลว์แบบเอเจนต์ | รองรับ (โหมดเอเจนต์, Code Assist, การออร์เคสเตรตเครื่องมือ) |
| ขอบเขตความรู้ | มกราคม 2025 |
Gemini 3.1 Pro คืออะไร ?
Gemini 3.1 Pro คือโมเดลเรือธงสำหรับสาธารณะในตระกูล Gemini 3 ของ Google ซึ่งถูกวางตำแหน่งให้เป็นโมเดลให้เหตุผลแบบมัลติโหมดล้ำสมัย พร้อมความสามารถด้านเอเจนต์และเครื่องมือสำหรับนักพัฒนาขั้นสูง โมเดลนี้เน้นการจัดการบริบทความจุสูง (อินพุตมากกว่า 1M โทเค็น), การรองรับสื่อที่หลากหลาย (รูปภาพ, วิดีโอ, เสียง, PDF) และการผสานอย่างลึกซึ้งสำหรับการใช้เครื่องมือ การเรียกฟังก์ชัน และเวิร์กโฟลว์ที่เน้นโค้ด (เช่น Gemini Code Assist และโหมดเอเจนต์)
Google นำเสนอ Gemini 3 Pro ว่าได้รับการปรับแต่งทั้งสำหรับประสบการณ์นักพัฒนาแบบโต้ตอบ (การเขียนโค้ดหน่วงต่ำและเวิร์กโฟลว์แบบเอเจนต์) และการทำความเข้าใจมัลติโหมดความเที่ยงตรงสูง (ตีความและให้เหตุผลจากอินพุตสื่อผสม)
คุณสมบัติหลักของ Gemini 3.1 Pro
Gemini-3.1 Pro (ผ่านรุ่น Preview) นำเสนอคุณสมบัติดังนี้:
การผสานมัลติโหมด
ประมวลผลอินพุตได้หลากหลายรูปแบบ:
- ภาษาธรรมชาติ
- รูปภาพ
- คำพูด/เสียง
- วิดีโอ
โดยใช้การแทนค่าโทเค็นแบบหนึ่งเดียวเพื่อการให้เหตุผลข้ามโมดัล
หน้าต่างบริบทที่ขยายใหญ่
ความจุบริบทขนาดใหญ่มากถึง ~1 ล้านโทเค็น ช่วยรองรับการจัดการ:
- เอกสารยาว
- การสังเคราะห์หลายเอกสาร
- Codebase และถอดความ
ซึ่งเหนือกว่าหลายโมเดลคู่แข่งที่มักรองรับเพียง ~32 K–262 K โทเค็น
การปรับสเกลแบบ Sparse Mixture-of-Experts (MoE)
การกำหนดเส้นทางแบบ Sparse MoE ช่วยให้สามารถขยายความจุภายในของโมเดลได้โดยไม่ต้องเพิ่มต้นทุนการคำนวณตามสัดส่วน ส่งผลให้การให้เหตุผลในสเกลใหญ่ดีขึ้น
การให้เหตุผล/การวางแผนขั้นสูง
นวัตกรรมอย่างการฝึกแบบ chain-of-thought, การเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์ และชุดทดสอบเฉพาะทาง ทำให้โดดเด่นในงานเชิงตรรกะและคณิตศาสตร์
เกณฑ์มาตรฐานที่อ้างอิง:
AIME 2025: 100% (พร้อมการรันโค้ด)
SWE-Bench Verified: 83.9%
ARC-AGI-2: 71.8%
LiveCodeBench Pro: 2844 Elo
Terminal-Bench 2.0: 63.5%
MMMLU: 93.6%
กรณีใช้งานระดับองค์กรที่เป็นตัวอย่าง
- ไปป์ไลน์สื่อแบบครบวงจร: รับเข้าวิดีโอ ถอดความ และรูปภาพ เพื่อสร้างสรุปที่ซิงโครไนซ์ เมทาดาทา และอินไซต์เชิงโครงสร้างในสเกลใหญ่
- การสร้างและรีวิวโค้ดขนาดใหญ่: ใช้งานใน IDE และไปป์ไลน์ CI เพื่อสร้างโค้ดอัตโนมัติ รีแฟกเตอร์โปรเจ็กต์หลายไฟล์ และเสนอการทดสอบครอบคลุม codebase ขนาดใหญ่
- ระบบอัตโนมัติแบบเอเจนต์: ประสานงานเอเจนต์หลายเครื่องมือที่โต้ตอบกับบริการคลาวด์ ระบบ orchestration และ API ภายใน โดยใช้การเรียกฟังก์ชันแบบมีโครงสร้าง
- งานวิจัยและการผลิตเนื้อหา: ร่างเนื้อหารายงานยาว (รายงาน หนังสือ) ที่ผสานข้อความกับมัลติมีเดียฝังตัว พร้อมคงการอ้างอิงภายใน
วิธีเข้าถึง Gemini 3.1 Pro API
ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console รับคีย์ API สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่โทเค็น API ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx แล้วส่ง
ขั้นตอนที่ 2: ส่งคำขอไปยัง Gemini 3.1 Pro API
เลือกปลายทาง “gemini-3.1-pro” เพื่อส่งคำขอ API และกำหนด request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ Base URL คือ Gemini Generating Content และ Chat
ใส่คำถามหรือคำขอของคุณลงในช่อง content—โมเดลจะตอบสนองต่อส่วนนี้ ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์
ดูเพิ่มเติม Gemini 3 Pro API