Home/Models/Gemini 3 Pro Preview

Gemini 3 Pro Preview

Google
gemini-3-pro-preview
อินพุต:$1.60/M
เอาต์พุต:$9.60/M
บริบท:200.0k
เอาต์พุตสูงสุด:200.0k
Gemini 3 Pro Preview เป็นโมเดลอเนกประสงค์ในตระกูล Gemini ที่เปิดให้พรีวิวสำหรับการประเมินและการสร้างต้นแบบ รองรับการทำตามคำสั่ง การให้เหตุผลแบบหลายรอบ และงานด้านโค้ดและข้อมูล พร้อมเอาต์พุตแบบมีโครงสร้างและการเรียกใช้เครื่องมือ/ฟังก์ชันเพื่อทำเวิร์กโฟลว์ให้เป็นอัตโนมัติ การใช้งานทั่วไปได้แก่ ผู้ช่วยแชต การสรุปและการเขียนใหม่ การถามตอบที่เสริมด้วยการค้นคืนข้อมูล การสกัดข้อมูล และความช่วยเหลือด้านการเขียนโค้ดแบบเบาสำหรับแอปและบริการต่างๆ จุดเด่นด้านเทคนิคประกอบด้วยการปรับใช้ผ่าน API การตอบกลับแบบสตรีม การควบคุมด้านความปลอดภัย และความพร้อมสำหรับการผสานการทำงาน โดยมีความสามารถแบบมัลติโหมดที่ขึ้นอยู่กับการกำหนดค่าพรีวิว
ภาพรวม
Playground
คุณสมบัติ
ราคา
API
เวอร์ชัน

Gemini 3 Pro (Preview) คือโมเดลให้เหตุผลแบบมัลติโหมดเรือธงรุ่นใหม่ล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 วางตำแหน่งว่าเป็น “โมเดลที่ฉลาดที่สุดของพวกเขาในตอนนี้” ออกแบบมาสำหรับการให้เหตุผลเชิงลึก เวิร์กโฟลว์เชิงตัวแทน การเขียนโค้ดขั้นสูง และความเข้าใจแบบมัลติโหมดในบริบทยาว (ข้อความ รูปภาพ เสียง วิดีโอ โค้ด และการผสานเครื่องมือ)

คุณสมบัติหลัก

  • รูปแบบสื่อ: ข้อความ รูปภาพ วิดีโอ เสียง ไฟล์ PDF (และผลลัพธ์จากเครื่องมือเชิงโครงสร้าง)
  • เวิร์กโฟลว์เชิงตัวแทน/เครื่องมือ: การเรียกฟังก์ชันในตัว การค้นหาเป็นเครื่องมือ การรันโค้ด บริบทจาก URL และการประสานตัวแทนหลายขั้นตอน กลไก Thought-signature ช่วยคงการให้เหตุผลหลายขั้นตอนได้ข้ามการเรียกใช้
  • Coding และ “vibe coding”: ปรับแต่งสำหรับการสร้างส่วนหน้า การสร้าง UI เชิงโต้ตอบ และการเขียนโค้ดเชิงตัวแทน (ติดอันดับสูงสุดในลีดเดอร์บอร์ดที่เกี่ยวข้องตามที่ Google รายงาน) นำเสนอว่าเป็นโมเดล “vibe-coding” ที่แข็งแกร่งที่สุดของพวกเขาจนถึงปัจจุบัน
  • การควบคุมใหม่สำหรับนักพัฒนา: thinking_level (low|high) เพื่อปรับสมดุลต้นทุน/ความหน่วงกับความลึกของการให้เหตุผล และ media_resolution สำหรับควบคุมความเที่ยงตรงมัลติโหมดต่อภาพหรือเฟรมวิดีโอ เพื่อช่วยปรับสมดุลประสิทธิภาพ ความหน่วง และต้นทุน

ผลการทดสอบมาตรฐาน

  • The Gemini3Pro คว้าอันดับหนึ่งใน LMARE ด้วยคะแนน 1501 แซงหน้า Grok-4.1-thinking ที่ 1484 คะแนน และยังนำหน้า Claude Sonnet 4.5 และ Opus 4.1
  • ได้อันดับหนึ่งในสนามโปรแกรมมิ่ง WebDevArena ด้วยคะแนน 1487
  • ใน Humanity’s Last Exam ด้านเหตุผลเชิงวิชาการ ได้ 37.5% (ไม่ใช้เครื่องมือ); ใน GPQA Diamond ด้านวิทยาศาสตร์ ได้ 91.9%; และใน MathArena Apex ด้านคณิตศาสตร์ ได้ 23.4% ทำสถิติใหม่
  • ด้านความสามารถมัลติโหมด ได้ MMMU-Pro 81%; และใน Video-MMMU ด้านความเข้าใจวิดีโอ ได้ 87.6%

ภาพ

รายละเอียดทาง技术与สถาปัตยกรรม

  • พารามิเตอร์ “Thinking level”: Gemini 3 มีตัวควบคุม thinking_level ที่ให้ผู้พัฒนาปรับสมดุลความลึกของการให้เหตุผลภายในกับความหน่วง/ต้นทุน โมเดลมอง thinking_level เป็นงบประมาณเชิงสัมพัทธ์สำหรับการให้เหตุผลหลายขั้นตอนภายใน มากกว่าจะเป็นการการันตีโทเค็น ค่าเริ่มต้นของรุ่น Pro มักเป็น high เป็นตัวควบคุมใหม่ที่ชัดเจนเพื่อปรับความลึกของการวางแผนหลายขั้นตอนและ chain-of-thought
  • เอาต์พุตมีโครงสร้างและเครื่องมือ: โมเดลรองรับเอาต์พุต JSON แบบมีโครงสร้าง และสามารถใช้ร่วมกับเครื่องมือในตัว (การยึดโยงกับ Google Search บริบทจาก URL การรันโค้ด ฯลฯ) บางความสามารถ structured-output+tools เปิดให้ใช้เฉพาะแบบพรีวิวสำหรับ gemini-3-pro-preview
  • การผสานมัลติโหมดและเชิงตัวแทน: สร้างขึ้นอย่างเจาะจงเพื่อเวิร์กโฟลว์เชิงตัวแทน (เครื่องมือ + ตัวแทนหลายตัวเหนือโค้ด/เทอร์มินัล/เบราว์เซอร์)

ข้อจำกัดและข้อควรระวังที่ทราบ

  1. ความถูกต้องของข้อเท็จจริงยังไม่สมบูรณ์ — อาจเกิดการฮัลลูซิเนชันได้ แม้จะมีการอ้างว่าปรับปรุงแล้วก็ตาม ยังจำเป็นต้องมีการตรวจสอบยึดโยงและทบทวนโดยมนุษย์ในบริบทความเสี่ยงสูง (กฎหมาย การแพทย์ การเงิน)
  2. ประสิทธิภาพในบริบทยาวขึ้นอยู่กับงาน แม้รองรับหน้าต่างอินพุต 1M เป็นความสามารถเชิงปริมาณ แต่ประสิทธิผลเชิงประจักษ์อาจลดลงในบางเกณฑ์เมื่อความยาวสุดขีด (พบการลดลงแบบจุดที่ 1M ในบางการทดสอบบริบทยาว)
  3. การแลกเปลี่ยนต้นทุนและความหน่วง บริบทขนาดใหญ่และการตั้งค่า thinking_level ที่สูงขึ้นเพิ่มการคำนวณ ความหน่วง และต้นทุน; มีโครงสร้างราคาแยกชั้นตามปริมาณโทเค็น ใช้ thinking_level และกลยุทธ์การแบ่งชิ้นส่วนเพื่อจัดการต้นทุน
  4. ความปลอดภัยและตัวกรองเนื้อหา Google ยังคงใช้แนวทางความปลอดภัยและชั้นการกลั่นกรอง; เนื้อหาและการกระทำบางอย่างยังถูกจำกัดหรืออาจทริกเกอร์โหมดปฏิเสธ

การเปรียบเทียบ Gemini 3 Pro Preview กับโมเดลชั้นนำอื่นๆ

ภาพรวมระดับสูง (เวอร์ชันพรีวิว → เชิงคุณภาพ):

เมื่อเทียบกับ Gemini 2.5 Pro: ก้าวกระโดดในด้านการให้เหตุผล การใช้เครื่องมือเชิงตัวแทน และการผสานมัลติโหมด; รองรับบริบทขนาดใหญ่กว่าและความเข้าใจงานระยะยาวที่ดีขึ้น DeepMind แสดงผลลัพธ์เพิ่มขึ้นอย่างสม่ำเสมอในเหตุผลเชิงวิชาการ การเขียนโค้ด และงานมัลติโหมด

เมื่อเทียบกับ GPT-5.1 และ Claude Sonnet 4.5 (ตามที่รายงาน): บนชุดเกณฑ์ของ Google/DeepMind นำเสนอว่า Gemini 3 Pro นำหน้าในหลายมิติของงานเชิงตัวแทน มัลติโหมด และบริบทยาว (ดู Terminal-Bench, MMMU-Pro, AIME) โดยผลเปรียบเทียบต่างกันไปตามงาน


กรณีการใช้งานทั่วไปและมูลค่าสูง

  • การสรุปเอกสาร/หนังสือขนาดใหญ่ & Q&A: การรองรับบริบทยาวทำให้เหมาะกับทีมกฎหมาย วิจัย และกำกับดูแลการปฏิบัติตามข้อกำหนด
  • การทำความเข้าใจและสร้างโค้ดในระดับรีโป: การผสานกับสายเครื่องมือสำหรับโค้ดและการให้เหตุผลที่ดีขึ้นช่วยรีแฟกเตอร์โค้ดเบสขนาดใหญ่และเวิร์กโฟลว์รีวิวโค้ดอัตโนมัติ
  • ผู้ช่วยผลิตภัณฑ์แบบมัลติโหมด: เวิร์กโฟลว์ภาพ + ข้อความ + เสียง (ระบบช่วยลูกค้าที่รับข้อมูลจากสกรีนช็อต ส่วนตัดการสนทนาทางโทรศัพท์ และเอกสาร)
  • การสร้างและแก้ไขสื่อ (photo → video): ความสามารถจากตระกูล Gemini ก่อนหน้า เช่น Veo / Flow-style สำหรับ photo→video ปัจจุบันถูกรวมไว้; พรีวิวบ่งชี้ถึงการสร้างสื่อมัลติมีเดียที่ลึกขึ้นสำหรับต้นแบบและเวิร์กโฟลว์สื่อ

Playground สำหรับ Gemini 3 Pro Preview

สำรวจ Playground ของ Gemini 3 Pro Preview — สภาพแวดล้อมแบบโต้ตอบสำหรับทดสอบโมเดลและรันคำถามแบบเรียลไทม์ ลองใช้ prompts ปรับพารามิเตอร์ และทำซ้ำทันทีเพื่อเร่งการพัฒนาและตรวจสอบกรณีการใช้งาน

คุณสมบัติสำหรับ Gemini 3 Pro Preview

* **รหัสโมเดล (พรีวิว):** `gemini-3-pro-preview`. * **ประเภทอินพุต:** ข้อความ, รูปภาพ, วิดีโอ, เสียง, PDF. เอาต์พุต: ข้อความ * **ขีดจำกัดของบริบท / โทเค็น:** อินพุต ≈ **1,048,576 โทเค็น**; เอาต์พุต ≤ **65,536 โทเค็น**. * **ข้อมูลที่มีจนถึง:** **มกราคม 2025** (ใช้ Search Grounding สำหรับข้อมูลใหม่กว่า). * **ความสามารถ (ที่เลือก):** การเรียกใช้ฟังก์ชัน, การรันโค้ด, การค้นหาไฟล์, เอาต์พุตแบบมีโครงสร้าง, Search Grounding. ไม่รองรับ: การสร้างเสียง, การสร้างภาพ, Live API, การแบ่งส่วนภาพ, Google Maps Grounding (คุณสมบัติบางอย่างแตกต่างจาก Gemini 2.5).
text-to-text
text-to-music
speech-to-text
text-to-speech
text-to-image
image-to-image
image-editing
image-to-text
text-to-video
image-to-video
chat
video-to-text
pdf-to-text

ราคาสำหรับ Gemini 3 Pro Preview

สำรวจราคาที่แข่งขันได้สำหรับ Gemini 3 Pro Preview ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า Gemini 3 Pro Preview สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)
อินพุต:$1.60/M
เอาต์พุต:$9.60/M
อินพุต:$2.00/M
เอาต์พุต:$12.00/M

โค้ดตัวอย่างและ API สำหรับ Gemini 3 Pro Preview

Gemini 3 Pro คือโมเดลการให้เหตุผลแบบมัลติโหมดรุ่นเรือธงใหม่ล่าสุดของ Google/DeepMind ในตระกูล Gemini 3 โดยถูกวางตำแหน่งว่าเป็น “โมเดลที่ฉลาดที่สุดของพวกเขาเท่าที่เคยมีมา” ออกแบบมาเพื่อการให้เหตุผลเชิงลึก เวิร์กโฟลว์แบบเอเจนต์ การเขียนโค้ดขั้นสูง และการทำความเข้าใจแบบมัลติโหมดในบริบทยาว (ข้อความ, รูปภาพ, เสียง, วิดีโอ, โค้ด และการผสานรวมเครื่องมือ)
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

รุ่นของ Gemini 3 Pro Preview

เหตุผลที่ Gemini 3 Pro Preview มีสแนปช็อตหลายตัวอาจรวมถึงปัจจัยที่อาจเกิดขึ้น เช่น ความแปรผันของผลลัพธ์หลังการอัปเดตที่ต้องการสแนปช็อตรุ่นเก่าสำหรับความสม่ำเสมอ การให้ช่วงเวลาเปลี่ยนผ่านสำหรับนักพัฒนาเพื่อการปรับตัวและการย้ายข้อมูล และสแนปช็อตที่แตกต่างกันซึ่งสอดคล้องกับเอนด์พอยต์ระดับโลกหรือระดับภูมิภาคเพื่อเพิ่มประสิทธิภาพประสบการณ์ผู้ใช้ สำหรับความแตกต่างโดยละเอียดระหว่างเวอร์ชัน โปรดอ้างอิงเอกสารทางการ