Gemini 3 Pro (Preview) er Google/DeepMinds nyeste flagskibs-multimodale ræsonneringsmodel i Gemini 3-familien. Den positioneres som deres “hidtil mest intelligente model”, designet til dyb ræsonnering, agentbaserede arbejdsgange, avanceret kodning og multimodal forståelse med lange kontekster (tekst, billeder, lyd, video, kode- og værktøjsintegrationer).
Nøglefunktioner
- Modaliteter: Tekst, billede, video, lyd, PDF'er (og strukturerede værktøjsoutput).
- Agentiske funktioner/værktøjer: Indbygget funktionskald, søgning som værktøj, eksekvering af kode, URL-kontekst og støtte til orkestrering af flertrinsagenter. Mekanismen med “thought-signature” bevarer flertrinsresonnering på tværs af kald.
- Kodning og “vibe-coding”: Optimeret til front-end-generering, interaktiv UI-generering og agentisk kodning (den topper relevante ranglister rapporteret af Google). Den markedsføres som deres stærkeste “vibe-coding”-model til dato.
- Nye udviklerkontroller:
thinking_level(low|high) til at afveje omkostning/latens vs. ræsonneringsdybde, ogmedia_resolutionstyrer multimodal fidelitet pr. billede eller videoframe. Disse hjælper med at balancere ydeevne, latens og omkostning.
Benchmark-ydelse
- Gemini3Pro opnåede førsteplads i LMARE med en score på 1501, og overgik Grok-4.1-thinking med 1484 point samt førte foran Claude Sonnet 4.5 og Opus 4.1.
- Den opnåede også førsteplads i WebDevArena-programmeringsarenaen med en score på 1487.
- I Humanity’s Last Exam akademisk ræsonnering opnåede den 37.5% (uden værktøjer); i GPQA Diamond science 91.9%; og i MathArena Apex matematikkonkurrencen 23.4%, hvilket satte ny rekord.
- I multimodale kompetencer opnåede MMMU-Pro 81%; og i Video-MMMU videoforståelse 87.6%.

Tekniske detaljer og arkitektur
- “Thinking level”-parameter: Gemini 3 eksponerer en
thinking_level-kontrol, der lader udviklere afveje dybden af intern ræsonnering mod latens/omkostning. Modellen behandlerthinking_levelsom et relativt råderum for intern flertrinsresonnering snarere end en streng token-garanti. Standard er typiskhighfor Pro. Dette er en eksplicit ny kontrol for udviklere til at tune flertrinsplanlægning og chain-of-thought-dybde. - Strukturerede output og værktøjer: Modellen understøtter strukturerede JSON-output og kan kombineres med indbyggede værktøjer (Google Search-grounding, URL-kontekst, kodekørsel osv.). Nogle structured-output+tools-funktioner er kun i preview for
gemini-3-pro-preview. - Multimodale og agentiske integrationer: Gemini 3 Pro er eksplicit bygget til agentbaserede arbejdsgange (værktøjer + flere agenter over kode/terminaler/browser).
Begrænsninger og kendte forbehold
- Ikke perfekt faktualitet — hallucinationer er stadig mulige. På trods af stærke forbedringer i faktualitet hævdet af Google er kildeforankret verificering og menneskelig gennemgang stadig nødvendig i højrisikosammenhænge (juridisk, medicinsk, finansiel).
- Ydelse på lange kontekster varierer efter opgave. Understøttelse af et 1M inputvindue er en fast kapacitet, men den empiriske effektivitet kan falde på nogle benchmarks ved ekstreme længder (observerede punktvise fald ved 1M på nogle lang-kontekst-tests).
- Afvejninger mellem omkostninger og latens. Store kontekster og højere
thinking_level-indstillinger øger compute, latens og omkostning; prisniveauer gælder baseret på token-volumen. Brugthinking_levelog chunking-strategier til at styre omkostninger. - Sikkerhed og indholdsfiltre. Google fortsætter med at anvende sikkerhedspolitikker og modereringslag; bestemt indhold og handlinger forbliver begrænsede eller udløser afvisningstilstande.
Hvordan Gemini 3 Pro Preview sammenlignes med andre topmodeller
Sammenligning på overordnet niveau (preview → kvalitativ):
Sammenlignet med Gemini 2.5 Pro: Springvise forbedringer i ræsonnering, agentisk værktøjsbrug og multimodal integration; meget større konteksthåndtering og bedre forståelse af lange formater. DeepMind viser konsistente gevinster på tværs af akademisk ræsonnering, kodning og multimodale opgaver.
Sammenlignet med GPT-5.1 og Claude Sonnet 4.5 (som rapporteret): På Google/DeepMinds benchmark-palette præsenteres Gemini 3 Pro som førende på flere agentiske, multimodale og lang-kontekst-metrikker (se Terminal-Bench, MMMU-Pro, AIME). Sammenlignende resultater varierer efter opgave.
Typiske og højværdi-brugsscenarier
- Opsummering af store dokumenter/bøger & Q&A: Understøttelsen af lange kontekster gør den attraktiv for juridiske, forsknings- og compliance-teams.
- Forståelse og generering af kode i repo-skala: Integration med kodningsværktøjskæder og forbedret ræsonnering hjælper ved store refaktoreringer af kodebaser og automatiserede arbejdsgange for kodegennemgang.
- Multimodale produktassistenter: Arbejdsgange med billede + tekst + lyd (kundesupport, der indtager skærmbilleder, opkaldsuddrag og dokumenter).
- Mediegenerering og -redigering (foto → video): Tidligere Gemini-funktioner omfatter nu Veo-/Flow-stil foto→video-kapaciteter; preview antyder dybere multimediegenerering til prototyper og medierelaterede arbejdsgange.