Gemini 3 Pro (Preview) 는 Google/DeepMind의 Gemini 3 패밀리에서 최신 플래그십 멀티모달 추론 모델입니다. 자사의 “지금까지 가장 지능적인 모델”로 포지셔닝되어 있으며, 깊은 추論, 에이전틱 워크플로, 고급 코딩, 그리고 장문 맥락의 멀티모달 이해(텍스트, 이미지, 오디오, 비디오, 코드 및 도구 통합)를 위해 설계되었습니다.
주요 기능
- 모달리티: 텍스트, 이미지, 비디오, 오디오, PDF(및 구조화된 도구 출력).
- 에이전틱/툴링: 내장 함수 호출, 도구로서의 검색, 코드 실행, URL 컨텍스트, 그리고 다단계 에이전트 오케스트레이션 지원. Thought-signature 메커니즘이 호출 간 다단계 추론을 보존합니다.
- 코딩 및 “바이브 코딩”: 프런트엔드 생성, 인터랙티브 UI 생성, 에이전틱 코딩에 최적화됨(구글이 보고한 관련 리더보드 상위). 지금까지 가장 강력한 “바이브 코딩” 모델로 마케팅되고 있습니다.
- 새로운 개발자 제어:
thinking_level(low|high)을 통해 비용/지연 시간과 추론 깊이 간의 절충을 조정하고,media_resolution은 이미지 또는 비디오 프레임별 멀티모달 충실도를 제어합니다. 이를 통해 성능, 지연 시간, 비용의 균형을 맞출 수 있습니다.
벤치마크 성능
- Gemini3Pro는 LMARE에서 1501점을 기록해 1위를 차지했으며, Grok-4.1-thinking의 1484점을 넘어섰고 Claude Sonnet 4.5와 Opus 4.1보다 앞섰습니다.
- WebDevArena 프로그래밍 아레나에서도 1487점으로 1위를 달성했습니다.
- Humanity’s Last Exam 학술 추론에서는 37.5%(도구 미사용)를 기록했고, GPQA Diamond 과학에서는 91.9%, MathArena Apex 수학 대회에서는 23.4%로 신기록을 세웠습니다.
- 멀티모달 역량에서는 MMMU-Pro에서 81%, Video-MMMU 비디오 이해에서 87.6%를 달성했습니다.

기술 세부사항 및 아키텍처
- “Thinking level” 매개변수: Gemini 3는
thinking_level제어를 노출하여 개발자가 내부 추론 깊이와 지연/비용 간의 절충을 조정할 수 있도록 합니다. 모델은thinking_level을 엄격한 토큰 보장이 아닌 내부 다단계 추론에 대한 상대적 허용치로 취급합니다. 기본값은 일반적으로 Pro에서high입니다. 이는 다단계 계획과 연쇄적 사고 깊이를 개발자가 조정할 수 있는 명시적 새 제어입니다. - 구조화된 출력 및 도구: 모델은 구조화된 JSON 출력을 지원하며, 내장 도구(Google Search 그라운딩, URL 컨텍스트, 코드 실행 등)와 결합할 수 있습니다. 일부 구조화된 출력+도구 기능은
gemini-3-pro-preview에서만 프리뷰로 제공됩니다. - 멀티모달 및 에이전틱 통합: Gemini 3 Pro는 명시적으로 에이전틱 워크플로(툴링 + 코드/터미널/브라우저 상의 다중 에이전트)를 위해 구축되었습니다.
한계 및 알려진 주의사항
- 완벽한 사실성은 아님 — 환각 가능성 존재. 구글이 주장하는 사실성 개선에도 불구하고, 중대 영역(법률, 의료, 금융)에서는 근거 검증과 인간 검토가 여전히 필요합니다.
- 장문 맥락 성능은 작업별로 변동. 1M 입력 윈도우 지원은 확실한 능력이지만, 극단적 길이에서는 일부 벤치마크에서 실증적 효과가 저하될 수 있음(일부 장문 맥락 테스트에서 1M에서 점진적 하락 관찰).
- 비용 및 지연 시간 절충. 큰 컨텍스트와 더 높은
thinking_level설정은 연산량, 지연 시간, 비용을 증가시킵니다; 토큰 볼륨에 따른 가격 티어가 적용됩니다. 비용 관리를 위해thinking_level과 청킹 전략을 사용하십시오. - 안전 및 콘텐츠 필터. 구글은 안전 정책과 중재 레이어를 계속 적용하며, 특정 콘텐츠와 행동은 제한되거나 거절 모드가 트리거될 수 있습니다.
Gemini 3 Pro Preview와 다른 최고 모델 비교
고수준 비교(프리뷰 → 정성적):
Gemini 2.5 Pro 대비: 추론, 에이전틱 도구 사용, 멀티모달 통합에서 단계적 도약 수준의 개선; 훨씬 큰 컨텍스트 처리와 더 나은 장문 이해. DeepMind는 학술 추론, 코딩, 멀티모달 과업 전반에서 일관된 향상을 보여줍니다.
GPT-5.1 및 Claude Sonnet 4.5 대비(보고된 바): Google/DeepMind의 벤치마크 모음에서 Gemini 3 Pro는 여러 에이전틱, 멀티모달, 장문 맥락 지표(예: Terminal-Bench, MMMU-Pro, AIME)에서 선도하는 것으로 제시됩니다. 비교 결과는 과업별로 상이합니다.
일반 및 고가치 활용 사례
- 대용량 문서/서적 요약 및 Q&A: 장문 컨텍스트 지원은 법무, 연구, 컴플라이언스 팀에 매력적입니다.
- 레포지토리 규모의 코드 이해 및 생성: 코딩 툴체인 통합과 향상된 추론이 대규모 코드베이스 리팩터링과 자동 코드 리뷰 워크플로를 지원합니다.
- 멀티모달 제품 어시스턴트: 이미지 + 텍스트 + 오디오 워크플로(스크린샷, 통화 스니펫, 문서를 수집하는 고객 지원).
- 미디어 생성 및 편집(사진 → 비디오): 이전 Gemini 패밀리 기능은 이제 Veo / Flow 스타일의 사진→비디오 기능을 포함하며; 프리뷰는 프로토타입과 미디어 워크플로를 위한 더 깊은 멀티미디어 생성을 시사합니다.