**Gemini 3 Pro (Preview)**는 Gemini 3 패밀리에서 Google/DeepMind의 최신 플래그십 멀티모달 추론 모델입니다. 이 모델은 “가장 지능적인 모델”로 포지셔닝되어 있으며, 심층 추론, 에이전트형 워크플로, 고급 코딩, 긴 컨텍스트의 멀티모달 이해(텍스트, 이미지, 오디오, 비디오, 코드 및 도구 통합)를 위해 설계되었습니다.
주요 기능
- 모달리티: 텍스트, 이미지, 비디오, 오디오, PDF(및 구조화된 도구 출력).
- 에이전트/툴링: 내장 함수 호출, 도구로서의 검색, 코드 실행, URL 컨텍스트, 다단계 에이전트 오케스트레이션 지원. Thought-signature 메커니즘은 호출 간 다단계 추론을 보존합니다.
- 코딩 & “vibe coding”: 프런트엔드 생성, 대화형 UI 생성, 에이전트형 코딩에 최적화(구글이 보고한 관련 리더보드 최상위). 가장 강력한 “vibe-coding” 모델로 마케팅됩니다.
- 새로운 개발자 컨트롤:
thinking_level(low|high)로 비용/지연 시간과 추論 깊이 간 트레이드오프를 조절하고,media_resolution으로 이미지 또는 비디오 프레임 단위의 멀티모달 품질을 제어합니다. 이는 성능, 지연 시간, 비용의 균형을 맞추는 데 도움이 됩니다.
벤치마크 성능
- Gemini3Pro는 LMARE에서 1501점을 기록해 1484점의 Grok-4.1-thinking을 상회하며, Claude Sonnet 4.5와 Opus 4.1도 앞질렀습니다.
- WebDevArena 프로그래밍 분야에서도 1487점으로 1위를 차지했습니다.
- Humanity’s Last Exam 학술 추론에서는 37.5%(도구 미사용), GPQA Diamond 과학에서는 91.9%, MathArena Apex 수학 대회에서는 23.4%를 기록하며 신기록을 세웠습니다.
- 멀티모달 능력에서는 MMMU-Pro 81%, Video-MMMU 비디오 이해에서 87.6%를 달성했습니다.
기술 세부사항 & 아키텍처
- “Thinking level” 파라미터: Gemini 3는 개발자가 내부 추론 깊이와 지연/비용을 트레이드오프할 수 있는
thinking_level컨트롤을 제공합니다. 모델은thinking_level을 엄격한 토큰 보장이 아닌 내부 다단계 추론에 대한 상대적 허용치로 취급합니다. Pro의 기본값은 일반적으로high입니다. 이는 다단계 계획과 chain-of-thought 깊이를 조정하기 위한 명시적 컨트롤입니다. - 구조화된 출력 & 도구: 모델은 구조화된 JSON 출력을 지원하며 내장 도구(Google Search 그라운딩, URL 컨텍스트, 코드 실행 등)와 결합할 수 있습니다. 일부 구조화 출력+도구 기능은
gemini-3-pro-preview에서 프리뷰 전용입니다. - 멀티모달 및 에이전트 통합: Gemini 3 Pro는 에이전트형 워크플로(툴링 + 코드/터미널/브라우저 상의 다중 에이전트)에 맞춰 명시적으로 설계되었습니다.
한계 및 유의사항
- 사실성은 완벽하지 않음 — 환각 가능성 존재. Google이 사실성 향상을 주장하지만, 고위험 영역(법률, 의료, 금융)에서는 근거 검증과 인적 검토가 여전히 필요합니다.
- 긴 컨텍스트 성능은 작업별로 편차. 1M 입력 윈도우 지원은 하드 능력이지만, 극단적 길이에서는 일부 벤치마크에서 실효성이 저하될 수 있음(일부 장문 컨텍스트 테스트에서 1M 구간에서 포인트별 하락 관찰).
- 비용 & 지연 시간 트레이드오프. 큰 컨텍스트와 높은
thinking_level설정은 연산, 지연 시간, 비용을 증가시킵니다. 토큰 볼륨에 따른 가격 구간이 적용됩니다. 비용 관리를 위해thinking_level과 청킹 전략을 사용하세요. - 안전 & 콘텐츠 필터. Google은 안전 정책과 중재 레이어를 지속 적용합니다. 특정 콘텐츠나 행동은 제한되거나 거부 모드를 트리거할 수 있습니다.
Gemini 3 Pro Preview와 다른 최고 모델 비교
상위 수준 비교(프리뷰 → 정성적):
Gemini 2.5 Pro 대비: 추론, 에이전트 도구 사용, 멀티모달 통합에서 단계적 도약 수준의 개선. 훨씬 더 큰 컨텍스트 처리와 향상된 장문 이해. 학술 추론, 코딩, 멀티모달 작업 전반에서 DeepMind가 일관된 향상을 보여줍니다.
GPT-5.1 및 Claude Sonnet 4.5 대비(보고 기준): Google/DeepMind의 벤치마크에서 Gemini 3 Pro는 여러 에이전트형, 멀티모달, 장문 컨텍스트 지표(예: Terminal-Bench, MMMU-Pro, AIME)에서 선도적으로 제시됩니다. 과제에 따라 비교 결과는 달라질 수 있습니다.
일반 및 고가치 활용 사례
- 대형 문서/도서 요약 및 Q&A: 긴 컨텍스트 지원으로 법무, 연구, 컴플라이언스 팀에 매력적입니다.
- 레포 규모의 코드 이해 & 생성: 코딩 툴체인 통합과 향상된 추론이 대규모 코드베이스 리팩터링과 자동 코드 리뷰 워크플로를 지원합니다.
- 멀티모달 제품 어시스턴트: 이미지 + 텍스트 + 오디오 워크플로(스크린샷, 통화 녹취, 문서를 수집하는 고객 지원).
- 미디어 생성 & 편집(사진 → 영상): 이전 Gemini 패밀리 기능에 Veo / Flow 스타일의 사진→영상 기능이 포함되었으며, 프리뷰는 프로토타이핑과 미디어 워크플로를 위한 더 깊은 멀티미디어 생성을 시사합니다.
Gemini 3 Pro API 액세스 방법
Step 1: Sign Up for API Key
cometapi.com에 로그인하세요. 아직 사용자 아니라면 먼저 등록하세요. CometAPI console에 로그인합니다. 인터페이스의 액세스 자격 증명 API 키를 발급받습니다. 개인 센터의 API token에서 “Add Token”을 클릭해 토큰 키: sk-xxxxx를 받고 제출하세요.
Step 2: Send Requests to Gemini 3 Pro API
“gemini-3-pro” 엔드포인트를 선택해 API 요청을 보내고 요청 본문을 설정하세요. 요청 메서드와 요청 본문은 웹사이트의 API 문서에서 확인합니다. 편의를 위해 Apifox 테스트도 제공합니다. <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 교체하세요. base url is Gemini Generating Content and Chat
질문이나 요청을 content 필드에 입력하세요 — 모델이 해당 내용에 응답합니다. API 응답을 처리해 생성된 답변을 얻으세요.
Step 3: Retrieve and Verify Results
API 응답을 처리해 생성된 답변을 얻으세요. 처리 후, API는 작업 상태와 출력 데이터를 반환합니다.