Gemini 3 Pro 이미지(Nano Banana Pro) API

CometAPI
AnnaDec 10, 2025
Gemini 3 Pro 이미지(Nano Banana Pro) API

Google의 나노 바나나 프로 (공식 모델 ID gemini-3-pro-image-preview)는 Gemini 3 Pro의 이미지 생성/편집 버전입니다. 미리보기 단계의 전문가급 이미지 모델로, 2K/4K 출력, 고화질 다중 이미지 합성(최대 14개의 참조 이미지, 문자 일관성 최대 5 사람들), 더 강력한 이미지 내 텍스트 렌더링, 현실 세계의 사실에 대한 검색 기반.

기본 기능

  • 텍스트 → 이미지: 강력한 프롬프트 준수를 갖춘 완전한 프롬프트 주도 세대.
  • 이미지 → 이미지(편집): 여러 편집 과정에서 주제/캐릭터의 일관성을 유지하면서 세부적이고 집중적인 편집을 실시했습니다.
  • 최대 출력 해상도: ~까지 4K (예시와 지원되는 정확한 픽셀 크기는 종횡비에 따라 달라집니다. API는 1K/2K/4K 사전 설정을 제공합니다)
  • 반복적 계획 및 자체 수정: 일반적인 시각적 실수(원근법, 텍스트, 미세한 기하학)를 감지하고 수정하는 내부 "다단계" 파이프라인입니다.
  • 고급 이미지 내 텍스트 렌더링: 포스터, 모형, 인포그래픽에 적합한 명확하고 읽기 쉬운 다국어 텍스트(짧은 캡션에서 긴 문단까지)입니다.
  • 5개의 문자 그리고 최대 충실도 14개 객체/참조 이미지 단일 워크플로에서.
  • 워터마킹/출처: 생성된 모든 이미지에는 SynthID 워터마크가 포함됩니다. 일부 제품 통합에서는 모델에 출처를 확인하기 위한 C2PA 메타데이터가 내장됩니다.

Gemini 3 Pro 이미지 버전 및 명명

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

기술적 세부 사항

아키텍처

  • 혈통/백본: Nano Banana Pro는 Google의 진화하는 Gemini 이미지 스택(특히 새로운)을 기반으로 구축됩니다. 제미니 3 프로 이미지 / GEMPIX 2 아키텍처(고용량 멀티모달 이미지+텍스트 프레임워크). 이는 다음에서 진화한 것입니다. 제미니 2.5 플래시 이미지 (원래의 "나노 바나나")를 확장된 시각-언어 추론 기능을 갖춘 기본 다중 모드 이미지 모델로 변환했습니다.
  • 모델 동작: 네이티브 멀티모달리티(이미지 + 텍스트 + 세계 지식), 다중 이미지 융합을 위한 명시적 파이프라인, 그리고 단일 정적 샘플을 생성하는 대신 여러 패스에 걸쳐 출력을 개선하는 내부 단계적 플래너. 초기 보고서는 이전 버전보다 더 강력한 기하학적/광학적 추론(유리, 굴절)을 보여줍니다.
  • 사고 / 내면의 정제: 이 모델은 구성을 개선하기 위해 내부적으로 눈에 보이는 "사고" 과정을 사용합니다(API는 이러한 동작을 문서화하고 해당 내부 단계는 최종 이미지 토큰으로 청구되지 않는다고 명시합니다).
  • 접지 및 도구: 지원 접지 검색 (웹 데이터를 다이어그램/인포그래픽 생성에 통합할 수 있습니다.) 또한 보다 결정론적인 제어를 위한 시스템 지침도 지원합니다.

주요 API 매개변수:

  • thinking_level (낮음/높음) 지연 시간 대 추론 깊이를 교환합니다.
  • media_resolution (낮음/중간/높음) 이미지 OCR/세부 정보 판독 토큰을 제어합니다.
  • generationConfig.imageConfig 이미지 출력의 종횡비/해상도를 제어합니다.

이미지 제한:

  • 지원되는 입력 방식: 텍스트와 이미지(이 모델은 오디오나 비디오를 이미지 생성 입력으로 허용하지 않음).
  • 프롬프트당 최대 이미지 수: 14(Gemini 3 Pro 이미지 미리보기용).
  • 최대 이미지 크기(업로드): 입력 이미지당 7MB.
  • 지원되는 종횡비: 1:1, 3:2, 16:9, 9:16, 21:9 등

출력 이미지/토큰: 높은 제한, 4K/4096px 지원.

벤치마크 성능

짧은 요약: 지금까지 공개/초기 벤치마크는 대부분 정성적/커뮤니티 중심이지만, 원래 나노 바나나(Gemini 2.5 Flash Image)에 비해 해상도, 아티팩트 감소, 그리고 물리적 충실도 측면에서 상당한 개선을 지속적으로 보고하고 있습니다. 특정 "챌린지"에서는 시각적인 향상이 뚜렷하게 나타났지만, 표준 이미지 생성 지표를 통해 v1과 v2를 비교하는 (공개된) 표준화된 수치 벤치마크 표는 아직 구글에서 제공하지 않습니다.

  • 질적 커뮤니티 테스트: 더욱 선명한 가장자리, 더욱 선명한 미세 디테일, 더욱 사실적인 색상, 그리고 더욱 충실한 즉각적인 반응(환상적인 소품 감소, 더욱 일관된 캐릭터). 인기 있는 비공식 테스트로는 소위 "와인 잔 테스트"와 "글래스 버거 챌린지"가 있는데, GEMPIX2(나노 바나나 프로)는 이전 빌드보다 투명도와 굴절을 현저히 개선했습니다.
  • 텍스트 처리: Nano Banana Pro는 이미지 내 타이포그래피와 텍스트 배치가 눈에 띄게 개선되었습니다(많은 이미지 모델에서 지속적으로 나타나는 단점입니다). 커뮤니티 비교 결과, 렌더링된 글리프가 깨지는 현상이 줄었습니다.
  • 처리량 / UX: 더 빠른 반복 속도와 백엔드에서 여러 단계의 개선을 수행하는 UX를 통해 사용자는 더욱 신뢰할 수 있는 첫 번째 패스 결과를 볼 수 있습니다(수동 재시도 감소).

제한 사항 및 위험

  • 콘텐츠 필터 및 감지: 이 모델을 통합한 플랫폼(예: Whisk/타사 앱)은 유명인이나 유사성을 엄격하게 감지하고 특정 출력을 차단할 수 있으며, 이는 사실적인 유명인 유사성에 의존하는 창의적인 워크플로에 영향을 미칩니다.
  • 환각/추론의 한계 사례: 개선되었지만 이 모델은 여전히 ​​물리적으로 비현실적인 아티팩트를 생성할 수 있습니다. 특히 이미지 내부의 밀집된 상징적 텍스트나 매우 기술적인 다이어그램의 경우 더욱 그렇습니다. 다만 NB2는 이전 버전에 비해 이런 오류를 줄이는 것으로 보입니다.
  • 안전 및 오용: 생성 이미지 모델은 문제가 있거나 유해한 콘텐츠를 생성하는 데 사용될 수 있습니다. Google은 출처 확인을 위해 제약 조건, 콘텐츠 필터, 그리고 SynthID 워터마크를 적용하지만, 정치적으로 민감한 상황에서 나노 바나나가 생성한 이미지와 관련된 심각한 논란이 발생하면서 오용 사례가 발생했습니다.

Nano Banana Pro가 다른 모델과 비교했을 때 어떤 점이 좋은지 알아보세요.

  • 나노 바나나 프로(GEMPIX 2 / Gemini 3 Pro 이미지) — 강력한 모바일 통합, 다중 이미지 융합, 반복적인 자체 보정, 2K 네이티브/4K 업스케일링 기능을 제공하며, Google 앱(검색, 사진, Workspace/Gemini)과 긴밀하게 통합되어 있습니다. 안정적인 편집, 연속성, Google 서비스와의 통합이 필요한 워크플로에 가장 적합합니다.
  • 중도 — 양식화된 예술적 결과물과 커뮤니티 중심의 신속한 엔지니어링에 탁월합니다. 일반적으로 사진 정확도가 높은 다중 이미지 융합이나 심층적인 다중 모드 편집 파이프라인을 대상으로 하지 않습니다.
  • 안정적 확산 / 개방형 가중치 — 완전히 개방적이고, 높은 수준의 사용자 정의가 가능하며, 로컬 호스팅이 가능합니다. 체크포인트와 미세 조정 생태계는 연구 및 오프라인 사용에 결정적인 이점입니다. Nano Banana Pro보다 "원클릭" 모바일 통합이 적고, 여러 이미지 편집 시 일관성이 떨어집니다.
  • Seedream 4.0(바이트댄스) — 최근 초고속 렌더링, 2K 출력, 그리고 최대 6개까지의 다양한 참조 이미지 지원을 강조하며 Nano Banana의 경쟁자로 명확히 포지셔닝되었습니다. 프로/크리에이터의 대안으로 포지셔닝되었습니다.

(이러한 비교는 높은 수준의 것입니다. 워크플로에 맞는 도구를 선택하여 승자를 선택하세요: 개방성/맞춤형 가능성 → 안정적인 확산; 양식화된 아트 → Midjourney; 적극적인 반복을 통한 통합적이고 일관된 모바일 편집 → Nano Banana Pro/Gemini 3 Pro 이미지 패밀리.)


실제 사용 사례

  • 모바일 사진 편집 및 크리에이티브 필터 (Google 포토 통합 — 스타일 변경, 배경 융합, 인물 사진 재구성)
  • 마케팅 및 광고 자산 — 빠른 컨셉 생성, 다양한 프레임/각도에 걸친 일관된 브랜드 캐릭터.
  • 콘셉트 아트 및 스토리보딩 — 다중 이미지 퓨전은 패널 전체에서 캐릭터의 연속성을 유지하는 데 도움이 됩니다.
  • 전자상거래/제품 모형 — 다양한 맥락/조명 조건에서 일관된 제품 사진을 생성합니다.
  • AR/VR 자산을 위한 신속한 프로토타입 제작 — 몰입형 사용을 위해 업스케일링이 가능한 고품질 2K/4K 출력.

gemini-3-pro-image(를 호출하는 방법나노 바나나 프로)  API

CometAPI의 Nano Banana API 가격, 공식 가격 대비 20% 할인:

가격$0.19200

필수 단계

  • 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니신 경우 먼저 등록해 주시기 바랍니다.
  • 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.
  • 이 사이트의 url을 받으세요: https://api.cometapi.com/

사용 방법

  1. "gemini-3-pro-imageAPI 요청을 전송하고 요청 본문을 설정하는 엔드포인트입니다. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다.
  2. 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
  3. 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
  4. . API 응답을 처리하여 생성된 답변을 얻습니다.

CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보:

참조 Gemini 2.5 플래시 이미지 API(나노-바나나)

SHARE THIS BLOG

하나의 API로 500개 이상의 모델

최대 20% 할인