기본 기능
- Text → Image: 프롬프트 기반 생성 전 과정을 지원하며, 프롬프트 준수성이 뛰어납니다.
- Image → Image (edits): 미세하고 목표 지향적인 편집을 제공하며, 여러 차례 편집해도 피사체/캐릭터의 일관성을 유지합니다.
- 최대 출력 해상도: 최대 4K(예시와 지원되는 정확한 픽셀 크기는 종횡비에 따라 달라지며, API는 1K/2K/4K 프리셋을 제공합니다)
- 반복적 계획 수립 및 자기 교정: 일반적인 시각적 오류(원근, 텍스트, 미세 기하)를 탐지하고 수정하는 내부 ‘다단계’ 파이프라인을 사용합니다.
- 고급 이미지 내 텍스트 렌더링: 포스터, 목업, 인포그래픽에 적합한 선명하고 가독성 높은 다국어 텍스트(짧은 캡션부터 긴 문단까지)를 구현합니다.
- 5명의 캐릭터 및 단일 워크플로에서 최대 14개의 객체/참조 이미지에 대한 충실도를 지원합니다.
- 워터마킹 / 출처: 생성된 모든 이미지에는 SynthID 워터마크가 포함되며, 일부 제품 통합에서는 출처 확인을 위해 C2PA 메타데이터를 임베드합니다.
Gemini 3 Pro Image 버전 및 명명
gemini-3-pro-image-previewgemini-3-pro-image
기술 세부사항
아키텍처
- 계보 / 백본: Nano Banana Pro는 Google의 진화 중인 Gemini 이미지 스택—특히 새로운 Gemini 3 Pro Image / GEMPIX 2 아키텍처(더 높은 용량의 멀티모달 이미지+텍스트 프레임워크)—을 기반으로 구축되었습니다. 이는 Gemini 2.5 Flash Image(원래 “nano-banana”)에서 네이티브 멀티모달 이미지 모델로 발전하여 확장된 비전-언어 추론 능력을 갖춘 형태로의 진화입니다.
- 모델 동작: 네이티브 멀티모달리티(이미지 + 텍스트 + 세계 지식), 다중 이미지 융합을 위한 명시적 파이프라인, 그리고 단일 정적 샘플을 생성하는 대신 여러 패스를 거쳐 출력을 정제하는 내부 단계적 플래너를 사용합니다. 초기 보고에 따르면 이전 버전 대비 기하/광학(유리, 굴절) 추론이 강화되었습니다.
- 사고 / 내부 정제: 모델은 구성을 정제하기 위해 내부적으로 가시적인 “사고” 과정을 사용하며(API 문서에 이 동작이 명시되어 있고, 이러한 내부 단계는 최종 이미지 토큰으로 과금되지 않습니다).
- 그라운딩 및 도구: Search 그라운딩을 지원하여 웹 사실을 다이어그램/인포그래픽 생성에 반영할 수 있습니다. 또한 보다 결정론적 제어를 위한 시스템 지시문을 지원합니다.
주요 API 파라미터:
thinking_level(low / high): 지연 시간과 추論 깊이 간의 균형을 조절합니다;media_resolution(low/medium/high): 이미지 OCR/디테일 판독 토큰 사용량을 제어합니다;generationConfig.imageConfig: 이미지 출력의 종횡비/해상도를 제어합니다.
이미지 제한:
- 지원되는 입력 모달리티: 텍스트와 이미지(모델은 이미지 생성 입력으로 오디오나 비디오를 받지 않습니다).
- 프롬프트당 최대 이미지 수: 14(프리뷰 기준).
- 최대 이미지 크기(업로드): 입력 이미지당 7 MB.
- 지원 종횡비: 1:1, 3:2, 16:9, 9:16, 21:9 등.
출력 이미지 / 토큰: 높은 한도를 제공하며, 4K/4096px을 지원합니다.
벤치마크 성능
간단 요약: 현재 공개/초기 벤치마크는 주로 정성적/커뮤니티 기반이며, 원래 nano-banana(Gemini 2.5 Flash Image) 대비 해상도, 아티팩트 감소, 물리적 충실도에서 일관된 개선이 보고됩니다. 특정 명명된 ‘과제’에서 명확한 시각적 향상이 관찰되었으나, v1 → v2를 표준 이미지 생성 지표로 비교하는 (Google의) 공개 표준화 수치 테이블은 아직 없습니다.
- 정성적 커뮤니티 테스트: 더 깔끔한 에지, 더 선명한 마이크로 디테일, 더 정확한 색상, 프롬프트 준수성 향상(환각 소품 감소, 더 일관된 캐릭터). 이른바 “Wine Glass Test”와 “Glass Burger Challenge”에서 GEMPIX2(Nano Banana Pro)는 투명도와 굴절을 이전 빌드보다 현저히 잘 처리합니다.
- 텍스트 처리: Nano Banana Pro는 이미지 내 타이포그래피와 텍스트 배치가 눈에 띄게 개선되었습니다(많은 이미지 모델의 지속적 약점이던 부분). 커뮤니티 비교에서는 깨진 글리프가 줄어든 것으로 나타납니다.
- 처리량 / UX: 백엔드에서 다단계 정제를 수행하여 사용자에게 보다 신뢰할 수 있는 1차 결과를 제공하므로(수동 재생성을 줄임), 반복 속도가 빨라졌습니다.
제한 사항 및 위험
- 콘텐츠 필터 및 감지: 모델을 통합한 플랫폼(예: Whisk/서드파티 앱)은 엄격한 유명인/유사성 감지를 활성화하여 특정 출력을 차단할 수 있으며, 이는 현실적 유명인 유사성에 의존하는 크리에이티브 워크플로에 영향을 줄 수 있습니다.
- 환각 / 추론 한계 사례: 개선되었지만, 이미지 내부의 조밀한 기호 텍스트나 고도의 기술 도면에서 물리적으로 비현실적인 아티팩트를 생성할 수 있습니다 — 다만 NB2는 이전 버전 대비 이러한 오류를 줄인 것으로 보입니다.
- 안전 / 오남용: 생성형 이미지 모델은 문제적이거나 해로운 콘텐츠 제작에 악용될 수 있습니다. Google은 출처 확인을 돕기 위해 SynthID 워터마크와 제약, 콘텐츠 필터를 적용하지만, 그럼에도 오남용 사례가 발생했습니다(정치적으로 민감한 맥락에서 Nano Banana가 생성한 이미지와 연관된 고프로파일 논란).
Nano Banana Pro vs 기타 모델 비교
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — 강력한 모바일 통합, 다중 이미지 융합, 반복적 자기 교정, 2K 네이티브/4K 업스케일링, Google 앱(Search, Photos, Workspace/Gemini)과의 긴밀한 통합. 신뢰할 수 있는 편집, 연속성, Google 서비스 통합이 필요한 워크플로에 적합합니다.
- Midjourney — 스타일화된 예술적 출력과 커뮤니티 중심 프롬프트 엔지니어링에 강점. 사실적인 다중 이미지 융합이나 깊은 멀티모달 편집 파이프라인을 주 타깃으로 하지는 않습니다.
- Stable Diffusion / open weights — 완전 개방적이며 고도로 커스터마이즈 가능하고 로컬 호스팅이 가능합니다. 체크포인트와 파인튜닝 생태계가 연구 및 오프라인 사용에 결정적 이점입니다. Nano Banana Pro에 비해 ‘원클릭’ 모바일 통합과 기본 제공 다중 이미지 편집 일관성은 덜합니다.
- Seedream 4.0 (ByteDance) — 최근 Nano Banana 경쟁자로 포지셔닝되었으며, 초고속 렌더링, 2K 출력, 다수의 참조 이미지(최대 6개) 지원을 강조합니다. 프로/크리에이터 대안으로 포지셔닝됩니다.
(이 비교는 상위 수준입니다. 워크플로에 맞춰 도구를 선택하세요: 개방성/커스터마이즈 → Stable Diffusion; 스타일화된 아트 → Midjourney; 통합적이고 일관된 모바일 편집과 공격적 반복 → Nano Banana Pro/Gemini 3 Pro Image 패밀리.)
실사용 사례
- 모바일 사진 편집 및 크리에이티브 필터(Google Photos 통합 — 리스타일링, 배경 융합, 인물 재구성).
- 마케팅 / 광고 에셋 — 빠른 콘셉트 생성, 여러 프레임/각도에서 일관된 브랜드 캐릭터.
- 컨셉 아트 / 스토리보딩 — 다중 이미지 융합으로 패널 간 캐릭터 연속성을 유지.
- 전자상거래 / 제품 목업 — 다양한 컨텍스트/조명 조건에서 일관된 제품 샷 생성.
- AR/VR 에셋의 빠른 프로토타이핑 — 고품질 2K/4K 출력, 몰입형 용도를 위해 업스케일링 가능.
- gemini-3-pro-image(Nano Banana Pro) API에 액세스하는 방법
필수 단계
- cometapi.com에 로그인하세요. 아직 사용자 계정이 없다면 먼저 등록하세요
- 인터페이스의 액세스 자격 증명(API 키)을 발급받으세요. 개인 센터의 API token에서 “Add Token”을 클릭해 토큰 키: sk-xxxxx를 발급받고 제출하세요.
- 이 사이트의 URL을 확인하세요:
https://api.cometapi.com/
사용 방법
- API 요청을 보내고 요청 본문을 설정하기 위해 “
gemini-3-pro-image” 엔드포인트를 선택하세요. 요청 메서드와 요청 본문은 웹사이트의 API 문서에서 확인할 수 있습니다. 또한 편의를 위해 Apifox 테스트를 제공합니다. - <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 교체하세요.
- 질문이나 요청을 content 필드에 입력하세요—모델은 이 내용에 응답합니다.
- API 응답을 처리하여 생성된 결과를 얻으세요.
CometAPI는 완전 호환 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 정보 :
- 기본 URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- 모델 이름:
gemini-3-pro-image - 인증:
Bearer YOUR_CometAPI_API_KEY헤더 - Content-Type:
application/json.