기본 기능
- Text → Image: 프롬프트 중심의 완전한 생성, 높은 프롬프트 준수도.
- Image → Image(편집): 대상에 정확히 맞춘 정교한 편집, 여러 차례 편집에서도 주제/캐릭터 일관성 유지.
- 최대 출력 해상도: 최대 4K(예시와 지원되는 정확한 픽셀 크기는 종횡비에 따라 달라짐; API는 1K/2K/4K 프리셋 제공)
- 반복적 계획 및 자기 교정: 일반적인 시각적 오류(원근, 텍스트, 미세 기하)를 감지·수정하는 내부 “다단계” 파이프라인.
- 고급 인-이미지 텍스트 렌더링: 포스터, 목업, 인포그래픽에 적합한 명확하고 가독성 높은 다국어 텍스트(짧은 캡션부터 긴 문단까지).
- 5명의 캐릭터 및 단일 워크플로에서 최대 14개의 객체/참조 이미지에 대한 높은 충실도.
- 워터마킹/출처: 생성된 모든 이미지에는 SynthID 워터마크가 포함되며, 일부 제품 통합에서는 출처 확인을 위한 C2PA 메타데이터를 내장.
Gemini 3 Pro Image 버전 및 네이밍
gemini-3-pro-image-previewgemini-3-pro-image
기술 세부정보
아키텍처
- 계보/백본: Nano Banana Pro는 Google의 발전 중인 Gemini 이미지 스택 — 특히 새로운 Gemini 3 Pro Image / GEMPIX 2 아키텍처(더 높은 용량의 이미지+텍스트 멀티모달 프레임워크) 위에 구축되었습니다. 이는 Gemini 2.5 Flash Image(원래의 “nano-banana”)에서 네이티브 멀티모달 이미지 모델로 진화하여 시각-언어 추론 능력이 확장된 형태입니다.
- 모델 동작: 네이티브 멀티모달리티(이미지 + 텍스트 + 세계 지식), 다중 이미지 융합을 위한 명시적 파이프라인, 단일 정적 샘플을 한 번에 생성하는 대신 여러 패스를 거쳐 출력을 정제하는 내부 단계형 플래너를 갖추고 있습니다. 초기 보고에 따르면 이전 버전 대비 기하/광학(유리, 굴절) 추론이 강화되었습니다.
- 사고/내부 정교화: 모델은 구성 정제를 위해 내부적으로 가시적인 “사고(thinking)” 과정을 사용합니다(이 동작은 API 문서에 기재되어 있으며, 이러한 내부 단계는 최종 이미지 토큰으로 과금되지 않습니다).
- 그라운딩 및 도구: Search grounding을 지원하여 다이어그램/인포그래픽 생성에 웹 사실을 반영할 수 있습니다. 또한 보다 결정적인 제어를 위한 시스템 지시문도 지원합니다.
주요 API 매개변수:
thinking_level(low / high): 지연 시간과 추론 깊이 간의 트레이드오프를 제어;media_resolution(low/medium/high): 이미지 OCR/세부 읽기 토큰 사용량을 제어;generationConfig.imageConfig: 이미지 출력의 종횡비/해상도를 제어.
이미지 한도:
- 지원되는 입력 모달리티: 텍스트와 이미지(이미지 생성 입력으로 오디오나 비디오는 허용되지 않음).
- 프롬프트당 최대 이미지 수: 14개(Gemini 3 Pro Image preview 기준).
- 최대 이미지 크기(업로드): 입력 이미지당 7 MB.
- 지원되는 종횡비: 1:1, 3:2, 16:9, 9:16, 21:9 등.
출력 이미지 / 토큰: 높은 한도 제공, 4K/4096px 지원.
벤치마크 성능
요약: 현재까지의 공개/초기 벤치마크는 대부분 정성적·커뮤니티 주도이며, 원조 nano-banana(Gemini 2.5 Flash Image) 대비 해상도, 아티팩트 감소, 물리적 충실도에서 의미 있는 향상을 일관되게 보고합니다. 특정 명명된 “챌린지”에서는 뚜렷한 시각적 개선이 확인되었으나, 표준 이미지 생성 지표 전반에서 v1 → v2를 비교한 Google의 (공개) 표준화된 수치 벤치마크 표는 아직 없습니다.
- 정성적 커뮤니티 테스트: 더 깔끔한 엣지, 더 선명한 미세 디테일, 더 정확한 색, 더 높은 프롬프트 준수도(환각 소품 감소, 캐릭터 일관성 향상). 비공식적으로 널리 쓰이는 테스트로 이른바 “Wine Glass Test”와 “Glass Burger Challenge”가 있으며, 여기서 GEMPIX2(Nano Banana Pro)는 이전 빌드보다 투명도와 굴절을 현저히 잘 처리합니다.
- 텍스트 처리: Nano Banana Pro는 이미지 내 타이포그래피와 텍스트 배치가 눈에 띄게 개선되었습니다(많은 이미지 모델의 고질적 약점). 커뮤니티 비교에서는 깨진 글리프가 더 적게 렌더링되는 것으로 나타납니다.
- 처리량/UX: 백엔드에서 다단계 정제를 수행해 반복 속도가 더 빠르고, 사용자가 더 신뢰할 수 있는 1차 결과를 보게 하는 UX(수동 재생성 감소).
제한사항 및 위험
- 콘텐츠 필터 및 감지: 모델을 통합한 플랫폼(예: Whisk/서드파티 앱)은 엄격한 유명인/유사성 감지를 활성화해 특정 출력을 차단할 수 있으며, 이는 현실적인 유명인 유사성에 의존하는 크리에이티브 워크플로에 영향을 줄 수 있습니다.
- 환각/추론 한계 사례: 개선되었지만, 여전히 물리적으로 비현실적인 아티팩트를 생성할 수 있습니다. 특히 이미지 내부의 밀집한 기호 텍스트나 고도로 기술적인 다이어그램에서 그러하며, NB2는 이전 버전 대비 이러한 오류를 줄인 것으로 보입니다.
- 안전성 및 오남용: 생성형 이미지 모델은 문제적이거나 유해한 콘텐츠 제작에 사용될 수 있습니다. Google은 출처 확인을 돕기 위해 제약, 콘텐츠 필터, SynthID 워터마크를 적용하지만, 그럼에도 오남용 사례가 발생했습니다(정치적으로 민감한 상황에서 Nano Banana가 생성한 이미지와 관련된 주목할 만한 논란).
Nano Banana Pro와 다른 모델 비교
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — 강력한 모바일 통합, 다중 이미지 융합, 반복적 자기 교정, 2K 네이티브/4K 업스케일링, Google 앱(Search, Photos, Workspace/Gemini)과의 긴밀한 통합. 신뢰성 있는 편집, 연속성, Google 서비스 통합이 필요한 워크플로에 최적.
- Midjourney — 스타일라이즈드 아트 출력과 커뮤니티 주도의 프롬프트 엔지니어링에 강점. 사진급 정확도의 다중 이미지 융합이나 심층 멀티모달 편집 파이프라인을 주 대상으로 하지는 않음.
- Stable Diffusion / 오픈 가중치 — 완전히 개방적이고 높은 커스터마이즈 가능성, 로컬 호스팅 가능. 체크포인트와 파인튜닝 생태계는 연구 및 오프라인 사용에 결정적 이점. Nano Banana Pro에 비해 “원클릭” 모바일 통합과 기본 다중 이미지 편집 일관성은 다소 낮음.
- Seedream 4.0 (ByteDance) — 최근 Nano Banana 경쟁자로 명확히 포지셔닝, 초고속 렌더링, 2K 출력, 다수의 참조 이미지(최대 6개) 지원을 강조. 프로/크리에이터 대안으로 자리매김.
(이 비교는 고수준 개요입니다. 워크플로에 맞춰 도구를 선택하세요: 개방성/커스터마이즈 → Stable Diffusion; 스타일라이즈드 아트 → Midjourney; 통합적이고 일관된 모바일 편집 및 공격적 반복 → Nano Banana Pro/ Gemini 3 Pro image 계열.)
실제 활용 사례
- 모바일 사진 편집 & 크리에이티브 필터(Google Photos 통합 — 리스타일링, 배경 합성, 인물 재구성).
- 마케팅 & 광고 에셋 — 빠른 콘셉트 생성, 다중 프레임/각도에서 일관된 브랜드 캐릭터.
- 컨셉 아트 & 스토리보딩 — 다중 이미지 융합이 패널 전반의 캐릭터 연속성 유지에 기여.
- 이커머스 / 제품 목업 — 다양한 컨텍스트/조명 조건에서 일관된 제품 샷 생성.
- AR/VR 에셋의 신속한 프로토타이핑 — 몰입형 용도를 위해 업스케일 가능한 고품질 2K/4K 출력.
- How to accessl gemini-3-pro-image(Nano Banana Pro) API
필수 단계
- cometapi.com에 로그인하세요. 아직 사용자 계정이 없다면 먼저 등록하세요
- 인터페이스의 액세스 자격 증명 API 키를 발급받으세요. 개인 센터의 API 토큰에서 “Add Token”을 클릭해 토큰 키: sk-xxxxx 를 받으면 제출하세요.
- 다음 사이트 URL을 확인하세요: https://api.cometapi.com/
사용 방법
- “
gemini-3-pro-image” 엔드포인트를 선택해 API 요청을 보내고 요청 본문을 설정하세요. 요청 방식과 요청 본문은 당사 웹사이트의 API 문서에서 확인할 수 있습니다. 편의를 위해 Apifox 테스트도 제공합니다. - <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 교체하세요.
- 질문이나 요청을 content 필드에 입력하세요—모델이 여기에 응답합니다.
- . 생성된 응답을 얻기 위해 API 응답을 처리하세요.
CometAPI는 완전 호환 REST API를 제공합니다—원활한 마이그레이션을 위해. 핵심 정보 :
- 기본 URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- 모델 이름:
gemini-3-pro-image - 인증:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.