기본 기능
- 텍스트 → 이미지: 프롬프트 기반 전체 생성, 프롬프트 준수도가 높음.
- 이미지 → 이미지(편집): 여러 번의 편집에도 피사체/캐릭터 일관성을 유지하는 정밀하고 목표 지향적인 수정.
- 최대 출력 해상도: 최대 4K(예시와 지원되는 정확한 픽셀 크기는 종횡비에 따라 달라짐; API는 1K/2K/4K 프리셋 제공)
- 반복적 계획 및 자기 교정: 일반적인 시각적 오류(원근, 텍스트, 미세 기하)를 탐지·교정하는 내부 “다단계” 파이프라인.
- 고급 이미지 내 텍스트 렌더링: 포스터, 목업, 인포그래픽에 적합한 명확하고 가독성 높은 다국어 텍스트(짧은 캡션부터 긴 문단까지).
- 단일 워크플로에서 최대 5명 캐릭터 및 최대 14개 객체/참조 이미지의 충실도.
- 워터마크/출처 표기: 모든 생성 이미지에는 SynthID 워터마크가 포함되며, 일부 제품 통합에서는 출처 표기를 위한 C2PA 메타데이터를 모델이 내장.
Gemini 3 Pro Image 버전 및 명명
gemini-3-pro-image-previewgemini-3-pro-image
기술 세부 정보
아키텍처
- 계열/백본: Nano Banana Pro는 Google의 발전 중인 Gemini 이미지 스택 — 특히 새로운 Gemini 3 Pro Image / GEMPIX 2 아키텍처(더 높은 용량의 다중모달 이미지+텍스트 프레임워크)를 기반으로 구축되었습니다. 이는 Gemini 2.5 Flash Image(원래 “nano-banana”)에서 확장된 시각-언어 추론 능력을 갖춘 네이티브 다중모달 이미지 모델로의 진화입니다.
- 모델 동작: 네이티브 다중모달(이미지 + 텍스트 + 세계 지식), 다중 이미지 융합을 위한 명시적 파이프라인, 단일 정적 샘플을 생성하는 대신 여러 패스를 거쳐 출력을 정제하는 내부 단계형 플래너. 초기 보고에 따르면 이전 버전 대비 기하/광학(유리, 굴절) 추론이 더 강력합니다.
- 사고/내부 정교화: 모델은 내부에서 보이는 “thinking” 프로세스를 사용해 구성을 정교화합니다(API는 이 동작을 문서화하며 해당 내부 단계가 최종 이미지 토큰으로 과금되지 않음을 명시).
- 그라운딩 및 도구: Search grounding 지원(웹 사실을 도표/인포그래픽 생성에 포함 가능). 더 결정적인 제어를 위한 시스템 지시문도 지원.
주요 API 파라미터:
thinking_level(낮음 / 높음): 지연 시간과 추론 깊이 간 트레이드오프;media_resolution(낮음/중간/높음): 이미지 OCR/디테일 읽기 토큰 제어;generationConfig.imageConfig: 이미지 출력의 종횡비/해상도 제어.
이미지 제한:
- 지원 입력 모달리티: 텍스트와 이미지(모델은 이미지 생성 입력으로 오디오나 비디오를 받지 않음).
- 프롬프트당 최대 이미지 수: 14(프리뷰에서).
- 업로드 최대 이미지 크기: 입력 이미지당 7 MB.
- 지원 종횡비: 1:1, 3:2, 16:9, 9:16, 21:9 등.
출력 이미지/토큰: 높은 한도, 4K/4096px 지원.
벤치마크 성능
짧은 요약: 현재 공개/초기 벤치마크는 주로 정성적/커뮤니티 중심이지만, 원래 nano-banana(Gemini 2.5 Flash Image) 대비 해상도, 아티팩트 감소, 물리적 충실도가 일관되게 크게 개선되었다는 보고가 지속적으로 나타납니다. 특정 명명된 “챌린지”에서도 명확한 시각적 향상이 확인되었지만, Google이 v1 → v2를 표준 이미지 생성 지표로 비교하는 (공개) 정량 벤치마크 표는 아직 없습니다.
- 정성적 커뮤니티 테스트: 더 깔끔한 엣지, 더 선명한 미세 디테일, 더 진실된 색상, 프롬프트 준수도의 향상(환상 소품 감소, 캐릭터 일관성 증가). 널리 알려진 비공식 테스트로는 이른바 “Wine Glass Test”와 “Glass Burger Challenge”가 있으며, GEMPIX2(Nano Banana Pro)는 투명성과 굴절을 이전 빌드보다 뚜렷하게 더 잘 처리합니다.
- 텍스트 처리: Nano Banana Pro는 이미지 내부의 타이포그래피와 텍스트 배치가 눈에 띄게 개선되었습니다(많은 이미지 모델의 지속적인 약점). 커뮤니티 비교에서는 렌더링된 글리프의 괴상한 깨짐이 더 적다는 점이 관찰됩니다.
- 처리량/UX: 백엔드에서 다단계 정제를 수행하여 사용자에게 더 신뢰할 수 있는 1차 결과를 보여줌으로써(수동 재생성 감소) 빠른 반복 속도와 향상된 UX를 제공합니다.
제한 사항 및 위험
- 콘텐츠 필터 및 감지: 모델을 통합하는 플랫폼(예: Whisk/서드파티 앱)에서는 엄격한 셀러브리티 또는 유사성 감지를 활성화하여 특정 출력을 차단할 수 있어, 현실적인 셀러브리티 유사성에 의존하는 크리에이티브 워크플로에 영향을 줄 수 있습니다.
- 환상/추론 경계 사례: 개선되었지만, 이미지 내부의 밀집한 기호 텍스트나 고도의 기술적 도표에서는 여전히 물리적으로 비현실적인 아티팩트를 생성할 수 있습니다 — 다만 NB2는 이전 버전 대비 이러한 오류를 줄이는 것으로 보입니다.
- 안전 및 오용: 생성 이미지 모델은 문제적 또는 해로운 콘텐츠 생성에 사용될 수 있습니다. Google은 제약, 콘텐츠 필터, SynthID 워터마크를 적용하여 출처 표기를 돕지만, 그럼에도 오용 사례가 발생했습니다(정치적으로 민감한 환경에서 Nano Banana가 생성한 이미지와 관련된 고프로파일 논란).
다른 모델 대비 Nano Banana Pro의 위치
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — 강력한 모바일 통합, 다중 이미지 융합, 반복적 자기 교정, 2K 네이티브/4K 업스케일링, Google 앱(Search, Photos, Workspace/Gemini)과의 긴밀한 통합. 신뢰성 있는 편집, 연속성, Google 서비스 통합이 필요한 워크플로에 최적.
- Midjourney — 스타일화된 아트 출력과 커뮤니티 중심 프롬프트 엔지니어링에 강점; 사진 정확한 다중 이미지 융합이나 심층 다중모달 편집 파이프라인을 주 대상으로 하지는 않음.
- Stable Diffusion / 오픈 가중치 — 완전 개방형, 높은 커스터마이즈 가능성, 로컬 호스팅 가능; 체크포인트와 파인튜닝 생태계는 연구 및 오프라인 사용에서 결정적 이점. Nano Banana Pro에 비해 “원클릭” 모바일 통합과 기본 제공 다중 이미지 편집 일관성은 덜함.
- Seedream 4.0 (ByteDance) — 최근 Nano Banana 경쟁자로 명확히 포지셔닝, 초고속 렌더링, 2K 출력, 많은 참조 이미지(최대 6개) 지원을 강조. 프로/크리에이터 대안으로 포지셔닝.
(이 비교는 상위 수준입니다; 워크플로에 맞춰 도구를 선택하세요: 개방성/커스터마이즈 → Stable Diffusion; 스타일화된 아트 → Midjourney; 통합된 일관성 있는 모바일 편집과 공격적 반복 → Nano Banana Pro / Gemini 3 Pro Image 패밀리.)
실제 활용 사례
-
모바일 사진 편집 및 크리에이티브 필터(Google Photos 통합 — 리스타일링, 배경 융합, 인물 재구성).
-
마케팅 및 광고 에셋 — 빠른 컨셉 생성, 여러 프레임/각도에서 일관된 브랜드 캐릭터.
-
컨셉 아트 및 스토리보딩 — 다중 이미지 융합으로 패널 간 캐릭터 연속성 유지.
-
이커머스/제품 목업 — 다양한 맥락/조명 조건에서 일관된 제품 샷 생성.
-
AR/VR 자산의 신속한 프로토타이핑 — 몰입형 용도를 위해 업스케일 가능한 고품질 2K/4K 출력.
-
How to access gemini-3-pro-image(Nano Banana Pro) API
필수 단계
- cometapi.com에 로그인합니다. 아직 사용자 아니라면 먼저 등록하세요.
- 인터페이스의 액세스 자격 API 키를 받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭해 토큰 키: sk-xxxxx를 발급받아 제출합니다.
- 사이트의 URL을 가져옵니다: https://api.cometapi.com/
사용 방법
- “
gemini-3-pro-image” 엔드포인트를 선택해 API 요청을 보내고 요청 본문을 설정합니다. 요청 메서드와 본문은 당사 웹사이트 API 문서에서 확인할 수 있습니다. 편의를 위해 Apifox 테스트도 제공합니다. - <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 바꿉니다.
- content 필드에 질문이나 요청을 삽입합니다 — 모델이 이에 응답합니다.
- API 응답을 처리하여 생성된 답변을 얻습니다.
CometAPI는 완전 호환 REST API를 제공합니다 — 원활한 마이그레이션을 위해. 주요 세부사항 :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEY헤더 - Content-Type:
application/json.