Nano Banana Pro(Gemini 3 Pro Image) API를 어떻게 사용하나요?

나노 바나나 프로 - 공식 Gemini 3 Pro 이미지 — Google/DeepMind의 새로운 스튜디오급 이미지 생성 및 편집 모델로, 고급 멀티모달 추론, 고충실도 텍스트 렌더링, 다중 이미지 구성, 스튜디오 수준의 창의적 제어 기능을 결합했습니다.

나노 바나나 프로란 무엇이고 왜 관심을 가져야 할까요?

Nano Banana Pro는 Google의 최신 이미지 생성 및 이미지 편집 모델인 "Gemini 3 Pro Image" 릴리스로, 최대 4K 스튜디오 품질의 고화질, 상황 인식 이미지와 이미지 내 텍스트를 생성하도록 설계되었습니다. 이전 Nano Banana 모델(Gemini 2.5 Flash Image/"Nano Banana")의 후속 모델로, 향상된 추론, 검색 기반(실제 사실), 더욱 강력한 텍스트 렌더링, 그리고 더욱 강력한 로컬 편집 컨트롤을 제공합니다. 이 모델은 대화형 사용자를 위해 Gemini 앱 내에서 제공되며, 표준 Gemini API를 통해 Nano Banana Pro에 액세스할 수 있지만, 특정 모델 식별자(gemini-3-pro-image-preview 또는 안정적인 후속 버전). 프로그래밍 방식으로 액세스할 수 있습니다.

이것이 중요한 이유: Nano Banana Pro는 아름다운 이미지를 만드는 것뿐만 아니라 정보를 시각화하다 인포그래픽, 데이터 기반 스냅샷(날씨, 스포츠), 텍스트가 많은 포스터, 제품 목업, 다중 이미지 퓨전(최대 14개의 입력 이미지와 최대 5명의 캐릭터 일관성 유지). 디자이너, 제품 팀, 개발자에게 정확성, 이미지 텍스트, 그리고 프로그래밍 방식 액세스의 조합은 이전에는 자동화하기 어려웠던 제작 워크플로를 가능하게 합니다.

API를 통해 어떤 기능이 공개되나요?

개발자에게 공개되는 일반적인 API 기능은 다음과 같습니다.

텍스트 → 이미지 생성 (단일 단계 또는 다단계의 "사고" 구성 흐름).
이미지 편집 (로컬 마스크, 인페인팅, 스타일 조정).
다중 이미지 퓨전 (참조 이미지를 결합합니다).
고급 요청 제어: 미리보기 모드에서 디버그/검사를 위한 해상도, 종횡비, 사후 처리 단계 및 "구성 사고" 추적.

나노 바나나 프로의 핵심 혁신 및 기능

더욱 스마트한 콘텐츠 추론

Gemini 3 Pro의 추론 스택을 사용하여 복잡하고 여러 단계로 구성된 시각적 지침(예: "이 데이터 세트를 사용하여 5단계 인포그래픽을 만들고 이중 언어 캡션을 추가하세요")을 해석합니다. 이 API는 최종 결과물을 개선하기 위한 중간 작문 테스트를 생성할 수 있는 "사고" 메커니즘을 제공합니다.

왜 문제 : 프롬프트 → 픽셀을 매핑하는 단일 패스 대신, 모델은 내부 "사고" 프로세스를 수행하여 구성을 개선하고, 사실 기반(예: 정확한 다이어그램 레이블 또는 로케일에 맞는 표지판)을 위해 외부 도구(예: Google 검색)를 호출할 수 있습니다. 이를 통해 인포그래픽, 다이어그램 또는 제품 모형과 같은 작업에 더 보기 좋을 뿐만 아니라 의미적으로도 더 정확한 이미지를 얻을 수 있습니다.

달성 방법: Nano Banana Pro의 "Thinking"은 모델이 최종 이미지를 생성하기 전에 중간 비주얼과 추론 추적을 생성하는 제어된 내부 추론/구성 패스입니다. API는 모델이 최대 두 개의 중간 프레임을 생성할 수 있으며 최종 이미지가 해당 체인의 마지막 단계임을 보여줍니다. 이는 실제 제작 과정에서 구성, 텍스트 배치 및 레이아웃 결정에 도움이 됩니다.

더욱 정확한 텍스트 렌더링

이미지(메뉴, 포스터, 다이어그램) 내에서 읽기 쉽고 현지화된 텍스트가 크게 개선되었습니다. Nano Banana Pro는 이미지 텍스트 렌더링에서 새로운 차원을 달성했습니다.

이미지 속의 텍스트는 명확하고, 읽기 쉽고, 철자가 정확합니다.
다국어 생성을 지원합니다(중국어, 일본어, 한국어, 아랍어 등 포함).
사용자가 긴 문단이나 여러 줄로 된 설명적 텍스트를 이미지에 직접 쓸 수 있습니다.
자동 번역 및 현지화가 가능합니다.

왜 문제 : 기존 이미지 모델은 읽기 쉽고 정렬이 잘 된 텍스트를 렌더링하는 데 어려움을 겪었습니다. Nano Banana Pro는 안정적인 텍스트 렌더링 및 현지화(예: 레이아웃 번역 및 보존)에 최적화되어 있어 포스터, 패키지, 다국어 광고와 같은 실제적인 창의적 활용 사례를 구현할 수 있습니다.

달성 방법: 텍스트 렌더링 개선은 기본 멀티모달 아키텍처와 이미지 내 텍스트 예시를 강조하는 데이터셋에 대한 학습을 통해 이루어졌으며, 이는 타깃 평가 세트(인간 평가 및 회귀 세트)와 결합되었습니다. 이 모델은 글리프 모양, 글꼴 및 레이아웃 제약 조건을 정렬하여 이미지 내에서 읽기 쉽고 지역화된 텍스트를 생성하는 방법을 학습합니다. 단, 작은 텍스트나 매우 밀집된 단락은 여전히 오류가 발생하기 쉽습니다.

더욱 강력한 시각적 일관성과 충실도

스튜디오 컨트롤(조명, 초점, 카메라 각도, 컬러 그레이딩)과 다중 이미지 합성(최대 14개의 참조 이미지, 여러 인물 피사체에 대한 특별 허용)은 캐릭터의 일관성(편집본 전체에서 동일한 인물/캐릭터 유지)과 생성된 에셋 전체의 브랜드 정체성을 유지하는 데 도움이 됩니다. 이 모델은 네이티브 1K/2K/4K 출력을 지원합니다.

왜 문제 : 마케팅 및 엔터테인먼트 워크플로에는 샷과 편집 전반에 걸쳐 일관된 캐릭터가 필요합니다. 모델은 최대 다섯 사람들과 섞여 14 스케치 → 3D 렌더링을 제작하는 동안 참조 이미지를 단일 구성으로 통합할 수 있습니다. 이 기능은 광고 제작, 패키징 또는 멀티샷 스토리텔링에 유용합니다.

달성 방법: 모델 입력은 명확한 역할 할당(예: "이미지 A: 포즈", "이미지 B: 얼굴 참조", "이미지 C: 배경 질감")이 있는 여러 이미지를 허용합니다. 아키텍처는 변환(조명, 카메라)을 적용하는 동시에 정체성/포즈/스타일을 유지하기 위해 이러한 이미지에 대한 생성 조건을 적용합니다.

Nano Banana Pro의 성능 벤치마크

Nano Banana Pro(Gemini 3 Pro Image)는 "텍스트→이미지 AI 벤치마크에서 탁월한 성능을 보이며", 이전 Nano Banana 모델보다 향상된 추론 및 맥락 기반 학습을 보여줍니다. 이전 버전보다 더 높은 정확도와 향상된 텍스트 렌더링을 강조합니다.

Nano Banana Pro(Gemini 3 Pro Image) API를 어떻게 사용하나요?

실제 성과 지침

기대 더 높은 지연 2K/4K 고해상도 렌더링은 1K 또는 속도에 최적화된 "플래시" 모델보다 비용이 더 많이 듭니다. 처리량/지연 시간이 중요한 경우, 대용량 작업에는 플래시 버전(예: Gemini 2.5 Flash/Nano Banana)을 사용하고, 고품질 및 복잡한 추론 작업에는 Nano Banana Pro/gemini-3-pro-image를 사용하십시오.

개발자는 어떻게 Nano Banana Pro에 접근할 수 있나요?

어떤 엔드포인트와 모델을 선택해야 할까요?

모델 식별자(미리보기/프로): gemini-3-pro-image-preview (미리 보기) — Nano Banana Pro 기능을 원할 때 사용하세요. 더 빠르고 저렴한 작업을 원하시면 gemini-2.5-flash-image (나노 바나나)는 계속 구매 가능합니다.

사용할 표면

Gemini API(생성 언어 엔드포인트): CometAPI 키를 사용하여 xx에 액세스할 수 있습니다. CometAPI는 공식 웹사이트보다 더 저렴한 가격으로 동일한 API를 제공합니다. 직접 HTTP/SDK 호출을 통해 generateContent 이미지 생성을 위해(아래 예시 참조).
Google AI 스튜디오: 데모 앱을 빠르게 실험하고 리믹스할 수 있는 웹 표면입니다.
Vertex AI(기업): 프로비저닝된 처리량, 과금 방식(종량제/엔터프라이즈 티어), 그리고 대규모 프로덕션을 위한 안전 필터가 제공됩니다. 대규모 파이프라인이나 일괄 렌더링 작업에 통합할 때는 Vertex를 사용하세요.

무료 티어는 사용 한도가 제한되어 있으며, 한도를 초과하면 Nano Banana로 돌아갑니다. Plus/Pro/Ultra 티어는 더 높은 사용 한도와 워터마크 없는 출력을 제공하지만, Ultra 티어는 Flow 비디오 도구와 Antigravity IDE의 4K 모드에서 사용할 수 있습니다.

Nano Banana Pro를 사용하여 이미지를 생성하는 방법은 무엇인가요?(단계별)

1) Gemini 앱을 이용한 빠른 대화형 레시피

Gemini 열기 → 도구 → 이미지 만들기.
클라임웍스와 함께　하늘과 닿는 여정을 시작하세요 생각하기 (나노 바나나 프로) 모델로.
프롬프트를 입력하세요: 주제, 동작, 분위기, 조명, 카메라, 종횡비, 이미지에 나타날 텍스트를 설명하세요. 예:
로봇 워크숍의 4K 포스터를 만들어 보세요. 테이블 주변에 다양한 팀이 모여 있고, 청사진 오버레이가 적용되었으며, 산 세리프체로 '로봇 활용'이라는 굵은 제목과 따뜻한 텅스텐 조명, 얕은 피사계 심도, 영화 같은 16:9 화면비가 사용되었습니다.
(선택 사항) 최대 14개의 이미지를 업로드하여 합성하거나 참조로 사용할 수 있습니다. 선택/마스크 도구를 사용하여 영역을 로컬로 편집하세요.
자연어로 생성, 반복(예: "헤드라인을 파란색으로 만들고 중앙 상단에 정렬, 청사진의 대비 증가")한 다음 내보내기

2) HTTP를 사용하여 Gemini 이미지 엔드포인트로 전송

키를 얻으려면 CometAPI에 로그인해야 합니다.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

이 샘플은 base64 이미지 페이로드를 PNG 파일에 씁니다. generationConfig.imageConfig.resolution 매개변수 요청 4K 출력(3 Pro Image 모델에서 사용 가능)

3) SDK에 직접 호출 `generateContent` 이미지 생성을 위해

Google SDK를 설치하고 Google 인증을 받아야 합니다. Python 예제(텍스트 + 참조 이미지 + 접지):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

이 예에서는 인라인 참조 이미지를 업로드하고 4K 구성을 요청하는 동시에 활성화하는 방법을 보여줍니다. google_search 도구로서. Python SDK는 저수준 REST 세부 정보를 처리합니다.

다중 이미지 융합 및 캐릭터 일관성

장면 전체에서 동일한 사람을 보존하는 합성물을 생성하려면 다음을 전달하세요. 여러 inline_data (사진 세트에서 선택한) 부분을 선택하고, 모델이 "출력물 전체에서 정체성을 유지해야 한다"는 창의적인 지침을 지정합니다.

짧은 실제 사례 - 실제로 신속하고 예상되는 흐름

프롬프트 :
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

예상 파이프라인: 앱 → 프롬프트 템플릿 + CSV 데이터 → 프롬프트의 플레이스홀더 교체 → API 호출 image_size=2048x1152 → base64 PNG 수신 → 자산 + 출처 메타데이터 저장 → 필요한 경우 컴포지터를 통해 정확한 글꼴을 오버레이합니다.

생산 파이프라인을 설계하고 안전/출처를 처리하려면 어떻게 해야 합니까?

권장되는 프로덕션 아키텍처

프롬프트 + 드래프트 패스(빠른 모델): gemini-2.5-flash-image (나노 바나나)를 사용하면 저렴하게 다양한 작은 해상도의 변형을 만들 수 있습니다.
선택 및 개선: 가장 적합한 후보자를 선택하고, 프롬프트를 개선하고, 정밀성을 위해 인페인팅/마스크 편집을 적용합니다.
고화질 최종 렌더링: 전화 gemini-3-pro-image-preview (Nano Banana Pro) 최종 2K/4K 렌더링 및 후처리(업샘플링, 컬러 그레이딩)를 위해.
출처 및 메타데이터: 자산 메타데이터 저장소에 프롬프트, 모델 버전, 타임스탬프 및 SynthID 정보를 저장합니다. 모델은 SynthID 워터마크를 첨부하고 출력을 추적하여 규정 준수 및 콘텐츠 감사를 수행할 수 있습니다.

안전, 권리 및 중재

필터링 및 자동 검사: 다운스트림 소비 또는 공개 표시 전에 생성된 이미지를 내부 콘텐츠 검토 파이프라인(NSFW, 증오 심볼, 정치적/구속력 있는 콘텐츠 감지)을 통해 실행합니다.

이미지 편집(인페인팅), 다중 이미지 합성, 텍스트 렌더링은 어떻게 하나요?

Nano Banana Pro는 다중 모드 편집 워크플로를 지원합니다. 하나 이상의 입력 이미지와 편집 내용(객체 제거, 하늘 변경, 텍스트 추가)을 설명하는 텍스트 지침을 제공합니다. API는 동일한 요청에서 이미지와 텍스트를 모두 허용하며, 모델은 응답으로 텍스트와 이미지를 섞어서 생성할 수 있습니다. 예시 패턴으로는 마스크 편집 및 다중 이미지 혼합(스타일 변환/컴포지션)이 있습니다. 관련 문서는 contents 텍스트 블롭과 바이너리 이미지를 결합한 배열입니다.

예: 편집(Python 의사 흐름)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

이 대화형 편집을 사용하면 생산에 적합한 자산을 얻을 때까지 결과를 반복적으로 조정할 수 있습니다.

Node.js 예제 - 마스크와 여러 참조를 사용한 이미지 편집

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API는 때때로 Cloud Storage URI나 base64 이미지 페이로드를 허용합니다. 정확한 입력 형식은 Gemini API 문서를 확인하세요.)

CometAPI를 사용하여 이미지를 생성하고 편집하는 방법에 대한 정보는 다음을 참조하세요. gemini-3-pro-image 호출 가이드 .

결론

Nano Banana Pro(Gemini 3 Pro Image)는 이미지 생성에 있어 프로덕션급의 도약을 보여주는 도구입니다. 데이터 시각화, 로컬화된 편집 작업, 개발자 워크플로우 강화를 위한 도구입니다. Gemini 앱을 사용하여 빠른 프로토타입을 제작하고, API를 사용하여 프로덕션 통합을 수행하고, 위의 권장 사항을 준수하여 비용을 절감하고, 안전성을 보장하며, 브랜드 품질을 유지하세요. 투명성 및 감사 요구 사항을 충족하기 위해 실제 사용자 워크플로우를 항상 테스트하고 출처 메타데이터를 저장하세요.

필요할 때 Nano Banana Pro를 사용하세요 스튜디오 품질 자산, 구성에 대한 정확한 제어, 이미지 내에서의 텍스트 렌더링 개선, 여러 참조를 하나의 일관된 출력으로 통합하는 기능.

개발자는 액세스할 수 있습니다 Gemini 3 Pro 이미지(Nano Banana Pro) API CometAPI를 통해. 시작하려면 모델 기능을 살펴보세요.코멧API 인간을 운동장 자세한 내용은 API 가이드를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 와 e 티피에이 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !

AI에 대한 더 많은 팁, 가이드 및 뉴스를 알고 싶다면 저희를 팔로우하세요. VK, X 및 디스코드!