Gemini 2.5 플래시 이미지(나노 바나나): 기능, 벤치마크 및 사용법

CometAPI
AnnaAug 31, 2025
Gemini 2.5 플래시 이미지(나노 바나나): 기능, 벤치마크 및 사용법

2025년 XNUMX월 말 구글(DeepMind)이 출시했습니다. 제미니 2.5 플래시 이미지 — 널리 별명이 붙은 나노 바나나 — Gemini 앱, Google AI Studio, Gemini API, CometAPI에 통합된 저지연 고품질 이미지 생성 및 편집 모델입니다. 사실적인 이미지를 생성하고, 편집 과정에서 캐릭터 일관성을 유지하며, 여러 입력 이미지를 융합하고, 자연어 프롬프트를 통해 정교하고 지역화된 편집을 수행하도록 설계되었습니다. 이 모델은 미리보기/초기 GA 버전으로 제공되며, SynthID 워터마킹 및 제품 수준 필터와 같은 안전 메커니즘을 탑재하여 이미지 순위표(LMArena)에서 이미 1위를 차지하고 있습니다.

제미니 2.5 플래시 이미지(일명 "나노 바나나")란 무엇입니까?

Gemini 2.5 플래시 이미지 - 장난스럽게 별명이 붙은 나노 바나나 —는 Google DeepMind의 Gemini 제품군에 포함된 최신 이미지 생성 및 편집 모델입니다. 2025년 XNUMX월 말 발표된 이 모델은 Gemini의 멀티모달 툴셋에 더욱 정확한 편집, 다중 이미지 융합, 향상된 캐릭터 일관성(동일한 인물/반려동물/사물을 여러 번 편집해도 인식 가능), 그리고 저지연 이미지 생성 기능을 제공하는 프리뷰 버전으로 출시되었습니다. Gemini API, Google AI Studio, Gemini 모바일/웹 앱, 그리고 기업 고객을 위한 Vertex AI를 통해 제공됩니다.

기원과 명명

"나노 바나나"라는 별명은 초기 테스터와 LMArena 참가자들이 과일을 테마로 한 라벨을 사용한 후 소셜 피드와 커뮤니티 리더보드에서 빠르게 퍼져 나갔습니다. 구글은 이러한 연관성을 확인하고 개발자 및 제품 게시물에서 이 장난기 넘치는 이름을 공개적으로 채택했습니다. 공식 제품명은 다음과 같습니다. 제미니 2.5 플래시 이미지 그리고 일반적으로 코드 및 API 호출에 사용되는 모델 식별자를 볼 수 있습니다(미리 보기 사용의 경우 예를 들어 다음과 같이 나타납니다. gemini-2.5-flash-image-preview).

Gemini 2.5 Flash Image의 주요 특징은 무엇입니까?

"캐릭터의 일관성"은 실제로 무엇을 의미합니까?

주요 기능 중 하나는 다음과 같습니다. 캐릭터 일관성: 모델이 동일한 피사체(사람, 반려동물, 마스코트 또는 제품)를 여러 편집이나 새로운 장면에서 재사용하도록 요청하면서도 얼굴/형태, 색상 팔레트, 구별되는 표시 등 시각적 특징을 그대로 유지하도록 할 수 있습니다. 이는 이전 이미지 모델에서 흔히 발생하는 약점, 즉 후속 편집에서 시각적으로는 그럴듯하지만 눈에 띄게 다른 사람/사물이 생성되는 문제를 해결합니다. 따라서 개발자는 제품 카탈로그, 에피소드식 스토리텔링 또는 브랜드 자산 생성을 위한 워크플로를 수동 수정 횟수를 줄이고 효율적으로 구축할 수 있습니다.

다른 편집 컨트롤에는 어떤 것이 포함되어 있나요?

Gemini 2.5 Flash Image는 다음을 지원합니다.

  • 타겟 지역 편집 쉬운 언어로 된 프롬프트(사물 제거, 옷 갈아입기, 피부 보정, 배경 요소 제거)를 통해.
  • 다중 이미지 퓨전: 최대 3개의 입력 이미지를 하나의 일관된 구성으로 결합합니다(예: 조명을 보존하면서 이미지 A의 제품을 장면 B에 넣습니다).
  • 스타일 및 형식 컨트롤: 사진처럼 사실적인 지침, 카메라 및 렌즈 속성, 종횡비, 양식화된 출력물(일러스트레이션, 스티커 등).
  • 토착 세계 지식: 이 모델은 Gemini 패밀리의 광범위한 지식을 활용하여 의미적으로 인식되는 편집을 수행합니다(예: "르네상스 조명" 또는 "도쿄 횡단보도"가 의미하는 바를 이해).

속도, 비용, 가용성은 어떤가요?

Gemini 2.5 Flash Image는 Gemini 2.5의 Flash 계층에 속하며, 낮은 지연 시간과 비용에 최적화되어 뛰어난 품질을 유지합니다. Google은 이미지 출력 토큰의 가격을 미리 공개하고 API 및 AI Studio를 통해 제공했습니다. 기업 고객은 Vertex AI를 통해 액세스할 수 있습니다. 발표 당시 Gemini 2.5 Flash Image 계층의 가격은 다음과 같습니다. 30M 출력 토큰당 $1예를 들어 이미지당 비용은 다음과 같이 보고됩니다. 1290개의 출력 토큰 ≈ 이미지당 $0.039.

Gemini 2.5 Flash Image는 어떻게 작동하나요?

아키텍처 및 교육 접근 방식

Gemini 2.5 Flash Image는 Gemini 2.5 제품군 아키텍처를 계승합니다. 즉, 텍스트, 이미지, 오디오 및 기타 데이터를 결합하는 다중 모달 학습을 기반으로 하는 희소 혼합 전문가(MoE) 방식의 백본입니다. Google은 매우 방대한 필터링된 다중 모달 코퍼스를 기반으로 Flash Image를 학습시키고, 이미지 작업(생성, 편집, 융합) 및 안전 동작에 맞춰 모델을 미세 조정했습니다. 학습은 Google의 TPU 패브릭에서 실행되었으며, 자동 및 인간의 판단 지표를 모두 사용하여 평가되었습니다.

대화형 편집

높은 수준에서 이 모델은 맥락적 조건화를 사용합니다. 이미지(또는 여러 이미지)와 텍스트 프롬프트를 제공하면 모델은 피사체의 시각적 정체성을 내부 표현으로 인코딩합니다. 이후 편집이나 새로운 장면에서는 해당 표현을 기반으로 생성 조건을 설정하여 원하는 시각적 속성(얼굴 형태, 주요 의류 또는 제품 식별자, 색상 팔레트)을 유지합니다. 실제로 이는 Gemini API가 제공하는 멀티모달 콘텐츠 파이프라인의 일부로 구현됩니다. 참조 이미지와 편집 지침을 함께 보내면 모델은 편집된 이미지 출력(또는 여러 후보 이미지)을 하나의 응답으로 반환합니다.

워터마킹 및 출처

Google은 Gemini 2.5 Flash Image에 안전 및 콘텐츠 정책 필터를 통합했습니다. 이번 릴리스에서는 평가 및 레드팀 구성, 자동화된 필터링 단계, 지도식 미세 조정 및 유해한 출력을 최소화하면서 교육 수행을 위한 강화 학습을 강조합니다. 출력에는 모델에서 생성되거나 편집된 이미지가 나중에 AI 생성 이미지로 식별될 수 있도록 보이지 않는 SynthID 워터마크가 포함됩니다.

얼마나 잘 수행되나요? (벤치마크 데이터)

Gemini 2.5 Flash Image(일부 벤치마킹 컨텍스트에서 "나노 바나나"로 마케팅됨)에 도달했습니다. LMArena 이미지 편집 및 텍스트-이미지 리더보드에서 1위 2025년 XNUMX월 말 기준으로, 보고된 비교에서 경쟁사 대비 Elo/선호도 점수가 크게 앞서고 있습니다. LMArena와 GenAI-Bench의 인간 평가 결과를 참고했는데, 텍스트-이미지 변환 및 이미지 편집 작업 모두에서 높은 선호도 점수를 보였습니다.

텍스트와 이미지 비교

역량 벤치마크제미니 플래시 2.5 이미지이미지 4 울트라 06-06ChatGPT 4o / GPT 이미지 1(높음)FLUX.1 컨텍스트제미니 플래시 2.0 이미지
전반적인 선호도(LMArena)1147113511291075988
시각적 품질(GenAI-Bench)110310941013864926
텍스트-이미지 정렬(GenAI-Bench)104210531046937922

이미지 편집

역량 벤치마크제미니 플래시 2.5 이미지ChatGPT 4o / GPT 이미지 1(높음)FLUX.1 컨텍스트Qwen 이미지 편집제미니 플래시 2.0 이미지
전반적인 선호도(LMArena)13621170119111451093
캐릭터117010591010911850
창조적 인11121057968983879
인포 그래픽106710299671012925
객체/환경1064102310021010901
제품 재맥락화112810329431009888
양식화106211659491091733

Gemini 2.5 플래시 이미지(나노 바나나): 기능, 벤치마크 및 사용법

이러한 벤치마크는 실제로 무엇을 의미할까요?

벤치마크는 두 가지 사실을 알려줍니다. (1) 모델은 사실적인 생성에서 경쟁력이 있으며 (2) 눈에 띕니다. 편집 캐릭터의 일관성과 프롬프트 준수가 중요한 작업입니다. 인간의 선호도 순위에 따르면, 출력 결과를 보는 사용자들은 Gemini의 출력이 현실감과 여러 평가 프롬프트의 지시 사항과의 일치성 측면에서 높은 평가를 내렸습니다. 그러나 알려진 한계(세부적인 사실적 세부 사항에 대한 환각 위험, 이미지 내 장문 텍스트 렌더링, 스타일 변환의 예외 사례)에 대해서는 명확히 밝히지 않았습니다. 따라서 벤치마크는 참고용일 뿐, 보장하는 것은 아닙니다.

Gemini 2.5 Flash Image로 무엇을 할 수 있나요?(사용 사례)

Gemini 2.5 Flash Image는 창의적, 생산성 및 응용 이미징 시나리오를 위해 특별히 제작되었습니다. 일반적인 사용 사례와 새로운 사용 사례는 다음과 같습니다.

신속한 제품 모형 및 전자 상거래

제품 사진을 장면에 드래그하여 배치하고, 다양한 환경에서 일관된 카탈로그 이미지를 생성하고, 제품군 전체의 색상/소재를 교체할 수 있습니다. 이 모든 것이 제품의 정체성을 유지하면서 가능합니다. 다중 이미지 퓨전 기능과 캐릭터/제품의 일관성은 카탈로그 워크플로우에 매우 적합합니다.

사진 보정 및 타겟 편집

자연어 안내를 통해 물체를 제거하고, 잡티를 수정하고, 옷/액세서리를 바꾸고, 조명을 조정할 수 있습니다. 현지화된 편집 기능을 통해 전문가가 아닌 사용자도 대화형 명령을 사용하여 전문가 수준의 보정 작업을 수행할 수 있습니다.

스토리보딩과 시각적 스토리텔링

여러 장면에 동일한 캐릭터를 배치하고 일관된 모습을 유지할 수 있습니다(만화, 스토리보드 또는 피치 덱에 유용). 반복적인 편집을 통해 제작자는 에셋을 처음부터 다시 만들지 않고도 분위기, 프레이밍 및 내러티브 연속성을 개선할 수 있습니다.

교육, 다이어그램 및 디자인 프로토타입 제작

이 모델은 텍스트 프롬프트와 이미지를 결합할 수 있고 "세계 지식"을 보유하고 있기 때문에 주석이 달린 다이어그램, 교육용 시각 자료 또는 프레젠테이션용 간단한 모형을 생성하는 데 도움이 될 수 있습니다. Google은 부동산 모형 및 제품 디자인과 같은 사용 사례를 위해 AI Studio에서 템플릿을 강조 표시합니다.

Nano Banana API를 어떻게 사용하나요?

아래는 다음에서 가져온 실용적인 스니펫입니다. CometAPI API 문서 Google API 문서도 참조하세요. 일반적인 흐름을 보여줍니다. 텍스트를 이미지로이미지 + 텍스트를 이미지로(편집) 공식 GenAI SDK 또는 REST 엔드포인트를 사용합니다.

참고: CometAPI 문서에서 미리 보기 모델 이름은 다음과 같이 나타납니다. gemini-2.5-flash-image-preview아래 예제는 공식 SDK 예제(Python 및 JavaScript)와 REST curl 예제를 반영합니다. 사용자 환경에 맞게 키와 파일 경로를 조정하세요.

CometAPI의 REST curl 예제

Gemini의 공식을 사용하세요 generateContent 텍스트-이미지 생성을 위한 엔드포인트입니다. 텍스트 프롬프트를 다음 위치에 배치합니다. contents.parts[].text.예(Windows 셸, 사용 ^ 줄 이어쓰기의 경우):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

응답에는 base64 이미지 바이트가 포함되어 있습니다. 위의 파이프라인은 다음을 추출합니다. "data" 문자열을 디코딩하여 gemini-generated.png.

이 엔드포인트는 "이미지 대 이미지" 생성을 지원합니다. 입력 이미지(Base64 형식)를 업로드하고 수정된 새 이미지(역시 Base64 형식)를 수신합니다.예:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

상품 설명먼저 소스 이미지 파일을 Base64 문자열로 변환하여 다음 위치에 넣습니다. inline_data.data. 다음과 같은 접두사를 포함하지 마십시오. data:image/jpeg;base64,출력은 다음에도 있습니다. candidates.content.parts 다음이 포함됩니다: 선택적인 텍스트 부분(설명 또는 프롬프트). 이미지 부분 inline_data (어디에 data 출력 이미지의 Base64입니다. 여러 이미지의 경우 다음과 같이 직접 추가할 수 있습니다.

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

아래는 Google 공식 문서와 블로그에서 발췌한 개발자 예시입니다. 사용자 인증 정보와 파일 경로를 직접 입력하세요.

Python(공식 SDK 스타일)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

이는 Google 문서의 표준 Python 스니펫입니다(미리 보기 모델 ID 표시). 동일한 SDK 호출 패턴은 이미지 + 프롬프트 편집을 지원합니다(이미지를 다음 중 하나로 전달). contents). 자세한 내용은 다음을 참조하세요. 제미니 박사.

결론

제품에 견고하고 지연 시간이 짧은 이미지 생성이 필요한 경우, 특히 주제의 일관성을 갖춘 신뢰할 수 있는 편집Gemini 2.5 Flash Image는 이제 평가할 가치가 있는 프로덕션 등급 옵션입니다. 최첨단 이미지 품질과 개발자 통합을 위해 설계된 API(AI Studio, Gemini API, Vertex AI)를 결합했습니다. 모델의 현재 한계(이미지 내 미세 텍스트, 일부 스타일 적용 시 발생하는 예외 상황)를 신중하게 고려하고 책임감 있는 사용 보호 조치를 구현해야 합니다.

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

개발자는 액세스할 수 있습니다 제미니 2.5 플래시 이미지(나노 바나나 코멧 API 목록 gemini-2.5-flash-image-preview/gemini-2.5-flash-image (카탈로그의 스타일 항목 참조) CometAPI를 통해 나열된 최신 모델 버전은 문서 발행일을 기준으로 합니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인