모델가격엔터프라이즈
500개 이상의 AI 모델 API, 모든 것이 하나의 API로. CometAPI에서
Models API
개발자
빠른 시작문서API 대시보드
회사
회사 소개엔터프라이즈
리소스
AI 모델블로그변경 로그지원
서비스 이용약관개인정보 보호정책
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

입력:$0.24/M
출력:$2/M
맥락:1M
최대 출력:65K
Gemini 2.5 Flash는 Google이 개발한 AI 모델로, 특히 향상된 추론 기능이 필요한 애플리케이션을 위해 개발자에게 빠르고 비용 효율적인 솔루션을 제공하도록 설계되었습니다. Gemini 2.5 Flash 프리뷰 발표에 따르면, 이 모델은 2025년 4월 17일 프리뷰로 공개되었으며, 멀티모달 입력을 지원하고 1 million 토큰의 컨텍스트 윈도우를 갖습니다. 이 모델은 최대 컨텍스트 길이 65,536 토큰을 지원합니다.
새로운
상업적 사용
Playground
개요
기능
가격
API
버전

Gemini 2.5 Flash는 출력 품질을 훼손하지 않으면서 신속한 응답을 제공하도록 설계되었습니다. 텍스트, 이미지, 오디오, 비디오를 포함한 멀티모달 입력을 지원하여 다양한 애플리케이션에 적합합니다. 이 모델은 Google AI Studio와 Vertex AI와 같은 플랫폼을 통해 접근할 수 있으며, 다양한 시스템에 원활하게 통합할 수 있는 도구를 개발자에게 제공합니다.


기본 정보(기능)

Gemini 2.5 Flash는 Gemini 2.5 제품군 내에서 차별화되는 몇 가지 두드러진 특징을 제공합니다:

  • 하이브리드 추론: 개발자는 thinking_budget 파라미터를 설정하여 출력 전에 모델이 내부 추론에 할당하는 토큰 수를 정교하게 제어할 수 있습니다.
  • 파레토 프런티어: 최적의 비용-성능 지점에 위치한 Flash는 2.5 모델 중에서 최고의 가격 대비 지능 수준을 제공합니다.
  • 멀티모달 지원: 텍스트, 이미지, 비디오, 오디오를 네이티브로 처리하여 더 풍부한 대화 및 분석 기능을 제공합니다.
  • 100万 토큰 컨텍스트: 탁월한 컨텍스트 길이로 단일 요청에서 심층 분석과 장문 문서 이해가 가능합니다.

모델 버전 관리

Gemini 2.5 Flash는 다음과 같은 주요 버전을 거쳐 발전했습니다:

  • gemini-2.5-flash-lite-preview-09-2025: 도구 사용성 향상: 복잡하고 다단계 작업에서 성능이 개선되어 SWE-Bench Verified 점수가 5% 상승(48.9%에서 54%로). 효율성 향상: 추론을 활성화하면 더 적은 토큰으로 더 높은 품질의 출력을 달성하여 대기 시간과 비용을 절감합니다.
  • Preview 04-17: “thinking” 기능을 포함한 초기 액세스 릴리스로, gemini-2.5-flash-preview-04-17을 통해 제공됩니다.
  • Stable General Availability (GA): 2025년 6월 17일 기준으로 안정 엔드포인트 gemini-2.5-flash가 프리뷰를 대체했으며, 5월 20일 프리뷰 대비 API 변경 없이 프로덕션급 신뢰성을 보장합니다.
  • 프리뷰 사용 중단: 프리뷰 엔드포인트는 2025년 7월 15일에 종료 예정이므로, 해당 날짜 이전에 GA 엔드포인트로 마이그레이션해야 합니다.

2025년 7월 기준, Gemini 2.5 Flash는 공개적으로 사용 가능하며 안정화되었습니다( gemini-2.5-flash-preview-05-20 와 비교해 변경 없음). gemini-2.5-flash-preview-04-17을 사용 중인 경우, 모델 엔드포인트가 2025년 7월 15일에 폐기되어 종료될 때까지 기존 프리뷰 요금이 유지됩니다. 일반 제공 모델 "gemini-2.5-flash"로 마이그레이션할 수 있습니다.

더 빠르고, 더 저렴하고, 더 똑똑하게:

  • 설계 목표: 낮은 지연 + 높은 처리량 + 낮은 비용;
  • 추론, 멀티모달 처리, 장문 작업 전반의 속도 향상;
  • 토큰 사용량을 20–30% 줄여 추론 비용을 크게 절감.

기술 사양

입력 컨텍스트 윈도우: 최대 100만 토큰까지 지원하여 광범위한 컨텍스트 유지가 가능합니다.

출력 토큰: 응답당 최대 8,192 토큰 생성 가능.

지원 모달리티: 텍스트, 이미지, 오디오, 비디오.

통합 플랫폼: Google AI Studio 및 Vertex AI를 통해 제공.

가격: 경쟁력 있는 토큰 기반 과금 모델로 비용 효율적인 배포를 지원.


기술 세부 정보

내부적으로 Gemini 2.5 Flash는 웹, 코드, 이미지, 비디오 데이터의 혼합으로 학습된 트랜스포머 기반 대형 언어 모델입니다. 핵심 기술 사양은 다음과 같습니다:

멀티모달 학습: 여러 모달리티를 정렬하도록 학습되어, Flash는 텍스트를 이미지, 비디오, 오디오와 매끄럽게 결합할 수 있으며, 비디오 요약이나 오디오 캡셔닝과 같은 작업에 유용합니다.

동적 사고 프로세스: 최종 출력을 내기 전에 모델이 계획하고 복잡한 프롬프트를 분해하는 내부 추론 루프를 구현합니다.

설정 가능한 사고 예산: thinking_budget는 0(추론 없음)부터 24,576 tokens까지 설정할 수 있어 지연 시간과 응답 품질 간의 트레이드오프를 조정할 수 있습니다.

도구 통합: Grounding with Google Search, Code Execution, URL Context, Function Calling을 지원하여 자연어 프롬프트에서 실제 작업을 직접 수행할 수 있습니다.


벤치마크 성능

엄격한 평가에서 Gemini 2.5 Flash는 업계 최고 수준의 성능을 보여줍니다:

  • LMArena Hard Prompts: 까다로운 Hard Prompts 벤치마크에서 2.5 Pro에 이어 2위를 기록하며 강력한 다단계 추론 능력을 입증했습니다.
  • MMLU 점수 0.809: 0.809의 MMLU 정확도로 평균 모델 성능을 상회하며, 폭넓은 도메인 지식과 추론 능력을 반영합니다.
  • 지연 시간 및 처리량: 271.4 tokens/sec 디코딩 속도와 0.29 s Time-to-First-Token을 달성하여 지연에 민감한 워크로드에 적합합니다.
  • 가격-성능 선도: \$0.26/1 M tokens에서, Flash는 핵심 벤치마크에서 경쟁사를 능가하거나 동등한 성능을 보이면서 가격 면에서도 우위를 점합니다.

이러한 결과는 추론, 과학적 이해, 수학적 문제 해결, 코딩, 시각적 해석, 다국어 역량에서 Gemini 2.5 Flash의 경쟁력을 보여줍니다:


한계 사항

강력하지만, Gemini 2.5 Flash에는 몇 가지 제한 사항이 있습니다:

  • 안전성 위험: 모델이 “preachy” 톤을 보이거나, 특히 에지 케이스 쿼리에서 그럴듯해 보이지만 부정확하거나 편향된 출력(환각)을 생성할 수 있습니다. 엄격한 인간 검토가 여전히 필수적입니다.
  • 요율 제한: API 사용은 요율 제한(기본 티어에서 10 RPM, 250,000 TPM, 250 RPD)에 의해 제약되며, 배치 처리나 대량 애플리케이션에 영향을 줄 수 있습니다.
  • 지능 하한선: flash 모델로서는 매우 뛰어나지만, 고급 코딩이나 멀티 에이전트 조정과 같은 가장 까다로운 에이전트형 작업에서는 2.5 Pro보다 정확도가 낮을 수 있습니다.
  • 비용 트레이드오프: 최고의 가격-성능을 제공하지만, thinking 모드를 광범위하게 사용하면 전체 토큰 소모가 증가하여 깊은 추론이 필요한 프롬프트의 비용이 상승할 수 있습니다.

Gemini 2.5 Flash의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

Gemini 2.5 Flash 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Gemini 2.5 Flash의 샘플 코드 및 API

Gemini 2.5 Flash API는 Google의 최신 멀티모달 AI 모델로, 고속이고 비용 효율적인 작업을 위해 설계되었으며, 추론을 제어할 수 있는 기능을 제공해 개발자가 Gemini API를 통해 고급 "thinking" 기능을 켜거나 끌 수 있도록 합니다.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Gemini 2.5 Flash의 버전

Gemini 2.5 Flash에 여러 스냅샷이 존재하는 이유는 업데이트 후 출력 변동으로 인해 일관성을 유지하기 위해 이전 스냅샷을 보관하거나, 개발자에게 적응 및 마이그레이션을 위한 전환 기간을 제공하거나, 글로벌 또는 지역별 엔드포인트에 따라 다양한 스냅샷을 제공하여 사용자 경험을 최적화하기 위한 것 등이 포함될 수 있습니다. 버전 간 상세한 차이점은 공식 문서를 참고해 주시기 바랍니다.
version
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-preview-04-17

더 많은 모델

C

Claude Opus 4.7

입력:$3/M
출력:$15/M
에이전트와 코딩을 위한 가장 지능적인 모델
A

Claude Sonnet 4.6

입력:$2.4/M
출력:$12/M
Claude Sonnet 4.6은 지금까지 가장 역량이 뛰어난 Sonnet 모델입니다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전반에 걸쳐 모델의 역량을 전면 업그레이드한 버전입니다. Sonnet 4.6은 베타 단계의 1M 토큰 컨텍스트 윈도우도 제공합니다.
O

GPT 5.5 Pro

입력:$24/M
출력:$144/M
극도로 복잡한 논리와 전문적 요구에 맞춰 설계된 고도화된 모델로서, 심층 추론과 정밀 분석 역량에서 최고 수준을 대표합니다.
O

GPT 5.5

입력:$4/M
출력:$24/M
탁월한 성능과 효율적인 응답성을 균형 있게 갖추고, 포괄적이고 안정적인 범용 AI 서비스 제공에 전념하는 차세대 멀티모달 플래그십 모델.
O

GPT Image 2 ALL

요청당:$0.04
GPT Image 2는 빠르고 고품질의 이미지 생성 및 편집을 위한 openai의 최첨단 이미지 생성 모델입니다. 유연한 이미지 크기와 고충실도 이미지 입력을 지원합니다.
O

GPT 5.5 ALL

입력:$4/M
출력:$24/M
GPT-5.5는 코드 작성, 온라인 리서치, 데이터 분석, 그리고 도구 간 연계 작업에서 뛰어납니다. 이 모델은 복잡한 다단계 작업을 처리하는 자율성을 높였을 뿐만 아니라 이전 버전과 동일한 지연 시간을 유지하면서 추론 능력과 실행 효율도 크게 향상시켰으며, 이는 AI 기반 오피스 자동화로 나아가는 중요한 진전을 의미합니다.

관련 블로그

Nano Banana 2 Flash 곧 출시 – AI 이미지 생성의 고속 진화
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash 곧 출시 – AI 이미지 생성의 고속 진화

Google은 널리 호평받은 "Nano Banana" 이미지 생성 제품군의 최신작인 곧 출시될 Nano Banana 2 Flash로 생성형 AI 판도를 다시 한 번 뒤흔들었다. 지난해 말 Nano Banana Pro (Gemini 3 Pro Image)의 대성공에 이어, 이번 신규 버전은 Gemini 3 아키텍처의 최첨단 지능과 전례 없는 속도 및 효율성을 결합해 전문가급 시각 합성을 대중화할 것을 약속한다.
Nano Banana 할인 혜택: 2026년 개발자를 위한 진정한 비용 절감
Dec 25, 2025
nano-banana-pro

Nano Banana 할인 혜택: 2026년 개발자를 위한 진정한 비용 절감

결론적으로: 공식 Nano Banana API는 크리스마스, 새해 등 어떤 공휴일 할인도 제공하지 않습니다. 이는 2026년에 이미지 생성, 콘텐츠 제작 또는 제품 통합을 위해 Nano Banana(Nano Banana Pro 포함)를 사용하려는 모든 개발자가 반드시 이해해야 할 사실입니다. Google은 크리스마스든 블랙 프라이데이든 새해든 Nano Banana API에 대해 시즌 할인을 제공하지 않습니다. 공식 API의 가격 체계는 일관되게 안정적이고 투명하며, 사실上 할인 여지가 거의 없습니다. 그래서 질문은 다음과 같습니다: 당신이 개발자이고 크리스마스나 새해 기간에 대규모 이미지 생성, 모델 테스트 또는 제품 이터레이션을 계획하고 있다면, Nano Banana 사용 비용을 줄일 방법이 있습니까?
무료 Gemini 2.5 Pro API가 작동하지 않나요? 2025년 무료 할당량 변경 사항
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

무료 Gemini 2.5 Pro API가 작동하지 않나요? 2025년 무료 할당량 변경 사항

Google가 Gemini API의 무료 티어를 대폭 축소했습니다: Gemini 2.5 Pro는 무료 티어에서 제거되었고 Gemini 2.5 Flash의 일일 무료 요청 한도가 크게 줄었습니다(보고: ~250 → ~20/일). 이는 모델이 실험용으로 영구적으로 "죽었다"는 뜻은 아니지만, 많은 현실 세계의 사용 사례에서 무료 접근성이 사실상 무력화되었다는 의미입니다.
나노 바나나에 대한 완벽한 가이드: 사용 방법 및 최상의 방법
Sep 8, 2025
gemini-2-5-flash-image

나노 바나나에 대한 완벽한 가이드: 사용 방법 및 최상의 방법

Google의 최근 Gemini 2.5 Flash Image 릴리스(별명 "Nano-Banana")는 대화형 이미지 편집을 위한 필수 도구로 빠르게 자리 잡았습니다.
API를 통해 Nano Banana를 사용하는 방법?(Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

API를 통해 Nano Banana를 사용하는 방법?(Gemini-2-5-flash-image)

Nano Banana는 Google의 Gemini 2.5 Flash Image에 대한 커뮤니티 별명(및 내부 약어)입니다. 이는 고품질, 저지연 다중 모드 이미지 생성 +