Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

입력:$0.24/M
출력:$2/M
맥락:1M
최대 출력:65K
Gemini 2.5 Flash는 Google이 개발한 AI 모델로, 특히 향상된 추론 기능이 필요한 애플리케이션을 위해 개발자에게 빠르고 비용 효율적인 솔루션을 제공하도록 설계되었습니다. Gemini 2.5 Flash 프리뷰 발표에 따르면, 이 모델은 2025년 4월 17일 프리뷰로 공개되었으며, 멀티모달 입력을 지원하고 1 million 토큰의 컨텍스트 윈도우를 갖습니다. 이 모델은 최대 컨텍스트 길이 65,536 토큰을 지원합니다.
새로운
상업적 사용
Playground
개요
기능
가격
API
버전

Gemini 2.5 Flash는 출력 품질을 훼손하지 않으면서 신속한 응답을 제공하도록 설계되었습니다. 텍스트, 이미지, 오디오, 비디오를 포함한 멀티모달 입력을 지원하여 다양한 애플리케이션에 적합합니다. 이 모델은 Google AI Studio와 Vertex AI 같은 플랫폼을 통해 액세스할 수 있어, 다양한 시스템에 원활히 통합하는 데 필요한 도구를 개발자에게 제공합니다.


기본 정보(기능)

Gemini 2.5 Flash는 Gemini 2.5 제품군 내에서 돋보이게 만드는 여러 가지 핵심 기능을 도입합니다:

  • 하이브리드 추론: 개발자는 thinking_budget 매개변수를 설정하여 출력 전에 모델이 내부 추론에 할당하는 토큰 수를 정밀하게 제어할 수 있습니다.
  • 파레토 프런티어: 최적의 비용-성능 지점에 위치하여, Flash는 2.5 모델 중 가격 대비 지능 비율이 가장 뛰어납니다.
  • 멀티모달 지원: 텍스트, 이미지, 비디오, 오디오를 네이티브로 처리하여 더 풍부한 대화와 분석 기능을 제공합니다.
  • 1 Million-Token 컨텍스트: 비교 불가한 컨텍스트 길이로, 단일 요청에서 심층 분석과 장문 이해가 가능합니다.

모델 버전 관리

Gemini 2.5 Flash는 다음의 주요 버전을 거치며 발전해 왔습니다:

  • gemini-2.5-flash-lite-preview-09-2025: 도구 활용성 향상: 복잡하고 다단계 작업에서 성능 개선, SWE-Bench Verified 점수 5% 향상(48.9%에서 54%로). 효율성 개선: 추론을 활성화할 때 더 적은 토큰으로 더 높은 품질의 출력을 달성하여 지연 시간과 비용을 절감.
  • 프리뷰 04-17: “thinking” 기능을 갖춘 얼리 액세스 릴리스, gemini-2.5-flash-preview-04-17 경유로 제공.
  • 안정적 일반 공급(GA): 2025년 6월 17일 기준, 안정 엔드포인트 gemini-2.5-flash가 프리뷰를 대체하며, 5월 20일 프리뷰 대비 API 변경 없음.
  • 프리뷰 사용 중단: 프리뷰 엔드포인트는 2025년 7월 15일 종료 예정이므로, 해당 날짜 이전에 GA 엔드포인트로 마이그레이션해야 합니다.

2025년 7월 현재, Gemini 2.5 Flash는 공개적으로 사용 가능하며 안정화되었습니다( gemini-2.5-flash-preview-05-20 대비 변경 없음). gemini-2.5-flash-preview-04-17을 사용 중이라면, 기존 프리뷰 가격은 2025년 7월 15일 모델 엔드포인트가 종료될 때까지 유지됩니다. 일반 공급 모델 "gemini-2.5-flash"로 마이그레이션할 수 있습니다.

더 빠르고, 더 저렴하고, 더 스마트하게:

  • 설계 목표: 낮은 지연 + 높은 처리량 + 낮은 비용;
  • 추론, 멀티모달 처리, 장문 작업 전반의 속도 향상;
  • 토큰 사용량이 20–30% 감소하여 추론 비용을 크게 절감.

기술 사양

입력 컨텍스트 윈도: 최대 1 million 토큰으로, 광범위한 컨텍스트 유지가 가능합니다.

출력 토큰: 응답당 최대 8,192 토큰을 생성할 수 있습니다.

지원 모달리티: 텍스트, 이미지, 오디오, 비디오.

통합 플랫폼: Google AI Studio 및 Vertex AI를 통해 제공.

가격: 경쟁력 있는 토큰 기반 요금 모델로, 비용 효율적인 배포를 지원합니다.


기술 세부정보

내부적으로, Gemini 2.5 Flash는 웹, 코드, 이미지, 비디오 데이터의 혼합으로 학습된 트랜스포머 기반 대규모 언어 모델입니다. 주요 기술 사양은 다음과 같습니다:

멀티모달 학습: 여러 모달리티를 정합하도록 학습되어, 텍스트를 이미지, 비디오, 오디오와 매끄럽게 혼합할 수 있어 비디오 요약이나 오디오 캡셔닝 같은 작업에 유용합니다.

동적 사고 프로세스: 최종 출력을 내기 전에 모델이 계획을 수립하고 복잡한 프롬프트를 분해하는 내부 추론 루프를 구현합니다.

구성 가능한 사고 예산: thinking_budget는 0(추론 없음)부터 24,576 토큰까지 설정할 수 있어, 지연 시간과 답변 품질 간의 균형을 조정할 수 있습니다.

도구 통합: Grounding with Google Search, Code Execution, URL Context, Function Calling을 지원하여 자연어 프롬프트만으로 실제 작업을 직접 수행할 수 있습니다.


벤치마크 성능

엄격한 평가에서, Gemini 2.5 Flash는 업계 선도적 성능을 보여줍니다:

  • LMArena Hard Prompts: 까다로운 Hard Prompts 벤치마크에서 2.5 Pro 다음으로 2위를 기록하여 강력한 다단계 추론 능력을 입증했습니다.
  • MMLU 점수 0.809: 0.809의 MMLU 정확도로 평균 모델 성능을 상회하며, 폭넓은 도메인 지식과 추론 능력을 반영합니다.
  • 지연 시간과 처리량: 271.4 tokens/sec 디코딩 속도와 0.29 s Time-to-First-Token을 달성하여, 지연 민감형 워크로드에 적합합니다.
  • 가격 대비 성능 선두: \$0.26/1 M tokens에서, Flash는 많은 경쟁 제품보다 저렴하면서도 주요 벤치마크에서 동등하거나 더 뛰어난 성능을 제공합니다.

이러한 결과는 Gemini 2.5 Flash가 추론, 과학적 이해, 수학적 문제 해결, 코딩, 시각적 해석, 다국어 기능에서 경쟁 우위를 지님을 보여줍니다:

Gemini 2.5 Flash


제한 사항

강력함에도 불구하고, Gemini 2.5 Flash에는 몇 가지 제한 사항이 있습니다:

  • 안전성 위험: 모델이 **“훈계조”**를 보일 수 있으며, 특히 엣지 케이스 질의에서 그럴듯하지만 부정확하거나 편향된 출력(환각)을 생성할 수 있습니다. 엄격한 인적 검토가 필수적입니다.
  • 레이트 리밋: API 사용은 기본 등급에서 (10 RPM, 250,000 TPM, 250 RPD)로 제한되어, 배치 처리나 대량 애플리케이션에 영향을 줄 수 있습니다.
  • 기본 지능 수준: flash 모델로서는 탁월하지만, 고급 코딩이나 멀티 에이전트 조정 같은 가장 어려운 에이전트형 작업에서는 2.5 Pro보다 정확도가 낮습니다.
  • 비용 트레이드오프: 가격-성능은 우수하지만, thinking 모드의 광범위한 사용은 전체 토큰 소모를 증가시켜, 심층 추론 프롬프트의 비용을 높입니다.

Gemini 2.5 Flash의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

Gemini 2.5 Flash 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Gemini 2.5 Flash의 샘플 코드 및 API

Gemini 2.5 Flash API는 Google의 최신 멀티모달 AI 모델로, 고속이면서 비용 효율적인 작업을 위해 설계되었고 제어 가능한 추론 기능을 갖추었으며, 개발자가 Gemini API를 통해 고급 "thinking" 기능을 켜거나 끌 수 있도록 합니다.
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Gemini 2.5 Flash의 버전

Gemini 2.5 Flash에 여러 스냅샷이 존재하는 이유는 업데이트 후 출력 변동으로 인해 일관성을 유지하기 위해 이전 스냅샷을 보관하거나, 개발자에게 적응 및 마이그레이션을 위한 전환 기간을 제공하거나, 글로벌 또는 지역별 엔드포인트에 따라 다양한 스냅샷을 제공하여 사용자 경험을 최적화하기 위한 것 등이 포함될 수 있습니다. 버전 간 상세한 차이점은 공식 문서를 참고해 주시기 바랍니다.
version
gemini-2.5-flash-image
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch

더 많은 모델