The Gemini 2.5 플래시라이트 API Google의 하이브리드 추론 모델 제품군에서 최신 제품을 나타내며 다음과 같은 기능을 제공합니다. 비교할 수 없는 비용 효율성 및 매우 낮은 대기 시간 대용량, 지연 시간에 민감한 애플리케이션의 경우.
기본 정보 및 기능
17년 2025월 2.5일 미리보기 릴리스에서 발표된 Flash-Lite는 개발자에게 최적화된 옵션을 제공하여 Flash 및 Pro와 함께 Gemini XNUMX 라인업을 완성합니다. 속도, 가격 대비 성능및 적응적 사고 능력.
코드에 "gemini-2.5-flash-lite"를 지정하면 Gemini 2.5 Flash-Lite를 사용할 수 있습니다. 미리보기 버전을 사용 중이라면 미리보기 버전과 동일한 "gemini-2.5-flash-lite"로 전환할 수 있습니다. Google은 25월 XNUMX일에 Flash-Lite의 미리보기 별칭을 삭제할 예정입니다.
| 안정 | 모델 | 날짜 |
| 안정적(GA) | gemini-2.5-flash-lite | 2025 년 7 월 22 일 |
| 실험 미리보기 | gemini-2.5-flash-lite-06-17 | 이용 가능 기간: 17년 25월 2025일 ~ XNUMX월 XNUMX일 |
| 최신 버전 | gemini-2.5-flash-lite-preview-09-2025 | 09-2025 |
- 사고 통제: 구현합니다 역동적 사고 예산 API 매개변수를 통해 생각하면서 기본적으로 비활성화 속도를 극대화하고 비용을 절감합니다.
- 낮은 대기 시간: 다음을 위해 설계되었습니다. 첫 번째 토큰까지의 빠른 시간Flash-Lite는 시작 오버헤드를 최소화하여 표준 Google Cloud 인프라에서 100ms 미만의 대기 시간을 달성합니다.
- 높은 처리량: 유능한 디코딩 파이프라인을 통해 지속 가능 초당 수백 개의 토큰챗봇과 스트리밍 애플리케이션에서 실시간 사용자 경험을 제공합니다.
- 다중 모드 지원: 주로 텍스트에 최적화되었지만 Flash-Lite는 또한 다음을 허용합니다. 형상, 오디오및 비디오 Gemini API를 통해 입력을 제공하여 문서 요약부터 간단한 비전 작업까지 다양한 사용 사례를 구현할 수 있습니다.
기술적인 세부 사항
- 적응 추론:
Gemini 2.5 Flash-Lite주문형 지원 생각이를 통해 개발자는 더 심층적인 추론이 필요할 때만 컴퓨팅 리소스를 할당할 수 있습니다. - 도구 통합: Gemini 2.5의 기본 도구와의 완벽한 호환성(다음 포함) Google 검색을 통한 접지, 코드 실행, URL 컨텍스트및 함수 호출 원활한 멀티모달 워크플로를 위해.
- 모델 컨텍스트 프로토콜(MCP): Google의 MCP를 활용하여 실시간 웹 데이터를 가져와 응답을 보장합니다. 최신의 및 상황에 맞는.
- 배포 옵션: 다음을 통해 사용 가능 코멧API, 제미니 API, 버텍스 AI및 구글 AI 스튜디오조기 채택자가 실험하고 피드백을 제공할 수 있는 미리보기 트랙이 제공됩니다.
벤치마크 성능 Gemini 2.5 Flash-Lite
- 숨어 있음: 최대 달성 중간 응답 시간이 50% 더 낮음 Gemini 2.5 Flash와 비교했을 때 일반적인 100ms 미만 표준 분류 및 요약 벤치마크에서의 대기 시간.
- 맞춤형 설비: 최적화됨 높은 볼륨 분당 수만 개의 요청을 성능 저하 없이 처리할 수 있는 작업 부하.
- 가격 대비 성능: 다음을 보여줍니다. 25개 토큰당 비용 1,000% 감소 Flash 대응 제품과 비교하여 파레토 최적 비용에 민감한 배포에 적합한 선택입니다.
- 산업 채택: 초기 사용자들은 생산 파이프라인에 원활하게 통합되었으며, 성능 지표가 초기 예상과 일치하거나 이를 초과했다고 보고했습니다.

이상적인 사용 사례
- 고빈도, 저복잡도 작업: 자동 태그 지정, 감정 분석 및 대량 번역
- 비용에 민감한 파이프라인: 대용량 문서 코퍼스에서 데이터 추출, 주기적 일괄 요약
- Edge 및 모바일 시나리오: 대기 시간이 중요하지만 리소스 예산이 제한적인 경우
의 한계 Gemini 2.5 Flash-Lite
- 미리보기 상태: GA 이전에 API가 변경될 수 있습니다. 통합 시에는 버전 변경 가능성을 고려해야 합니다.
- 즉석 미세 조정 없음: 사용자 정의 가중치를 업로드할 수 없습니다. 신속한 엔지니어링 및 시스템 메시지에 의존하세요.
- 창의성 감소: 결정론적이고 처리량이 높은 작업에 맞게 조정되었으며, 개방형 생성이나 "창의적" 글쓰기에는 덜 적합합니다.
- 자원 한도: 최대 16개 vCPU까지 선형적으로 확장 가능하며, 이를 초과하면 처리량 증가가 줄어듭니다.
- 다중 모드 제약 조건: 이미지/오디오 입력을 지원하지만 충실도가 제한적입니다. 무거운 시각 또는 오디오 필사 작업에는 적합하지 않습니다.
- 컨텍스트-윈도우 트레이드오프 : 최대 1M개의 토큰을 허용하지만, 그 규모로 실제 추론을 하면 처리량이 저하될 수 있습니다.
전화하는 방법 Gemini 2.5 Flash-Lite CometAPI의 API
제미니 2.5 플래시라이트 CometAPI의 API 가격 책정, 공식 가격 대비 20% 할인:
- 입력 토큰: $0.08/M 토큰
- 출력 토큰: $0.32/M 토큰
필수 단계
- 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니신 경우 먼저 등록해 주시기 바랍니다.
- 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.
- 이 사이트의 url을 받으세요: https://api.cometapi.com/
사용 방법
- "**
gemini-2.5-flash-lite**API 요청을 전송하고 요청 본문을 설정하는 엔드포인트입니다. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다. - 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
- 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
- . API 응답을 처리하여 생성된 답변을 얻습니다.
CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보는 다음과 같습니다. API doc:
- 기본 URL: https://api.cometapi.com/v1/chat/completions
- 모델명 : "
gemini-2.5-flash-lite" - 입증:
Bearer YOUR_CometAPI_API_KEY머리글
도 참조 제미니 2.5 프로
