Specyfikacja techniczna modelu Gemini 3.5 Flash
| Element | Gemini 3.5 Flash |
|---|---|
| Dostawca | |
| Rodzina modeli | Gemini 3.5 |
| Oficjalny identyfikator modelu | gemini-3.5-flash |
| Typy wejścia | Tekst, obraz, wideo, audio, PDF |
| Typy wyjścia | Tekst |
| Okno kontekstu | 1 milion tokenów |
| Maksymalna liczba tokenów wyjściowych | ~65K tokenów wyjściowych |
| Główne atuty | Przepływy agentowe, programowanie, rozumowanie multimodalne |
| Obsługa narzędzi | Wywoływanie funkcji, wykonywanie kodu, uzasadnianie w oparciu o wyszukiwanie, strukturyzowane wyniki, kontekst URL, wyszukiwanie plików |
| Wsparcie rozumowania | Regulowane poziomy rozumowania |
| Ramy bezpieczeństwa | Google Frontier Safety Framework |
Czym jest Gemini 3.5 Flash?
Google Gemini 3.5 Flash to flagowy, szybki model rozumowania multimodalnego Google, zoptymalizowany pod kątem wykonania agentowego, programowania i długohoryzontowych przepływów pracy. Rozszerza serię Gemini Flash, oferując znacznie silniejsze możliwości rozumowania i inżynierii oprogramowania przy zachowaniu niskiej latencji wnioskowania.
W odróżnieniu od wcześniejszych modeli Flash, skupionych głównie na lekkim wnioskowaniu, Gemini 3.5 Flash jest projektowany z myślą o długotrwale działających agentach AI, wieloetapowych systemach programistycznych oraz korporacyjnych potokach automatyzacji. Google pozycjonuje go jako najsilniejszy agentowy model w klasie Flash do tej pory.
Główne funkcje Gemini 3.5 Flash
- 1M tokenów długiego kontekstu: Obsługuje bardzo duże repozytoria, obszerną dokumentację, pliki PDF, transkrypcje oraz wielosesyjne przepływy pracy w ramach jednego kontekstu zapytania.
- Silne wykonanie agentowe: Zoptymalizowany pod kątem wieloetapowych autonomicznych przepływów pracy, orkiestracji narzędzi, zadań terminalowych i długotrwale działających agentów AI.
- Zaawansowana wydajność w programowaniu: Przewyższa Gemini 3.1 Pro na kilku benchmarkach programistycznych i agentowych, w tym Terminal-Bench oraz MCP Atlas.
- Natywne rozumowanie multimodalne: Akceptuje tekst, obrazy, audio, wideo i pliki PDF na potrzeby zadań wymagających zintegrowanego rozumowania.
- Narzędzia klasy produkcyjnej: Obsługuje strukturyzowane wyniki, wywoływanie funkcji, wykonywanie kodu, uzasadnianie w oparciu o Google Search i Maps oraz wyszukiwanie plików.
- Konfigurowalne tryby rozumowania/myślenia: Deweloperzy mogą dostrajać relację między latencją a głębokością rozumowania, korzystając z ustawień poziomu rozumowania.
Wydajność Gemini 3.5 Flash w benchmarkach
Zgłoszone przez Google wyniki benchmarków plasują Gemini 3.5 Flash wśród najsilniejszych agentowych modeli klasy Flash dostępnych obecnie:
| Benchmark | Gemini 3.5 Flash |
|---|---|
| Terminal-Bench 2.1 | 76.2% |
| GDPval-AA | 1656 Elo |
| MCP Atlas | 83.6% |
| CharXiv Reasoning | 84.2% |
Wyniki te wskazują na duże postępy w autonomicznym wykonywaniu zadań, rozumowaniu multimodalnym oraz niezawodności inżynierii oprogramowania w porównaniu z wcześniejszymi wariantami Gemini Flash.
Gemini 3.5 Flash kontra inne modele
| Możliwości | Gemini 3.5 Flash | Gemini 3.1 Pro | Claude Sonnet 4 |
|---|---|---|---|
| Okno kontekstu | 1M tokenów | Duży kontekst | Duży kontekst |
| Przepływy agentowe | Doskonałe | Silne | Silne |
| Wydajność w programowaniu | Bardzo wysoka | Wysoka | Doskonała |
| Szybkość wnioskowania | Zoptymalizowana latencja Flash | Wolniejsze | Umiarkowana |
| Wejścia multimodalne | Natywnie multimodalne | Natywnie multimodalne | Wizja + tekst |
| Ekosystem narzędzi | Rozległe narzędzia Google | Rozległe | Silny ekosystem API |
Kluczowe różnice
- vs Gemini 3.1 Pro: Gemini 3.5 Flash zapewnia lepsze programowanie i autonomiczne wykonywanie zadań przy jednocześnie znacznie szybszym wnioskowaniu.
- vs Claude Sonnet 4: Claude często pozostaje silniejszy w niuansowym długim rozumowaniu i jakości pisania, podczas gdy Gemini 3.5 Flash kładzie nacisk na szybkość, wykonanie agentowe oraz integrację z ekosystemem Google.
- vs modele serii GPT nastawione na rozumowanie: Gemini 3.5 Flash jest szczególnie konkurencyjny w agentowych przepływach multimodalnych i orkiestracji dużego kontekstu, zwłaszcza w zastosowaniach automatyzacji przedsiębiorstw.
Znane ograniczenia Gemini 3.5 Flash
- Obecnie nie obsługuje natywnego generowania obrazów ani dźwięku w wynikach.
- Interfejsy API do rozmów na żywo nie są obsługiwane w tej klasie modelu.
- Benchmarki społecznościowe pokazują mieszane wyniki w niektórych specjalistycznych zadaniach ewaluacyjnych, zwłaszcza w niszowych przepływach silnie opartych na komponentach wizji.
Jak uzyskać dostęp do Gemini 3.5 Flash API
Krok 1: Uzyskaj dostęp do API
Zaloguj się do cometAPI. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojego CometAPI console. Uzyskaj klucz API będący poświadczeniem dostępu do interfejsu. Kliknij „Add Token” przy pozycji API token w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.

Krok 2: Wyślij żądania do Gemini 3.5 Flash API
Wybierz punkt końcowy „` gemini-3.5-flash”, aby wysłać żądanie API i ustaw treść żądania. Metodę żądania i treść żądania znajdziesz w dokumentacji API na naszej stronie. Nasza strona udostępnia także test w Apifox dla Twojej wygody. Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta. base url is Gemini Generating Content
Wstaw swoje pytanie lub prośbę do pola content — na to model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
Krok 3: Przetwarzaj odpowiedzi
API zwraca ustrukturyzowane odpowiedzi kandydackie, w tym wygenerowany tekst, przypisy, metadane bezpieczeństwa oraz opcjonalne wyniki narzędzi.