Jak korzystać z interfejsu API Gemini 3.5 Flash

Google zaprezentowało Gemini 3.5 Flash na Google I/O 2026 jako najnowszy model z serii Flash, oferujący możliwości na poziomie frontier przy szybkości i koszcie klasy Flash. Wydany około 19 maja 2026 r., łączy zaawansowane wnioskowanie, silne możliwości agentowe i rozumienie multimodalne, przy zachowaniu niskiego opóźnienia.

Ten model wyróżnia się dla deweloperów, przedsiębiorstw i twórców AI, którzy potrzebują wysokiej wydajności bez narzutu większych modeli „Pro”. Dorównuje lub przewyższa wcześniejsze modele Pro w kluczowych benchmarkach agentowych i kodowania, oferując jednocześnie wyższą szybkość i efektywność.

Key Highlights (struktura wyróżnionego fragmentu):

Performance: Przewyższa Gemini 3.1 Pro na Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%) i innych.
Speed: Opóźnienie na poziomie Flash dla zastosowań czasu rzeczywistego i wysokich wolumenów.
Context: Do 1M tokenów wejściowych, 64k tokenów wyjściowych.
Multimodal: Obsługuje natywnie tekst, obrazy, wideo, audio, PDF.
Pricing: Około $1.50 / 1M tokenów wejściowych i $9 / 1M tokenów wyjściowych (zależnie od dostawcy/platformy).

Dla bezproblemowej integracji CometAPI zapewnia ujednolicony, niezawodny proxy do modeli Gemini (i wielu innych) z podniesionymi limitami, uproszczonym rozliczaniem, trasowaniem awaryjnym i analizą wykorzystania — idealne dla aplikacji produkcyjnych skalujących się z Gemini 3.5 Flash.

Czym jest Gemini 3.5 Flash?

Gemini 3.5 Flash to najinteligentniejszy model Google z poziomu Flash, zaprojektowany do utrzymywania frontierowej wydajności w zadaniach agentowych i kodowania na dużą skalę. Bazuje na serii Gemini 3, łącząc rozumowanie na poziomie Pro z efektywnością klasy Flash.

W przeciwieństwie do lżejszych wariantów „Lite” skupionych wyłącznie na kosztach lub cięższych modeli Pro nastawionych na maksymalną inteligencję, 3.5 Flash błyszczy w realnych, wieloetapowych scenariuszach: wdrażanie sub-agentów, szybkie iteracje kodu („vibe coding”), równoległe użycie narzędzi oraz długohoryzontowe przepływy pracy, które wymagają utrzymania kontekstu przez wiele tur.

Kluczowe możliwości:

Multimodal Inputs: tekst, obrazy, wideo, audio, PDF.
Tools & Agentic Features: wywoływanie funkcji, wykonywanie kodu, podparcie wyszukiwaniem (search grounding), wyszukiwanie plików, kontekst URL. (Computer Use jeszcze nieobsługiwane.)
Thinking Modes: konfigurowalne poziomy wysiłku dla równoważenia głębi vs. szybkości.
Production-Ready: status GA ze stabilnym wersjonowaniem (gemini-3.5-flash).

Obsługuje kontekst 1M tokenów, umożliwiając przetwarzanie ogromnych dokumentów, baz kodu czy historii rozmów — kluczowe dla złożonych agentów.

Co nowego w Gemini 3.5 Flash

W porównaniu do Gemini 3 Flash i 3.1 Pro, 3.5 Flash przynosi znaczące usprawnienia:

Improved Agentic Performance: 42% lepiej na długozasięgowych, wieloturnowych benchmarkach cyber z 72% redukcją tokenów w niektórych przypadkach.
Better Coding: prowadzi na Terminal-Bench i wariantach SWE-Bench dla realnych przepływów pracy deweloperów.
Enhanced Multimodal Reasoning: topowe wyniki na CharXiv (84.2%) i MMMU-Pro.
Parallel Sub-Agent Coordination: natywne wsparcie dla złożonej, wieloagentowej orkiestracji (zademonstrowane w przykładach Antigravity, takich jak migracja bazy kodu i tworzenie gier).
Efficiency Gains: utrzymuje lub poprawia szybkość przy wzroście „inteligencji”, czyniąc model odpowiednim do zastosowań produkcyjnych o dużej skali.

Benchmark Comparison Table:

Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Uwagi
Terminal-Bench 2.1 (Agentic)	76.2%	58.0%	70.3%	Wyraźna przewaga w kodowaniu
MCP Atlas (Multi-step)	83.6%	62.0%	78.2%	Przepływy agentowe
CharXiv (Multimodal)	84.2%	80.3%	83.3%	Rozumienie wykresów
GDPval-AA (Elo)	1656	1204	1314	Praca wiedzochłonna
MMMU-Pro	83.6%	81.2%	80.5%	Multimodalność

Użytkownicy z realnego świata (np. Shopify, Macquarie Bank, Salesforce) raportują wzrosty w prognozowaniu, przetwarzaniu dokumentów i automatyzacji w przedsiębiorstwie.

Zmiany zachowania i kluczowe aktualizacje

Google wprowadziło ważne aktualizacje zachowania dla lepszej efektywności i spójności.

Nowy domyślny poziom wysiłku: medium

Domyślny thinking_level zmienił się z high (we wcześniejszych podglądach) na medium. Zapewnia to doskonałe wyniki dla większości zadań przy niższym opóźnieniu i koszcie. Użyj high dla najbardziej złożonego rozumowania.

Effort Level Comparison Table:

Effort Level	Best For	Latency/Cost Impact	Recommended Use Cases
minimal	Szybkie odpowiedzi	Najniższy	Czat, proste fakty, podstawowe routingi
low	Mniejkrokowe agenty/kod	Niski	Analiza, pisanie, szybkie narzędzia
medium (default)	Większość zadań	Zrównoważony	Złożony kod, standardowi agenci
high	Głębokie rozumowanie	Wyższy	Trudna matematyka, najcięższe zadania agentowe

Code Example (Python - Setting Thinking Level):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Podobne wzorce mają zastosowanie w JavaScript, REST itd.

Zachowywanie toku rozumowania

Model automatycznie utrzymuje pośredni tok rozumowania w wieloturnowych rozmowach, gdy dostarczona jest pełna historia (w tym sygnatury rozumowania). Zwiększa to wydajność w iteracyjnym debugowaniu, refaktoryzacji i długich sesjach agentów — brak dodatkowych zmian API wymaganych dla Interactions API; GenerateContent zyskuje na przekazywaniu kompletnej historii.

Aktualizacje parametrów (najlepsze praktyki Gemini 3.x)

Unikaj ręcznego ustawiania temperature, top_p, top_k — domyślne są zoptymalizowane.
Używaj thinking_level zamiast numerycznego thinking_budget.
Ścisłe dopasowanie odpowiedzi funkcji (id, name, count) jest krytyczne, aby uniknąć pustych odpowiedzi.

Jak uzyskać dostęp i korzystać z API Gemini 3.5 Flash

1. Opcje dostępu:

Google AI Studio (najprostsze do testów) — dostępny darmowy poziom.
Gemini API (bezpośrednio z kluczem API).
Vertex AI / Gemini Enterprise Agent Platform (funkcje dla przedsiębiorstw, wyższe limity).
Podmioty trzecie jak CometAPI (zalecane dla uproszczonego dostępu wielodostawcy, analityki i niezawodności).

Get Started with CometAPI: CometAPI agreguje dostęp do modeli Gemini poprzez pojedynczy endpoint, lepszą obsługę błędów, pulpity wykorzystania i alerty kosztów. Zarejestruj się na Cometapi.com, pobierz klucz i kieruj żądania do gemini-3.5-flash (lub równoważnego ID modelu) przy minimalnych zmianach kodu. To idealne rozwiązanie do skalowania bez zarządzania wieloma kluczami API lub bezpośredniego zmagania się z limitami.

2. Podstawowa konfiguracja i Hello World

Python Quickstart:

import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

JavaScript Example:

import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>

3. Zaawansowane użycie: multimodalność, wywoływanie funkcji i agenci

Multimodal Example (Image + Text):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Function Calling for Agentic Workflows:

Zdefiniuj narzędzia, pozwól modelowi je wywołać, a następnie dostarcz odpowiedzi (ściśle dopasowując id/name).

Structured Outputs:

Używaj schematów odpowiedzi dla niezawodnego parsowania JSON — idealne do potoków ekstrakcji danych.

Code Execution Tool:

Włącz, aby model mógł wykonywać kod Pythona w piaskownicy do matematyki, analizy danych itd.

Dla pełnych zestawów agentowych rozważ Managed Agents Google (podgląd) lub zbuduj własne z Cometapi.com do orkiestracji, logowania i kontroli kosztów.

Wskazówki dla API Gemini 3.5 Flash

Wykorzystuj domyślny poziom medium — nadpisuj tylko gdy konieczne.
Przekazuj pełną historię dla zachowania toku rozumowania w czatach/agentach.
Używaj buforowania kontekstu dla powtarzalnych dużych promptów (znaczne oszczędności).
Stosuj ścisłą obsługę odpowiedzi narzędzi, aby zapobiegać błędom.
Monitoruj tokeny — 1M kontekstu jest potężne, ale kosztowne przy niewłaściwym użyciu.
Połącz z Cometapi.com — wdrażaj inteligentne trasowanie (np. fallback do Flash-Lite dla prostych zapytań), warstwy cache, pulpity wykorzystania i ujednoliconą obsługę błędów. Optymalizuje to wydatki i niezawodność w zastosowaniach o dużych wolumenach lub krytycznych.

Najlepsze praktyki korzystania z API Gemini 3.5 Flash

Inżynieria promptów:

Używaj jasnych, strukturalnych promptów z rolami (System + User).
Określ format wyjścia (JSON, tabele Markdown).
Chain-of-Thought: „Myśl krok po kroku...”.

Optymalizacja kosztów:

Wykorzystuj domyślne „medium”.
Używaj keszowania (gdzie wspierane).
Monitoruj wykorzystanie tokenów przez pulpity CometAPI.
Grupuj zadania niekrytyczne czasowo.

Obsługa błędów i niezawodność:

Implementuj ponowienia z wykładniczym backoffem.
Używaj CometAPI do automatycznych fallbacków do innych modeli.

Projektowanie agentów:

Dziel złożone zadania na sub-agentów.
Utrzymuj stan przy pomocy sesji czatu lub zewnętrznej pamięci.
Łącz z Antigravity lub własną orkiestracją.

Zastosowania i studia przypadków

Coding Agents: iteracyjne tworzenie z szybkim cyklem informacji zwrotnej.
Automatyzacja w przedsiębiorstwie: przetwarzanie dokumentów, ekstrakcja danych (np. Box Life Sciences).
Analiza multimodalna: wideo/audio + tekst dla bogatszych wniosków.
Agenci wsparcia klienta: obsługa rozmów o długim kontekście.

Integracja przez Cometapi.com pozwala zespołom A/B testować prompty/modele, śledzić ROI per przepływ i skalować bez problemów infrastrukturalnych.

Porównanie: Gemini 3.5 Flash vs. konkurenci i poprzednie modele

Gemini 3.5 Flash oferuje znakomity stosunek ceny do wydajności dla zastosowań agentowych/kodowania. Często jest szybszy i bardziej opłacalny niż pełne modele Pro w wielu zadaniach, jednocześnie zmniejszając dystans w surowej inteligencji.

Kiedy wybrać:

Aplikacje o wysokiej przepustowości (chatboty, asystenci kodowania).
Automatyzacja agentowa.
Analiza multimodalna z wymaganiami szybkości.
Produkcja z ograniczonym budżetem.

Ograniczenia: Wciąż niuanse preview/stable; ceny wyższe niż w starszych poziomach Flash dla niektórych wyjść. Testuj dokładnie.

Performance Comparison Table (przybliżone, na podstawie publicznych raportów):

Model	Agentic Strength	Speed	Cost (Input/Output)	Best For
Gemini 3.5 Flash	Wysoka (frontier)	Bardzo wysoka	$1.50 / $9	Agenci, kodowanie, skala
Gemini 3 Flash	Średnio-wysoka	Wysoka	Niższe	Szybkie zadania ogólne
Gemini 3.1 Pro	Bardzo wysoka	Średnia	Wyższe	Maksymalna inteligencja
Lite Variants	Średnia	Najwyższa	Najniższe	Duża skala, proste zadania

Najczęstsze pułapki i rozwiązywanie problemów

Niedopasowane odpowiedzi funkcji → puste wyniki.
Nadużywanie „high” → wyższe koszty/opóźnienia.
Brak keszowania dla powtarzalnych kontekstów.
Zaskoczenia limitami tokenów w długich sesjach.

Zakończenie: Zacznij budować z Gemini 3.5 Flash już dziś

Gemini 3.5 Flash demokratyzuje możliwości frontier dla aplikacji wrażliwych na szybkość i koszt. Jego wydanie GA, połączone z przemyślanymi zmianami zachowania, takimi jak domyślny poziom „medium” i zachowywanie toku rozumowania, czyni go potężnym rozwiązaniem produkcyjnym.

Action Steps:

Zdobądź klucz API i przetestuj.
Zaimplementuj przez SDK, korzystając z powyższych przykładów kodu.
Skaluj mądrze z Cometapi.com — do proxy, optymalizacji, monitorowania i wsparcia multi-LLM.
Eksperymentuj ze wzorcami agentowymi i dziel się wynikami.

Stosując się do tego przewodnika, efektywnie wykorzystasz Gemini 3.5 Flash, minimalizując ryzyka i koszty. Aby uzyskać bezproblemowe zarządzanie API dopasowane do nowoczesnych przepływów pracy AI, odwiedź CometAPI i zintegrowaj już dziś.