Jak korzystać z GPT-5.4 API: przewodnik po parametrach i użyciu narzędzi

CometAPI
AnnaMar 7, 2026
Jak korzystać z GPT-5.4 API: przewodnik po parametrach i użyciu narzędzi

W dniach 5–7 marca 2026 r. OpenAI publicznie udostępniło GPT-5.4, model z czołówki wyraźnie dostrojony do profesjonalnych, dokumentochłonnych i agentowych przepływów pracy. Wydanie podkreśla trzy zbieżne usprawnienia: (1) znacząco większe okna kontekstu (≈1,050,000 tokenów), (2) nową zdolność „reasoning”, która pozwala deweloperom kontrolować wewnętrzny wysiłek rozumowania, oraz (3) pełnej klasy użycie komputera / orkiestracja narzędzi i ulepszone rozumienie multimodalne (tekst + obrazy + zrzuty ekranu). Te funkcje sprawiają, że GPT-5.4 szczególnie dobrze nadaje się do zadań takich jak modelowanie arkuszy kalkulacyjnych, przegląd umów, generowanie slajdów, wieloetapowe agentowe przepływy pracy oraz pisanie kodu obsługującego systemy działające na żywo.

Możesz skorzystać z GPT-5.4 w CometAPI. Wariant o wyższych zasobach obliczeniowych — GPT-5.4 Pro — jest dostępny do najtrudniejszych zadań wymagających rozumowania i pracy wieloturowej.

Czym jest GPT-5.4 (w tym warianty Thinking i Pro)

Rodzina modeli w skrócie

GPT-5.4 jest pozycjonowany jako „frontier” model GPT-5 do złożonej pracy profesjonalnej: długich dokumentów, kodu, wieloetapowego rozumowania i agentowych przepływów pracy. Wydanie scala możliwości wcześniej rozdzielone między Codex (kodowanie) i linię GPT — otrzymujesz więc jeden model, który potrafi kodować, rozumować, korzystać z narzędzi i zarządzać długim kontekstem. Oficjalny przewodnik po modelach wymienia gpt-5.4 jako domyślny do większości zadań oraz gpt-5.4-pro do najtrudniejszych problemów.

Kluczowe specyfikacje (oficjalne):

  • Okno kontekstu: ~1,050,000 tokenów (≈ 700–800k słów po angielsku), co umożliwia bardzo duże wejścia, takie jak całe szkice książek, wieloplikowe bazy kodu lub długie dokumenty prawne.
  • Maksymalna liczba tokenów wyjściowych: raporty wskazują na wsparcie bardzo dużych wyjść (np. do 128,000 tokenów w niektórych konfiguracjach Pro).
  • Warianty: gpt-5.4 (domyślny), gpt-5.4-pro (więcej obliczeń, dłuższe myślenie), oraz lżejsze/mini modele dla zastosowań wrażliwych na koszty.

Wyjaśnienie „Thinking” i „Pro”

  • GPT-5.4 Thinking: tryb dostrojony pod interaktywne rozumowanie. Akcentuje przepływy pracy „najpierw plan” — model może przedstawić plan z góry („plan wstępny”) przed wygenerowaniem pełnych wyników, co pozwala na sterowanie w trakcie generacji i ogranicza marnowanie tokenów na błędne kierunki. Ten tryb zwiększa widoczność zamierzonych kroków modelu i czyni długie zadania bezpieczniejszymi oraz bardziej kontrolowalnymi.
  • GPT-5.4 Pro: wysokoobliczeniowy bliźniak do najtrudniejszych problemów — głębszy łańcuch rozumowania, większe budżety wewnętrznych obliczeń oraz bardziej deterministyczne/stabilne wyniki na wymagających benchmarkach. Jest udostępniany w Responses API i jest przeznaczony do ciężkich zadań wieloturowych opartych na rozumowaniu (oczekuj wyższej latencji i kosztów).

Kluczowe usprawnienia i nowe funkcje w GPT-5.4

Ogromne okna kontekstu (≈1,050,000 tokenów)

To jedna z najważniejszych popraw: model, który może konsumować i rozumować nad całymi książkami, wieloplikowymi bazami kodu lub zestawami dokumentów przedsiębiorstwa bez podawania ich strumieniowo. Praktycznie upraszcza to zadania takie jak kompleksowy przegląd umów, podsumowanie pełnych dokumentów i Q&A na wielu dokumentach. Przykładowe zastosowania: due diligence prawne, audyty techniczne, logi agentów.

Uwaga praktyczna: większe okno kontekstu zmienia projektowanie systemu — zamiast agresywnego dzielenia na fragmenty można teraz utrzymać więcej „globalnego” stanu w kontekście, ale nadal należy stosować kompresję (zob. Sterowanie parametrami), aby koszty były rozsądne.

Rodzime użycie komputera i integracje narzędzi

GPT-5.4 jest pierwszym modelem ogólnego przeznaczenia z rodzimymi możliwościami użycia komputera: generuje sekwencje działań w przeglądarce lub systemie operacyjnym (skrypty Playwright, zdarzenia klawiatury/myszki), odczytuje zrzuty ekranu, wchodzi w interakcje z interfejsami WWW i orkiestruje wielonarzędziowe przepływy pracy. To duży krok w kierunku budowania autonomicznych agentów, które wykonują rzeczywiste zadania end-to-end.

GPT-5.4 zawiera wbudowane użycie komputera: model może współpracować z lokalnymi/zdalnymi agentami programowymi, wywoływać konektory, manipulować arkuszami, robić zrzuty ekranu i automatyzować wieloetapowe przepływy pracy, gdy ma na to pozwolenie. Ogranicza to „klejowy” kod: zamiast budować kruche obwoluty instrukcji, model może działać w pętli build-run-verify-fix (zachowanie agentowe) używając udokumentowanych API narzędzi. To duży krok w kierunku bezpiecznych, praktycznych agentów autonomicznych.

Tryby rozumowania i reasoning.effort

Strojony parametr reasoning.effort pozwala kontrolować, ile wewnętrznych obliczeń model inwestuje w łańcuch rozumowania i poszukiwanie rozwiązania (opcje: none, low, medium, high, xhigh). Wyższy wysiłek daje lepsze odpowiedzi w złożonych problemach, ale kosztuje więcej i zwiększa latencję — idealny dla gpt-5.4-pro.

Planowanie z góry / plany interaktywne

„Plany z góry” pozwalają modelowi wyprowadzić krótki plan przed rozpoczęciem długiego generowania. Plan można przejrzeć i zmodyfikować przez dewelopera lub użytkownika, minimalizując stracone wyjścia i umożliwiając korekty kursu w trakcie zadania (świetne przy tworzeniu długich dokumentów lub wieloetapowych analizach).

Lepsze umiejętności multimodalne/dokumentowe

Benchmarki i wewnętrzne ewaluacje opublikowane wraz z modelem pokazują duże wzrosty w zadaniach arkuszowych (wewnętrzna ewaluacja arkusza: średnio GPT-5.4 87,3% vs GPT-5.2 68,4%) oraz preferencję ludzi dla wyników prezentacji (prezentacje z GPT-5.4 preferowane w 68% vs GPT-5.2 w testach z udziałem ludzi). Firma raportuje też redukcje błędów faktograficznych (fałszywość pojedynczego twierdzenia w dół o ~33%, ogólny odsetek błędów odpowiedzi w dół o ~18% względem GPT-5.2).

Jak używać API GPT-5.4 (Responses API / Chat API)

GPT-5.4 pro wspiera wyłącznie dostęp do odpowiedzi. GPT-5.4 (thinking) wspiera chat i odpowiedzi. CometAPI (jedna platforma agregująca API dużych modeli ze zniżkami) oferuje serię GPT-5.4, dwa sposoby dostępu i kompatybilne, pomocne playgroundy.

Uwaga: Responses API jest zalecaną integracją dla modeli GPT-5.x, ponieważ bezpośrednio wspiera parametry rozumowania, rejestrację narzędzi i większe rozmiary kontekstu.

Python — Responses API (przykładowe)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Notatki: reasoning to obiekt kontrolujący wewnętrzny wysiłek; tools rejestruje dostępne interfejsy narzędzi, które model może zawołać; response_format wymusza strukturalne wyjście. Dostępne wartości etykiet dla reasoning.effort wahają się od none (najszybszy) do xhigh (największy wewnętrzny wysiłek), zależnie od wsparcia SDK i dostawcy. Używaj niskiego wysiłku do prostych podsumowań; podnoś go dla złożonych, wieloetapowych zadań.

Crul— Chat API (przykładowe)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Korzystanie z narzędzi z GPT-5.4 (Computer Use, konektory i agenci)

Najbardziej praktyczny skok GPT-5.4 to jego agentowe, świadome narzędzi zachowanie: potrafi odkrywać i wywoływać właściwe narzędzie, działać na arkuszach i interfejsach UI po autoryzacji oraz rozumować o działaniach, które podejmie.

GPT-5.4 jest zaprojektowany do pracy z narzędziami. Warto rozważyć trzy główne klasy narzędzi:

  1. Hostowane narzędzia (np. web_search, file_search) — model może je wywoływać w ramach pętli odpowiedzi. Świetne do pozyskiwania aktualnych informacji lub odpytywania baz wektorowych.
  2. Narzędzia niestandardowe / wywoływanie funkcji — własne endpointy serwera lub schematy funkcji. Zadeklaruj funkcje (schematy), aby model zwracał strukturalne wyjścia, które Twój kod wykona.
  3. Użycie komputera — model emituje działania GUI i oczekuje, że „uprząż” je wykona (kliknięcia, pisanie, zrzuty ekranu). To potężne, ale wysokiego ryzyka.

Gdy masz dziesiątki/setki narzędzi, przekaż tool_search i pozwól modelowi odkryć istotne schematy narzędzi w czasie wykonywania. Zmniejsza to zużycie tokenów i buforuje wydajność między wdrożeniami.

Jak działa integracja narzędzi (koncepcyjnie)

  1. Odkrywanie narzędzi: model znajduje dostępne konektory (np. Google Sheets, Salesforce, wewnętrzna baza danych) na podstawie katalogu.
  2. Plan i uprawnienia: model wyprowadza plan z góry opisujący, które narzędzia wywoła i dlaczego; jest on przeglądany i zatwierdzany.
  3. Wywołanie i weryfikacja: model wywołuje narzędzia (przez konektory lub action API), odczytuje wyniki i przeprowadza testy weryfikacyjne (lub prosi o potwierdzenie człowieka).
  4. Pętla napraw: przy niepowodzeniach model próbuje napraw lub prosi o wskazówki.

Ten wzorzec redukuje kruche, niestandardowe orkiestracje i centralizuje logikę w modelu, ale wymaga ścisłej kontroli dostępu i dzienników audytowych.

Wywoływanie z narzędziami (web_search / file_search / użycie komputera)

Responses API wspiera przekazanie tablicy tools. Model może wybierać narzędzia (hostowane jak web_search, file_search), lub możesz z góry zadeklarować i ograniczyć narzędzia. Przykład: poproś model o użycie wyszukiwania w sieci.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Jeśli przekażesz wiele definicji narzędzi, tool_search pozwala GPT-5.4 odroczyć ładowanie większości narzędzi i załadować tylko istotne — kluczowe w dużych ekosystemach narzędzi.

Przewodnik kompatybilności i sterowania parametrami GPT-5.4

Tradycyjne parametry LLM nadal istnieją, ale są ograniczane w zależności od trybu rozumowania.

Podstawowe parametry API GPT-5.4

reasoning.effort: Poniższe parametry są w pełni wspierane i zalecane przy wywoływaniu GPT-5.4. Kontrolują, ile wewnętrznego rozumowania model wykonuje przed generowaniem finalnego wyniku.

Obsługiwane wartości:

nonelowmediumhighxhigh

Przykład:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Efekty:

WartośćZachowanie
noneNajszybsza odpowiedź
lowLekka dawka rozumowania
mediumDomyślna równowaga
highSilne rozumowanie
xhighMaksymalna głębia

Wyższy wysiłek rozumowania generalnie zwiększa:

  • dokładność odpowiedzi
  • tokeny rozumowania
  • latencję
  • koszt

Domyślny poziom to zwykle medium.

Tools

Definiuje narzędzia, które model może wywołać. tools + tool_search

  • tool_search odracza ładowanie definicji narzędzi dla efektywności; włącz go przy dużych zestawach narzędzi.
  • tools deklaruje definicje narzędzi (web_search, file_search, niestandardowe RPC).

Wspierane narzędzia wbudowane obejmują:

  • web search
  • file search
  • code interpreter
  • image generation

Przykład:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Parametry próbkowania (kontrola losowości)

Ważna zasada kompatybilności: Gdy reasoning.effort ≠ none, niektóre parametry próbkowania mogą nie być wspierane. Jeśli reasoning.effort to high, żądanie może się nie powieść lub zignorować temperature.

Modele GPT-5.4 wyłączają parametry takie jak:

  • temperature
  • top_p
  • logprobs

ponieważ modele rozumujące kontrolują próbkowanie wewnętrznie.

  1. temperature Kontroluje losowość w próbkowaniu tokenów.
WartośćEfekt
0.0deterministyczne
0.2–0.4stabilne
0.7zrównoważone
1.0bardzo kreatywne

Przykład:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Jeśli reasoning.effort to high, żądanie może się nie powieść lub zignorować temperature.

  1. top_p: parametr próbkowania jądrowego (nucleus sampling).
WartośćZnaczenie
0.9rozważa top 90% tokenów prawdopodobieństwa
0.5zachowawcze generowanie
1.0pełny rozkład
  1. stop: Zatrzymuje generowanie po napotkaniu określonych tokenów.

Przydatne do:

  • generowania kodu
  • potoków narzędziowych
  • delimiterów czatu

Verbosity: Kontroluje długość odpowiedzi.

W GPT-5 pojawiło się kilka nowych parametrów, w tym GPT-5.4.

Wartości:

lowmediumhigh

Przykład:

verbosity="high"

Zastosowania:

WartośćZachowanie
lowzwięzłe odpowiedzi
mediumzbalansowane
highdługie wyjaśnienia

Ten parametr pomaga kontrolować długość wyjścia bez manipulowania limitami tokenów.

Różnice parametrów GPT-5.4

Poniżej uproszczony wykaz kompatybilności.

Parametrreasoning:nonereasoning:low+
temperature✗ / ignorowane
top_p
logprobs
max_output_tokens
tools
tool_choice
verbosity
reasoning.effort

Porównanie parametrów i możliwości GPT-5.4 oraz GPT-5.4-Pro

FunkcjaGPT-5.4GPT-5.4-Pro
Elastyczność rozumowaniaPełny zakres od none → xhighTylko medium → xhigh
LatencjaNiższaWyższa (złożone zadania mogą trwać minuty)
KosztNiższyWyższy z uwagi na dodatkowe obliczenia
Wykonanie w tle zalecaneOpcjonalneZalecane dla długich zadań
Obsługiwane poziomy rozumowanianone, low, medium, high, xhighmedium, high, xhigh

Najlepsze praktyki wdrażania GPT-5.4 w produkcji

1) Zacznij od małego, potem zwiększaj rozumowanie

  • Rozpocznij od reasoning.effort=none/low + text.verbosity=low dla endpointów wrażliwych na latencję.
  • Dla złożonych przepływów przejdź do medium, a następnie high dopiero po testach A/B koszt vs dokładność.

2) Preferuj strukturalne wyjścia do zadań programistycznych

Używaj schematów funkcji lub schematów JSON/Pydantic, aby model zwracał wyniki parsowalne przez maszynę; zmniejsza to błędy parsowania w dalszych etapach.

3) Zachowaj człowieka w pętli przy decyzjach wysokiego wpływu

Każdy przepływ obejmujący pieniądze, skutki prawne lub dane osobowe powinien wymagać zatwierdzenia przez człowieka przed efektami zewnętrznymi.

4) Ogranicz eksponowane możliwości

Używaj list allowed_tools (domyślnie odmawiaj) i granulowanych uprawnień do narzędzi. Dla użycia komputera egzekwuj ścisłą białą listę działań.

5) Budżetowanie kosztów i tokenów

Używaj max_output_tokens i text.verbosity dla przewidywalnych kosztów. Dla bardzo dużych kontekstów stronicuj lub kompresuj zawartość tam, gdzie to właściwe — nawet przy 1M tokenów strategie kompakcji/selektowania pomagają obniżać koszt.

Uwagi końcowe — migracja i kolejne kroki

GPT-5.4 stanowi znaczący krok naprzód w budowaniu systemów AI, które mogą myśleć więcej, pracować w różnych programach i obsługiwać bardzo duże konteksty. Dla większości zespołów zalecana ścieżka migracji to:

  1. Prototypuj na niewielkim podzbiorze przepływów (np. przegląd umów, generowanie slajdów) używając aliasu gpt-5.4 w piaskownicy.
  2. Mierz dokładność zadań, użycie tokenów, latencję i koszt względem wcześniejszych modeli.
  3. Utwardzaj przez dodanie strukturalnych wyjść, zabezpieczeń narzędzi i zatwierdzeń przez człowieka dla ryzykownych przepływów.
  4. Zniżki API w CometAPI mogą rozwiązać problem, jeśli wymagania kosztowe lub opóźnienia wymuszą taki wybór.

Deweloperzy mogą uzyskać dostęp do GPT-5.4, GPT-5.4-pro, API przez CometAPI już teraz. Na początek poznaj możliwości modelu w Playground i zapoznaj się z przewodnikiem API po szczegółowych instrukcjach. Przed dostępem upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. CometAPI oferuje ceny znacznie niższe niż oficjalne, aby pomóc w integracji.

Gotowy do działania?→ Sign up fo GPT-5.4 today !

Jeśli chcesz poznać więcej wskazówek, przewodników i newsów o AI, obserwuj nas na VK, X i Discord!

Dostęp do najlepszych modeli po niskich kosztach

Czytaj więcej