Home/Models/OpenAI/GPT Image 1.5
O

GPT Image 1.5

Wejście:$6.4/M
Wyjście:$25.6/M
GPT-Image-1.5 to model obrazów OpenAI z rodziny GPT Image. To natywnie multimodalny model GPT, zaprojektowany do generowania obrazów na podstawie poleceń tekstowych oraz wykonywania edycji obrazów wejściowych o wysokiej wierności, ściśle zgodnie z instrukcjami użytkownika.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API
Wersje

Czym jest API GPT-Image-1.5?

GPT-Image-1.5 to najnowszy członek rodziny GPT Image i model stojący za odświeżonym doświadczeniem Images w ChatGPT. Zaprojektowano go, aby przenieść generowanie obrazów z ciekawostkowych eksperymentów do produkcyjnych narzędzi kreatywnych: wyższy fotorealizm, większa kontrola nad iteracyjnymi edycjami oraz szybsze wnioskowanie, by wspierać interaktywne i korporacyjne przepływy pracy.

gpt-image-1.5 API to multimodalny endpoint modelu obrazów, który przyjmuje jedno lub więcej wejść obrazowych (identyfikatory plików lub bajty) wraz z promptem tekstowym i zwraca wygenerowane obrazy lub obrazy po edycji. Obsługuje:

  • Generowanie tekst‑na‑obraz (tworzenie na podstawie promptu),
  • Edycję obrazu / in‑painting / komponowanie (stosowanie instrukcji do istniejących obrazów; możliwy wielokrotny input obrazów) oraz
  • Iteracyjne, wieloturowe edycje poprzez Responses API (umożliwia interfejsy „tweak & iterate”).

API traktuje prompty obrazowe inaczej niż wcześniejsze ograniczenia DALL·E: modele obrazowe GPT akceptują znacząco dłuższe prompty tekstowe (wytyczna 32k znaków), co umożliwia złożone, mocno ograniczone instrukcje.

Najważniejsze funkcje (praktyczne)

  • Ulepszona edytowalność / spójność w wielu turach: zachowuje wygląd postaci, oświetlenie i kluczowe atrybuty wizualne w kolejnych iteracjach edycji. Dzięki temu „ten sam model, powtarzane edycje” jest bardziej niezawodny w przepływach pracy, takich jak katalogi produktów czy zasoby marki.
  • Wyższa przepustowość — do 4× szybciej niż GPT Image 1, co obniża opóźnienia w iteracyjnych przepływach kreatywnych.
  • Optymalizacja kosztów — koszty wejścia/wyjścia obrazów obniżone o ok. 20% względem GPT Image 1, zmniejszając koszt iteracji na obraz w przypadku użytkowników o dużej skali.
  • Komponowanie wielu obrazów i referencje stylu — przyjmowanie wielu obrazów referencyjnych do komponowania scen lub transferu stylu/oświetlenia.
  • Regulatory jakości/wierności — parametry API pozwalające balansować szybkość względem wierności (niższa jakość do masowej generacji; wyższa jakość do zasobów produkcyjnych).
  • Edycja wieloturowa / integracja z Responses API — umożliwia stopniowe przepływy (proś o zmiany, potem „dopracuj” z zachowaniem stanu).

Możliwości techniczne

  • Limit promptu tekstowego (modele obrazowe): do 32 000 znaków (uwaga: OpenAI dokumentuje to jako dopuszczalną długość tekstu dla modeli obrazowych GPT). Używaj do długich promptów z wieloma ograniczeniami.
  • Wejścia obrazów: akceptuje identyfikatory plików (preferowane w przepływach wieloturowych) lub surowe bajty; można dostarczyć wiele obrazów do komponowania i jako referencje.
  • Wyjścia: artefakty obrazowe PNG/JPEG lub domyślne dla platformy (lub jako załączniki w ChatGPT). Wyjścia mogą zawierać wielu kandydatów i wspierać iteracyjne żądania do dopracowania rezultatu.
  • Tryby generowania: tekst‑na‑obraz, edycja obrazu (inpainting/rozszerzanie z instrukcjami) oraz warianty. Edycja wieloturowa obsługuje polecenia w stylu „dodaj/usuń/połącz”.
  • Edycja z uwzględnieniem instrukcji: modele zoptymalizowano pod wierność instrukcjom (zachowanie wskazanych inwariantów, jak „nie zmieniaj logo”, „zachowaj pozę i oświetlenie”). Wzorce inżynierii promptów (jawne powtarzanie inwariantów w każdej iteracji) redukują dryf semantyczny.

Wydajność w benchmarkach

  • Pozycja w rankingach: Jeden zbiorczy raport wskazał GPT Image 1.5 na prowadzeniu w rankingach tekst‑na‑obraz z wynikiem ~1264 punkty na leaderboardzie Artificial Analysis, wyprzedzając kolejny model o zauważalny margines.
  • Metryki na poziomie zadań (edycja i zachowanie): podsumowanie metryk ewaluacyjnych Microsoft Foundry pokazuje, że GPT-Image-1.5 osiąga niemal perfekcyjny sukces modyfikacji binarnej (100% w jednoturowym BinaryEval) oraz wysokie wyniki zachowania twarzy (około 90% w miarach AuraFace) w ich tabeli porównawczej względem konkurentów i wcześniejszych modeli OpenAI. Metryki te lokują GPT-Image-1.5 przed niektórymi rywalami w zakresie zachowania i wierności edycji.

GPT Image 1.5

Jak GPT-Image-1.5 wypada na tle konkurencji

  • W porównaniu z GPT Image 1 (poprzednia generacja OpenAI): szybszy (do 4×), tańszy (ok. 20% niższy koszt IO obrazów) i z lepszą wiernością edycji — ukierunkowany na przejście z „prototypu/dema” do „produkcyjnych” przepływów obrazowych.
  • W porównaniu z modelami obrazowymi Google Nano Banana Pro / rodziną Gemini 3: GPT-Image-1.5 i Google Nano Banana Pro / Gemini 3 to bliscy rywale — każdy ma przewagi w innych klasach promptów. Komunikacja OpenAI akcentuje wierność edycji i szybkość iteracji; oferta Google była chwalona za studyjny realizm w niektórych przykładach.
  • W porównaniu z Qwen Image i innymi modelami otwartymi/zamkniętymi: GPT-Image-1.5 przewyższa Qwen Image w kilku metrykach edycji i zachowania w ewaluacjach jednoturowych, lecz różnice się zmniejszają w scenariuszach wieloturowych lub innych testach domenowych.

Gdzie GPT-Image-1.5 sprawdza się najlepiej

  • Obrazowanie produktów e‑commerce: masowe warianty, podmiany tła, spójne katalogi produktów z jednego zdjęcia (zachowanie marki/logo).
  • Produkcja zasobów kreatywnych i marketingowych: szybkie iteracje koncepcji, fotorealistyczne makiety, kontrolowane transfery stylu.
  • Retusz zdjęć i procesy redakcyjne: realistyczne przymiarki ubrań/fryzur, selektywny retusz z zachowaniem tożsamości i oświetlenia.
  • Integracja z narzędziami projektowymi: wpięcie w platformy projektowe lub CMS dla wariantów obrazów na żądanie (regulatory wierności pomagają kontrolować koszty).
  • Wielostopniowe potoki kompozycji: wieloobrazowe wejścia pozwalają na komponowanie i generowanie referencyjne dla złożonych scen.

Jak uzyskać dostęp do API GPT Image 1.5

Krok 1: Zarejestruj klucz API

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się. Zaloguj się do swojej konsoli CometAPI. Uzyskaj poświadczenie dostępu — klucz API interfejsu. Kliknij „Add Token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.

Krok 2: Wyślij żądania do API GPT Image 1.5

Wybierz endpoint „gpt-image-1.5”, aby wysłać żądanie do API i ustaw ciało żądania. Metoda żądania i body są dostępne w dokumentacji API na naszej stronie. Nasza witryna udostępnia także test w Apifox dla wygody. Zamień <YOUR_API_KEY> na rzeczywisty klucz CometAPI z Twojego konta. bazowy URL to Images (https://api.cometapi.com/v1/images/generations) oraz [Image Editing]

Wstaw swoje pytanie lub prośbę do pola content — to na nią odpowie model. Przetwórz odpowiedź API, aby uzyskać wygenerowany wynik.

Krok 3: Pobierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowany wynik. Po przetworzeniu API odpowiada statusem zadania i danymi wyjściowymi.

Zobacz także Gemini 3 Pro Preview API

Najczęściej zadawane pytania

How fast is GPT Image 1.5 compared to GPT Image 1?

GPT Image 1.5 delivers up to 4× speed improvements over GPT Image 1, significantly reducing latency for iterative creative workflows.

Does GPT Image 1.5 support multi-turn conversational editing?

Yes, through the Responses API, GPT Image 1.5 supports multi-turn editing workflows where you can iteratively refine images by providing follow-up instructions while preserving context.

What resolutions and quality settings does GPT Image 1.5 support?

GPT Image 1.5 supports 1024×1024 (square), 1536×1024 (landscape), and 1024×1536 (portrait). Quality options include low, medium, high, and auto.

Can GPT Image 1.5 use multiple reference images for compositing?

Yes, GPT Image 1.5 accepts multiple input images for compositing and style reference. The first 5 images are preserved with higher fidelity when using high input_fidelity mode.

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

GPT Image 1.5 emphasizes editing fidelity and iteration speed, while Nano Banana Pro is praised for studio realism. Both are closely competitive—choose based on your workflow needs.

Does GPT Image 1.5 support transparent backgrounds?

Yes, set the background parameter to 'transparent' with PNG or WebP output formats. Transparency works best at medium or high quality settings.

What is the maximum text prompt length for GPT Image 1.5?

GPT Image 1.5 accepts prompts up to 32,000 characters, enabling highly detailed and constrained instructions for complex image generation tasks.

Funkcje dla GPT Image 1.5

Poznaj kluczowe funkcje GPT Image 1.5, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla GPT Image 1.5

Poznaj konkurencyjne ceny dla GPT Image 1.5, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak GPT Image 1.5 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$6.4/M
Wyjście:$25.6/M
Wejście:$8/M
Wyjście:$32/M
-20%

Przykładowy kod i API dla GPT Image 1.5

Interfejs API gpt-image-1.5 to wielomodalny punkt końcowy modelu obrazowego, który przyjmuje jeden lub więcej obrazów wejściowych (identyfikatory plików lub bajty) oraz polecenie tekstowe i zwraca wygenerowane lub edytowane obrazy. Obsługuje:
Python
JavaScript
Curl
import base64
import os
from openai import OpenAI

# Set your API key if not set globally
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# Create output/ folder
folder_path = "output"
os.makedirs(folder_path, exist_ok=True)

# Generate the image using gpt-image-1.5
result = client.images.generate(
    model="gpt-image-1.5",
    prompt="A cute baby sea otter",
    n=1,
    size="1024x1024"
)

# Save the image to a file
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open(os.path.join(folder_path, "gpt-image-1.5-output.png"), "wb") as f:
    f.write(image_bytes)

print("Image saved to: output/gpt-image-1.5-output.png")

Wersje modelu GPT Image 1.5

Powody, dla których GPT Image 1.5 posiada wiele migawek, mogą obejmować takie czynniki jak: różnice w wynikach po aktualizacjach wymagające starszych migawek dla zachowania spójności, zapewnienie programistom okresu przejściowego na adaptację i migrację, oraz różne migawki odpowiadające globalnym lub regionalnym punktom końcowym w celu optymalizacji doświadczenia użytkownika. Aby poznać szczegółowe różnice między wersjami, zapoznaj się z oficjalną dokumentacją.
version
gpt-image-1.5
gpt-image-1.5-2025-12-16

Więcej modeli