Najważniejsze funkcje
- Generowanie tekst→obraz: przekształca prompty w języku naturalnym w obrazy, z dobrą zgodnością z instrukcjami.
- Edycja obrazów / inpainting: przyjmuje obrazy referencyjne i maski do wykonywania ukierunkowanych edycji.
- Zoptymalizowana kosztowo konstrukcja („mini”): mniejszy model, który według OpenAI i obserwatorów jest znacznie tańszy na obraz niż duży model (komunikaty OpenAI/DevDay i wczesne raporty wskazują na koszt niższy o ~80%).
- Elastyczne ustawienia wyjścia: obsługuje rozmiar, format wyjściowy (JPEG/PNG/WEBP), kompresję oraz ustawienie jakości (low/medium/high/auto w cookbooku).
Szczegóły techniczne (architektura i możliwości)
- Rodzina modeli i wejście/wyjście: należy do rodziny gpt-image-1; przyjmuje prompty tekstowe oraz obrazy wejściowe (do edycji) i zwraca wygenerowane obrazy. Parametry quality/size kontrolują rozdzielczość (typowe maksimum w tej rodzinie to ~1536×1024 — dokładne obsługiwane rozmiary sprawdź w dokumentacji).
- Kompromisy operacyjne: zaprojektowany jako model o mniejszym rozmiarze — wymienia część najwyższej jakości obrazu na większą przepustowość i niższy koszt, zachowując solidne podążanie za promptami i funkcje edycji.
- Bezpieczeństwo i metadane: działa zgodnie z zasadami bezpieczeństwa OpenAI dla obrazów i osadza opcje metadanych C2PA dla potwierdzenia pochodzenia, gdy są dostępne.
Wejścia i wyjścia — standardowy sposób użycia obejmuje:
- Prompt tekstowy (string) do wygenerowania nowego obrazu.
- Obraz + maska do wykonywania ukierunkowanych edycji/inpaintingu.
- Obrazy referencyjne do kontrolowania stylu lub kompozycji.
Są one udostępniane przez Images API (nazwa modelugpt-image-1-mini).
Ograniczenia
- Niższa maksymalna jakość: w porównaniu z dużym modelem gpt-image-1, wersja mini może tracić część mikroszczegółów i najwyższego poziomu fotorealizmu (to oczekiwany kompromis kosztowy).
- Renderowanie tekstu i drobne detale: jak wiele modeli obrazowych, może mieć trudności z małym czytelnym tekstem, gęstymi wykresami lub bardzo drobnymi teksturami; w takich przypadkach należy liczyć się z post-processingiem albo użyciem modeli o większych możliwościach.
- Zakres edycji: funkcje edycji obrazów/inpaintingu są dostępne, ale mogą występować pewne ograniczenia edycyjne względem interaktywnych narzędzi webowych ChatGPT — edycje są skuteczne w wielu zadaniach, lecz mogą wymagać iteracyjnego dopracowania.
- Ograniczenia bezpieczeństwa i polityk: wyniki podlegają zasadom moderacji/bezpieczeństwa OpenAI (treści eksplicytne, ograniczenia dotyczące treści chronionych prawem autorskim, niedozwolone wyniki). Deweloperzy mogą kontrolować czułość moderacji za pomocą parametrów API, jeśli są udostępnione.
Zalecane przypadki użycia
- Generowanie treści na dużą skalę (materiały marketingowe, miniatury, szybki concept art) — gdy koszt na obraz jest najważniejszy.
- Programowa edycja / szablonowanie — masowy inpainting lub generowanie wariantów na podstawie zasobu bazowego.
- Aplikacje interaktywne z ograniczonym budżetem — interfejsy czatowe lub zintegrowane narzędzia projektowe, gdzie szybkość odpowiedzi i koszt są ważniejsze niż absolutnie najwyższa jakość.
- Prototypowanie i generowanie obrazów do testów A/B — szybkie tworzenie wielu kandydackich obrazów oraz selektywne skalowanie lub ponowne uruchamianie na większych modelach dla finalnych wersji.
- Jak uzyskać dostęp do API gpt-image-1-mini
Krok 1: Zarejestruj się, aby uzyskać klucz API
Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, najpierw się zarejestruj. Zaloguj się do swojej konsoli CometAPI. Pobierz poświadczenie dostępu, czyli klucz API interfejsu. Kliknij „Add Token” w sekcji tokenów API w centrum osobistym, uzyskaj klucz tokenu: sk-xxxxx i zatwierdź.
Krok 2: Wysyłanie żądań do API gpt-image-1-mini
Wybierz endpoint „\**gpt-image-1-mini \**”, aby wysłać żądanie API i ustawić body żądania. Metoda żądania i body żądania są dostępne w dokumentacji API na naszej stronie internetowej. Nasza strona internetowa udostępnia również testy Apifox dla Twojej wygody. Zamień <YOUR_API_KEY> na rzeczywisty klucz CometAPI ze swojego konta.
Wstaw swoje pytanie lub żądanie do pola content — na to model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
Krok 3: Pobierz i zweryfikuj wyniki
Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API zwraca status zadania i dane wyjściowe.