Home/Models/OpenAI/GPT Image 1.5
O

GPT Image 1.5

Eingabe:$6.4/M
Ausgabe:$25.6/M
GPT-Image-1.5 ist OpenAIs Bildmodell in der GPT Image-Familie . Es ist ein nativ multimodales GPT-Modell, das dafür entwickelt wurde, aus Textprompts Bilder zu generieren und hochpräzise Bearbeitungen von Eingabebildern vorzunehmen, wobei es den Nutzeranweisungen genau folgt.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API
Versionen

Was ist die GPT-Image-1.5-API?

GPT-Image-1.5 ist das neueste Mitglied der GPT Image-Familie von OpenAI und das Modell hinter der überarbeiteten Images-Erfahrung von ChatGPT. Es wurde entwickelt, um die Bildgenerierung von neuartigen Experimenten zu produktionsreifen Kreativtools weiterzuentwickeln: höherer Fotorealismus, feinere Kontrolle für iterative Bearbeitungen und schnellere Inferenz zur Unterstützung interaktiver und Enterprise-Workflows.

Die gpt-image-1.5 API ist ein multimodaler Bildmodell-Endpunkt, der eine oder mehrere Bildeingaben (Datei-IDs oder Bytes) plus einen Textprompt akzeptiert und generierte oder bearbeitete Bilder zurückgibt. Sie unterstützt:

  • Text-zu-Bild-Generierung (Erstellung aus Prompt),
  • Bildbearbeitung/Inpainting/Compositing (Anwenden von Anweisungen auf vorhandene Bilder, mehrere Bildeingaben erlaubt) und
  • Iterative, mehrstufige Bearbeitungs-Workflows über die Responses API (ermöglicht „Tweak-&-Iterate“-UIs).

Die API behandelt Bildprompts anders als die alten DALL·E-Grenzen: GPT-Bildmodelle akzeptieren deutlich längere Textprompts (die 32k-Zeichen-Richtlinie), wodurch komplexe, vorgabenreiche Anweisungen machbar werden.

Hauptfunktionen (praktisch)

  • Verbesserte Bearbeitbarkeit/Konsistenz über mehrere Iterationen: bewahrt Charaktererscheinung, Beleuchtung und zentrale visuelle Attribute über iterative Bearbeitungen hinweg. Dadurch wird „gleiches Modell, wiederholte Bearbeitungen“ zuverlässiger für Workflows wie Produktkataloge oder Marken-Assets.
  • Schnellerer Durchsatz — 4× Geschwindigkeitsverbesserungen gegenüber GPT Image 1, mit dem Ziel, die Latenz für iterative Kreativ-Workflows zu senken.
  • Kostenoptimierungen — Ein-/Ausgabe-Kosten für Bilder um etwa 20 % gegenüber GPT Image 1 reduziert, senkt die Iterationskosten pro Bild für Nutzer mit hohem Volumen.
  • Multi-Bild-Compositing & Stilreferenzierung — mehrere Referenzbilder akzeptieren, um Szenen zu komponieren oder Stil/Beleuchtung zu übertragen.
  • Regler für Qualität/Treue — API-Parameter, die Geschwindigkeit gegen Treue abwägen (niedrigere Qualität für Massengenerierung; höhere Qualität für Produktions-Assets).
  • Mehrstufige Bearbeitung/Integration der Responses API — ermöglicht schrittweise Workflows (Änderungen anfragen, dann „Tweaks vornehmen“ bei beibehaltenem Zustand).

Technische Fähigkeiten

  • Textprompt-Limit (Bildmodelle): bis zu 32,000 Zeichen (Hinweis: OpenAI dokumentiert dies als Textlängenfreigabe für GPT-Bildmodelle). Nutzen Sie dies für lange, vorgabenreiche Prompts.
  • Bildeingaben: akzeptiert File-IDs (bevorzugt für mehrstufige Abläufe) oder Rohbytes; mehrere Bilder können zum Compositing und als Referenz bereitgestellt werden.
  • Ausgaben: PNG/JPEG oder plattformstandardmäßige Bildartefakte, die von der API zurückgegeben werden (oder als Anhänge innerhalb von ChatGPT). Ausgaben können mehrere Kandidatenbilder enthalten und iterative Anfragen zur Verfeinerung unterstützen.
  • Generierungsmodi: Text-zu-Bild, Bildbearbeitung (Inpaint/Erweitern mit Anweisungen) und Varianten. Mehrstufige Bearbeitung unterstützt Anweisungen im Stil „add/subtract/combine“.
  • Anweisungsbewusste Bearbeitung: Modelle sind auf Instruktions-Treue optimiert (Erhalt festgelegter Invarianten wie „Logo nicht ändern“, „Pose und Beleuchtung beibehalten“). Prompt-Engineering-Muster (explizite Invarianten in jeder Iteration wiederholen) reduzieren semantische Drift.

Benchmark-Leistung

  • Platzierung in Bestenlisten: Ein aggregierter Bericht nannte GPT Image 1.5 als führend in Text-zu-Bild-Rankings mit ~1264 Punkten auf einer Artificial Analysis-Bestenliste, vor dem nächstplatzierten Modell mit messbarem Vorsprung.
  • Metriken auf Aufgabenebene (Bearbeitung & Erhalt): Eine Microsoft Foundry-Zusammenfassung von Evaluationsmetriken zeigt, dass GPT-Image-1.5 nahezu perfekte binäre Änderungs-Erfolgsraten erzielt (100 % bei einem Single-Turn-BinaryEval) und starke Gesichtserhaltungswerte (rund 90 % bei AuraFace-Messungen) in ihrer Vergleichstabelle gegenüber Wettbewerbern und früheren OpenAI-Modellen. Diese vergleichenden Metriken positionieren GPT-Image-1.5 bei Erhalt und Bearbeitungstreue vor einigen Rivalen.

GPT Image 1.5

Vergleich von GPT-Image-1.5 mit Wettbewerbern

  • Im Vergleich zu GPT Image 1 (vorherige OpenAI-Generation): schneller (bis zu 4×), günstiger (~20 % geringere Bild-I/O-Kosten) und höhere Bearbeitungstreue — ausgerichtet auf den Übergang von „Prototyp/Demo“ zu „produktionsfreundlichen“ Bild-Workflows.
  • Im Vergleich zu Googles Nano Banana Pro/Gemini-Bildmodellen: GPT-Image-1.5 und Googles Nano Banana Pro/Gemini 3-Familie als enge Rivalen — jeweils mit Stärken in unterschiedlichen Prompt-Klassen. OpenAIs Messaging betont Bearbeitungstreue und Iterationsgeschwindigkeit; Googles Angebot wurde in einigen Beispielen für Studio-Realismus gelobt.
  • Im Vergleich zu Qwen Image und anderen offenen/geschlossenen Modellen: GPT-Image-1.5 übertrifft Qwen Image bei mehreren Bearbeitungs- und Erhaltungsmetriken in Single-Turn-Evaluierungen, jedoch verringern sich die Unterschiede bei Multi-Turn- oder anderen domänenspezifischen Tests.

Worin GPT-Image-1.5 stark ist

  • E-Commerce-Produktabbildung: Massenvarianten, Hintergrundwechsel, konsistente Produktkataloge aus einem einzigen Foto (Marken-/Logoerhalt).
  • Produktion kreativer und Marketing-Assets: schnelle Konzeptiterationen, fotorealistische Mockups, kontrollierte Stilübertragungen.
  • Fotoretusche und Editorial-Workflows: realistische Anproben von Kleidung/Frisuren, selektive Retusche bei Wahrung von Identität und Beleuchtung.
  • Integration in Design-Tools: Plug-in in Designplattformen oder CMS für On-Demand-Bildvarianten (Treue-Regler helfen bei der Kostenkontrolle).
  • Mehrschritt-Compositing-Pipelines: Mehrfache Bildeingaben ermöglichen Compositing und referenzbasierte Generierung für komplexe Szenen.

Zugriff auf die GPT Image 1.5-API

Schritt 1: Für einen API-Schlüssel registrieren

Melden Sie sich bei cometapi.com an. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst. Melden Sie sich in Ihrer CometAPI-Konsole an. Rufen Sie den Zugriffs-API-Schlüssel der Schnittstelle ab. Klicken Sie im persönlichen Zentrum beim API-Token auf „Add Token“, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.

Schritt 2: Anfragen an die GPT Image 1.5-API senden

Wählen Sie den „gpt-image-1.5“-Endpunkt, um die API-Anfrage zu senden, und setzen Sie den Request-Body. Anfragemethode und Request-Body entnehmen Sie der API-Dokumentation auf unserer Website. Unsere Website bietet auch Apifox-Tests zu Ihrer Bequemlichkeit. Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto. Basis-URL ist Images (https://api.cometapi.com/v1/images/generations) und [Image Editing]

Fügen Sie Ihre Frage oder Anforderung in das content-Feld ein — darauf antwortet das Modell. Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Schritt 3: Ergebnisse abrufen und überprüfen

Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten. Nach der Verarbeitung antwortet die API mit dem Aufgabenstatus und den Ausgabedaten.

Siehe auch Gemini 3 Pro Preview API

FAQ

How fast is GPT Image 1.5 compared to GPT Image 1?

GPT Image 1.5 delivers up to 4× speed improvements over GPT Image 1, significantly reducing latency for iterative creative workflows.

Does GPT Image 1.5 support multi-turn conversational editing?

Yes, through the Responses API, GPT Image 1.5 supports multi-turn editing workflows where you can iteratively refine images by providing follow-up instructions while preserving context.

What resolutions and quality settings does GPT Image 1.5 support?

GPT Image 1.5 supports 1024×1024 (square), 1536×1024 (landscape), and 1024×1536 (portrait). Quality options include low, medium, high, and auto.

Can GPT Image 1.5 use multiple reference images for compositing?

Yes, GPT Image 1.5 accepts multiple input images for compositing and style reference. The first 5 images are preserved with higher fidelity when using high input_fidelity mode.

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

GPT Image 1.5 emphasizes editing fidelity and iteration speed, while Nano Banana Pro is praised for studio realism. Both are closely competitive—choose based on your workflow needs.

Does GPT Image 1.5 support transparent backgrounds?

Yes, set the background parameter to 'transparent' with PNG or WebP output formats. Transparency works best at medium or high quality settings.

What is the maximum text prompt length for GPT Image 1.5?

GPT Image 1.5 accepts prompts up to 32,000 characters, enabling highly detailed and constrained instructions for complex image generation tasks.

Funktionen für GPT Image 1.5

Entdecken Sie die wichtigsten Funktionen von GPT Image 1.5, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für GPT Image 1.5

Entdecken Sie wettbewerbsfähige Preise für GPT Image 1.5, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie GPT Image 1.5 Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$6.4/M
Ausgabe:$25.6/M
Eingabe:$8/M
Ausgabe:$32/M
-20%

Beispielcode und API für GPT Image 1.5

Die gpt-image-1.5-API ist ein Endpunkt für ein multimodales Bildmodell, der eine oder mehrere Bildeingaben (Datei-IDs oder Bytes) sowie einen Textprompt akzeptiert und generierte oder bearbeitete Bilder zurückgibt. Sie unterstützt:
Python
JavaScript
Curl
import base64
import os
from openai import OpenAI

# Set your API key if not set globally
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# Create output/ folder
folder_path = "output"
os.makedirs(folder_path, exist_ok=True)

# Generate the image using gpt-image-1.5
result = client.images.generate(
    model="gpt-image-1.5",
    prompt="A cute baby sea otter",
    n=1,
    size="1024x1024"
)

# Save the image to a file
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open(os.path.join(folder_path, "gpt-image-1.5-output.png"), "wb") as f:
    f.write(image_bytes)

print("Image saved to: output/gpt-image-1.5-output.png")

Versionen von GPT Image 1.5

Der Grund, warum GPT Image 1.5 mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.
version
gpt-image-1.5
gpt-image-1.5-2025-12-16

Weitere Modelle