Multi-Image-Referenz mit Flux.1 Kontext: Eine Schritt-für-Schritt-Anleitung

Die „Multi-Image-Referenz“-Funktion von Flux.1 Kontext markiert einen Paradigmenwechsel in der Art und Weise, wie KI-gesteuerte Bildbearbeitungs- und -generierungs-Workflows mit mehreren visuellen Eingaben umgehen. Indem es den Entwicklern ermöglicht, mehrere Referenzbilder gleichzeitig einzuspeisen, kann Flux.1 Kontext Stil, Pose und Beleuchtung über alle Eingaben hinweg konsistent halten – und so einheitliche Stapelbearbeitungen, konsistente Stilübertragungen und komplexe Szenenkompositionen ermöglichen. Im Folgenden untersuchen wir die Grundlagen, neuesten Entwicklungen und Best Practices für die erfolgreiche Verarbeitung von Multi-Image-Referenzen mit Flux Kontext.

Was ist Flux.1 Kontext und warum verändert es die Bildbearbeitung?

Flux.1 Kontext stellt den neuesten Fortschritt in der multimodalen Bilderzeugung und -bearbeitung dar und basiert auf der Flux-Reihe flussbasierter Transformatormodelle. Die von Black Forest Labs entwickelten Flux-Modelle basieren auf gleichgerichteten Flusstransformatorblöcken und skalieren auf bis zu 12 Milliarden Parameter, um hochpräzise Text-zu-Bild-Synthese und -Bearbeitung zu ermöglichen. Im Gegensatz zu herkömmlichen Text-zu-Bild-Pipelines erweitert Flux.1 Kontext diese Grundlagen, indem es im Zusammenhang Bearbeitung: Benutzer können nicht nur Textaufforderungen, sondern auch ein oder mehrere Referenzbilder bereitstellen, sodass das Modell visuelle Konzepte semantisch verstehen und auf neue Ausgaben anwenden kann.

Die Bedeutung von Flux.1 Kontext liegt in seiner einheitlichen Architektur – genannt Generative Flussanpassung– das beides handhabt lokale Änderungen (z. B. Ändern der Farbe eines Objekts in einem Foto) und globale Transformationen (z. B. das Generieren neuer Ansichten einer Szene) innerhalb eines einzigen Modells. Dadurch entfällt die Notwendigkeit separater Bearbeitungs- und Generierungsmodelle, was Arbeitsabläufe rationalisiert und den Kontextwechsel für Kreativprofis reduziert.

Welche verschiedenen Flux.1 Kontext-Varianten gibt es?

Flux.1 Kontext ist in drei Hauptvarianten erhältlich, die jeweils unterschiedliche Anwendungsfälle und Lizenzmodelle abdecken:

Flux.1Kontext Dev: Ein im Quellcode verfügbares Modell unter einer nichtkommerziellen Lizenz, das in erster Linie für Experimente und die Integration in lokale GPU-basierte Arbeitsabläufe konzipiert ist.
Flux.1 Kontext Pro: Ein proprietäres, über API zugängliches Modell, das branchenübliche Leistung, konsistente Ergebnisse und kommerziellen Support bietet.
Flux.1 Kontext Max: Die Premiumstufe mit verbesserter Typografieverarbeitung, maximalem Durchsatz und verbesserter Edge-Case-Genauigkeit.

Zusammen stellen diese Varianten sicher, dass sowohl Forscher als auch Unternehmensbenutzer die multimodale Bearbeitung nutzen können, unabhängig davon, ob sie Wert auf Anpassbarkeit oder Produktionsstabilität legen.

Was ist „Multi-Image-Referenz“ im Flux.1-Kontext?

Bei der Multi-Image-Referenzierung werden einem KI-Modell mehrere Beispielbilder bereitgestellt, damit es gemeinsame Merkmale – wie Stil, Beleuchtung oder Motividentität – ableiten und konsistente Bearbeitungen vornehmen oder neue Inhalte generieren kann, die diese Attribute über alle Eingaben hinweg berücksichtigen. Im Gegensatz zur Einzelbildkonditionierung ermöglicht dieser Ansatz den Entwicklern, Einheitlichkeit in Batch-Ausgaben zu erzwingen, manuelle Nachbesserungen zu reduzieren und visuelle Kohärenz zu gewährleisten.

Wie implementiert Flux.1Kontext die Referenzierung mehrerer Bilder?

Der Kern der Multi-Image-Fähigkeit von Flux.1 Kontext ist seine Durchflussanpassung Framework. Anstatt jedes Referenzbild isoliert zu behandeln, verknüpft Flux.1 Kontext Bildeinbettungen und Texttoken zu einer einheitlichen Sequenz. Ein transformatorbasierter Flow-Matcher lernt dann, diese Einbettungen im latenten Raum auszurichten und zusammenzuführen, wodurch sowohl individuelle als auch gemeinsame visuelle Semantik effektiv erfasst wird.

Herkömmliche Multireferenz-Ansätze mitteln häufig Einbettungen oder basieren auf starker Feinabstimmung (z. B. LoRA). Der Flow-Matching-Ansatz von Flux.1 Kontext:

Erhält die Konsistenz über mehrere Runden hinweg, wobei Objektidentitäten und -stile erhalten bleiben.
Reduziert den Abbau, was bei iterativen Bearbeitungspipelines üblich ist.
Unterstützt interaktive Tarife, wodurch Vorschauen in Anwendungen nahezu in Echtzeit möglich sind.

Welche Workflows ermöglichen die Multi-Image-Integration mit Flux.1 Kontext?

Das Design von Flux.1 Kontext gewährleistet eine nahtlose Integration sowohl in GUI-basierte als auch in codegesteuerte Pipelines:

ComfyUI-Integration

Mithilfe der nodebasierten Schnittstelle von ComfyUI können Benutzer mehrere Referenzbilder direkt in einen dedizierten „Flux.1 Kontext Dev“-Knoten einspeisen. Dieser Knoten akzeptiert eine Liste von Bildern zusammen mit einer Texteingabeaufforderung und gibt ein einheitliches Diffusionsdiagramm aus. Es gibt zwei Hauptmodi:

Verkettungsmodus: Fügt Einbettungen sequentiell an, ideal für einfache zusammengesetzte Aufgaben.
Cross-Attention-Modus: Verschachtelt Aufmerksamkeitskarten für eine tiefere semantische Mischung, vorzugsweise für komplexe Stilzusammenführungen.
Schnelle Tricks – wie die Angabe von Gewichten pro Bild und Nahtüberblendungstoken – helfen, Farbverschiebungen und sichtbare Übergänge zu vermeiden ().

API-First-Ansatz (Replikation, CometAPI)

Entwickler können über RESTful-Endpunkte mit Flux.1 Kontext Max oder Pro interagieren. Das API-Schema umfasst typischerweise:

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

Playground- und SDK-Unterstützung in JavaScript, Python und Go machen es einfach, die Mehrbildkonditionierung in Web- oder mobile Apps zu integrieren.

Multi-Image-Referenz mit der Flux.Kontext-API von CometAPI

Nachfolgend finden Sie eine Schritt-für-Schritt-Anleitung zum Senden von Referenzanfragen mit mehreren Bildern an die FLUX 1 Kontext API. Sie behandelt Authentifizierung, Anforderungsaufbau (mit zwei Referenzbildern), Ergebnisverarbeitung und Best Practices.

1. Wie authentifiziere ich mich mit der FLUX.1 Kontext API?

Wenn Sie die von Replicate gehosteten FLUX 1 Kontext-Apps verwenden, melden Sie sich bei Replicate → Ihr Konto → API-Token an.

Erhalten Sie Ihren API-Schlüssel: Registrieren und Anmelden CometAPI, rufen Sie Ihr Inhabertoken von Ihrem Dashboard ab.

Fügen Sie den Schlüssel in Ihren Header ein Authorization: Token YOUR_API_TOKEN oder für APIs im Bearer-Stil: Authorization: Bearer YOUR_API_TOKEN

2. Welcher Endpunkt verarbeitet die Fusion zweier Bilder?

Für das Modell „Zwei Bilder kombinieren“ auf Replicate (flux-kontext-apps/multi-image-kontext-pro), senden Sie Ihre POSTs an:

https://api.replicate.com/v1/predictions

Für die verwaltete API von CometAPI lautet sie:

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

Hinweis: In CometAPI unterstützt nur Flux-Kontext mehrere Bildreferenzen. Um die folgenden verschiedenen Modelle aufzurufen, müssen Sie den Modellnamen nach dem Modell in der URL ändern:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

Beide Endpunkte erwarten eine JSON-Nutzlast mit prompt, input_image_1 und input_image_2 .

3. Wie sieht die Nutzlast der Anfrage aus?

Unten ist das minimale JSON-Schema wie dokumentiert für multi-image-kontext-pro:

Feld	Typ	Beschreibung
`prompt`	Schnur	Textbeschreibung zum Kombinieren oder Transformieren der beiden Eingabebilder
`input_image_1`	Schnur	URL oder Base64-Daten-URI des ersten Bildes (JPEG/PNG/WebP/GIF)
`input_image_2`	Schnur	URL oder Base64-Daten-URI des zweiten Bildes
`aspect_ratio`	enum	(optional) `match_input`, `1:1`, `16:9`usw. Standardmäßig `match_input`

TIPP: Sie können öffentlich gehostete URLs oder Inline-Base64-Daten-URIs übergeben – Base64 ist praktisch für einmalige Skripte, kann aber sehr große Dateien verlangsamen.

CometAPI unterstützt jetzt das Hochladen von bis zu 4 Referenzbildern (zuvor wurde nur ein einzelnes Bild unterstützt)

4. Wie sende ich eine Anfrage für mehrere Bilder mit cURL?

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'

Ersetzen Sie die version Feld mit der neuesten Modellversions-ID von Replicate.
Tauschen Sie auf CometAPI ihre /predict Endpunkt und Verwendung "file": { ... } gemäß ihren Dokumenten.

5. Wie kann ich dasselbe in Python tun?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)

Einblick in das data („Starten“ → „Verarbeiten“ → „Erfolgreich“), um abzufragen, bis es bereit ist.

6. Wie gehe ich mit dem Ergebnis um und zeige es an?

Wenn die Vorhersage abgeschlossen ist, gibt das Modell eine URI zum fusionierten Bild zurück:

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

Rufen Sie diese URL ab (oder betten Sie sie direkt in Ihre Anwendung/Benutzeroberfläche ein).

Wie lassen sich die Ergebnisse maximieren: Best Practices?

Welche Referenzbilder sollten Sie auswählen?

Homogenität: Wählen Sie Bilder mit einheitlichem Stil, Motivmaßstab und Beleuchtung für optimale Einheitlichkeit.
Vielfalt für den Stiltransfer: Wenn Sie einen neuen Stil anwenden, fügen Sie eine Vielzahl von Beispielen ein, die die gesamte Bandbreite der gewünschten Effekte zeigen.
Hochauflösende Eingänge: Referenzen mit besserer Qualität führen zu schärferen generativen Ergebnissen, insbesondere bei feinen Details wie Texturen und Gesichtszügen.
Bildgrößenbeschränkungen: Halten Sie jede Eingabe unter 10 MB (Replikationsstandard), um Zeitüberschreitungen zu vermeiden.
Formate: JPEG, PNG, GIF und WebP funktionieren am besten; vermeiden Sie exotische Formate.

Schnelles Engineering:

Seien Sie deutlich: „Gesichtsmerkmale aus Bild 1 beibehalten“
Gewichtung verwenden: „Bild1 Priorität hoch, Bild2 Priorität niedrig“
Ratenbegrenzungen: Überprüfen Sie die QPS-Grenzen Ihres Plans und führen Sie Batch-Anfragen sorgfältig durch.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen FLUX.1 Kontext (Modell: flux-kontext-pro ; flux-kontext-max) durch CometAPIDie neuesten Modellversionen sind zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Fazit

Die Multi-Image-Referenzierung mit FLUX 1 Kontext stellt einen Paradigmenwechsel in generativen KI-Workflows dar. Durch die Zusammenführung von Text und mehreren visuellen Eingaben in einer einzigen Flow-Matching-Architektur können Entwickler komplexe, konsistente Ergebnisse in weniger Schritten erzielen. Jüngste Durchbrüche – vom Image Stitch Node in ComfyUI über Quantisierungsoptimierungen mit geringer Präzision bis hin zur CometAPI-API – haben die Zugänglichkeit, Leistung und das kreative Potenzial der Multi-Image-Verarbeitung dramatisch erweitert.