Référence multi-images avec Flux.1 Kontext : guide étape par étape

La fonctionnalité « référence multi-images » de Flux.1 Kontext représente une révolution dans la façon dont les workflows d'édition et de génération d'images pilotés par l'IA gèrent les multiples entrées visuelles. En permettant aux créateurs d'alimenter simultanément plusieurs images de référence, Flux.1 Kontext maintient la cohérence du style, de la pose et de l'éclairage sur toutes les entrées, permettant ainsi des retouches par lots unifiées, des transferts de style cohérents et des compositions de scènes complexes. Nous explorons ci-dessous les bases, les avancées récentes et les meilleures pratiques pour maîtriser le traitement de référence multi-images avec Flux Kontext.

Qu'est-ce que Flux.1 Kontext et pourquoi transforme-t-il l'édition d'images ?

Flux.1 Kontext représente la dernière avancée en matière de génération et d'édition d'images multimodales, basée sur la série Flux de modèles de transformation basés sur les flux. Développés par Black Forest Labs, les modèles Flux reposent sur des blocs de transformation de flux rectifiés, évoluant jusqu'à 12 milliards de paramètres pour offrir des capacités de synthèse et d'édition texte-image haute fidélité. Contrairement aux pipelines texte-image traditionnels, Flux.1 Kontext étend ces bases en permettant Dans le contexte édition : les utilisateurs peuvent fournir non seulement des invites de texte, mais également une ou plusieurs images de référence, permettant au modèle de comprendre sémantiquement les concepts visuels et de les appliquer à de nouvelles sorties.

L'importance de Flux.1 Kontext réside dans son architecture unifiée, baptisée correspondance de flux génératif—qui gère à la fois modifications locales (par exemple, changer la couleur d'un objet sur une photo) et transformations globales (par exemple, générer de nouvelles vues d'une scène) au sein d'un même modèle. Cela élimine le besoin de modèles d'édition et de génération distincts, rationalise les flux de travail et réduit les changements de contexte pour les créatifs.

Quelles sont les différentes variantes de Flux.1 Kontext ?

Flux.1 Kontext est disponible en trois variantes principales, chacune répondant à des cas d'utilisation et des modèles de licence distincts :

Flux.1Kontext Dev:Un modèle disponible en source sous une licence non commerciale, principalement conçu pour l'expérimentation et l'intégration dans des flux de travail locaux alimentés par GPU.
Flux.1 Kontext Pro:Un modèle propriétaire accessible par API offrant des performances de niveau industriel, des résultats cohérents et un support commercial.
Flux.1 Kontext Max:Le niveau premium avec une gestion typographique améliorée, un débit maximal et une fidélité améliorée des cas limites.

Ensemble, ces variantes garantissent que les chercheurs et les utilisateurs d’entreprise peuvent tirer parti de l’édition multimodale, qu’ils privilégient la personnalisation ou la stabilité de la production.

Qu'est-ce que la « référence multi-images » dans Flux.1 Kontext ?

La référence multi-images consiste à fournir plusieurs exemples d'images à un modèle d'IA afin qu'il puisse en déduire des caractéristiques communes (style, éclairage ou identité du sujet, par exemple) et appliquer des modifications cohérentes ou générer du contenu original respectant ces attributs pour toutes les entrées. Contrairement au conditionnement d'une seule image, cette approche permet aux créateurs d'assurer l'uniformité des résultats par lots, réduisant ainsi les retouches manuelles et garantissant la cohérence visuelle.

Comment Flux.1Kontext implémente-t-il la référence multi-images ?

Au cœur de la capacité multi-images de Flux.1 Kontext se trouve son correspondance de flux Cadre. Plutôt que de traiter chaque image de référence isolément, Flux.1 Kontext concatène les intégrations d'images et les jetons de texte en une séquence unifiée. Un outil de correspondance de flux basé sur un transformateur apprend ensuite à aligner et à fusionner ces intégrations dans l'espace latent, capturant ainsi efficacement la sémantique visuelle individuelle et conjointe.

Les approches multiréférences conventionnelles utilisent souvent une moyenne des intégrations ou s'appuient sur des réglages fins importants (par exemple, LoRA). Approche de correspondance de flux de Flux.1 Kontext :

Préserve la cohérence sur plusieurs tours, en conservant les identités et les styles des objets.
Réduit la dégradation, ce qui est courant dans les pipelines d’édition itératifs.
Prend en charge les tarifs interactifs, permettant des aperçus en temps quasi réel dans les applications.

Quels flux de travail permettent l'intégration multi-images avec Flux.1 Kontext ?

La conception de Flux.1 Kontext garantit une intégration transparente dans les pipelines basés sur l'interface graphique et pilotés par code :

Intégration ComfyUI

Grâce à l'interface nœud-type de ComfyUI, les utilisateurs peuvent alimenter plusieurs images de référence directement dans un nœud dédié « Flux.1 Kontext Dev ». Ce nœud accepte une liste d'images accompagnée d'une invite textuelle, générant ainsi un graphe de diffusion unifié. Deux modes principaux sont disponibles :

Mode de concaténation: Ajoute séquentiellement des incorporations, idéal pour les tâches composites simples.
Mode d'attention croisée: Entrelace les cartes d'attention pour un mélange sémantique plus profond, préférable pour les fusions de styles complexes.
Des astuces rapides, telles que la spécification de poids par image et de jetons de fusion de couture, aident à éviter les décalages de couleur et les jointures visibles ().

Approche API-First (Replicate, CometAPI)

Les développeurs peuvent interagir avec Flux.1 Kontext Max ou Pro via des points de terminaison RESTful. Le schéma de l'API comprend généralement :

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

La prise en charge de Playground et SDK dans JavaScript, Python et Go facilite l'intégration du conditionnement multi-images dans les applications Web ou mobiles.

Référence multi-images avec l'API Flux.Kontext de CometAPI

Vous trouverez ci-dessous un guide étape par étape pour soumettre des requêtes de référence multi-images à l'API FLUX 1 Kontext. Il couvre l'authentification, la construction de requêtes (avec deux images de référence), la gestion des résultats et les bonnes pratiques.

1. Comment m'authentifier avec l'API FLUX.1 Kontext ?

Si vous utilisez les applications FLUX 1 Kontext hébergées par Replicate, connectez-vous à Replicate → votre compte → Jetons API.

Obtenez votre clé API: Inscrivez-vous et connectez-vous API Comet, récupérez votre jeton porteur depuis votre tableau de bord.

Inclure la clé dans votre en-tête Authorization: Token YOUR_API_TOKEN ou, pour les API de type porteur : Authorization: Bearer YOUR_API_TOKEN

2. Quel point de terminaison gère la fusion de deux images ?

Pour le modèle « combiner deux images » sur Replicate (flux-kontext-apps/multi-image-kontext-pro), envoyez vos POST à :

https://api.replicate.com/v1/predictions

Pour l'API gérée par CometAPI, ce sera :

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

Remarque : dans CometAPI, seul flux-kontext prend en charge plusieurs références d'image. Pour appeler les différents modèles suivants, vous devez changer le nom du modèle après le modèle dans l'URL :
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

Les deux points de terminaison attendent une charge utile JSON contenant prompt, input_image_1et input_image_2 .

3. À quoi ressemble la charge utile de la requête ?

Vous trouverez ci-dessous le schéma JSON minimal tel que documenté pour multi-image-kontext-pro:

Champ	Type	Description
`prompt`	string	Description textuelle expliquant comment combiner ou transformer les deux images d'entrée
`input_image_1`	string	URL ou URI de données Base64 de la première image (JPEG/PNG/WebP/GIF)
`input_image_2`	string	URL ou URI de données Base64 de la deuxième image
`aspect_ratio`	enum	(Optionnel) `match_input`, `1:1`, `16:9`, etc. La valeur par défaut est `match_input`

Astuce: Vous pouvez transmettre des URL hébergées publiquement ou des URI de données Base64 en ligne. Base64 est pratique pour les scripts ponctuels mais peut ralentir les fichiers très volumineux.

CometAPI prend désormais en charge le téléchargement jusqu'à 4 images de référence (auparavant, une seule image était prise en charge)

4. Comment envoyer une requête multi-images avec cURL ?

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'

Remplacez le version champ avec le dernier ID de version du modèle de Replicate.
Sur CometAPI, échangez leur /predict point final et utilisation "file": { ... } selon leurs documents.

5. Comment puis-je faire la même chose en Python ?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)

Vérifiez data (« démarrage » → « traitement » → « réussi ») pour interroger jusqu'à ce que vous soyez prêt.

6. Comment gérer et afficher le résultat ?

Une fois la prédiction terminée, le modèle renvoie un URI vers l'image fusionnée :

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

Récupérez cette URL (ou intégrez-la directement dans votre application/interface utilisateur).

Comment maximiser les résultats : les meilleures pratiques ?

Quelles images de référence devez-vous sélectionner ?

Homogénéité: Choisissez des images avec un style, une échelle de sujet et un éclairage cohérents pour une uniformité optimale.
La diversité au service du transfert de style:Lorsque vous appliquez un nouveau style, incluez une variété d’exemples illustrant la gamme complète des effets souhaités.
Entrées haute résolution:Des références de meilleure qualité produisent des sorties génératives plus nettes, en particulier pour les détails fins comme les textures et les traits du visage.
Limites de taille d'image : Gardez chaque entrée en dessous de 10 Mo (norme de réplication) pour éviter les délais d'attente.
Formats: JPEG, PNG, GIF et WebP fonctionnent mieux ; évitez les formats exotiques.

Ingénierie rapide :

Soyez explicite : « conserver les traits du visage de l’image 1 »
Utiliser la pondération : « image1 priorité élevée, image2 priorité faible »
Limites de débit : Vérifiez les limites QPS de votre forfait ; effectuez les demandes par lots avec soin.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Les développeurs peuvent accéder FLUX.1 Contexte (Modèle: flux-kontext-pro ; flux-kontext-max) à travers API CometLes dernières versions des modèles répertoriés sont celles en vigueur à la date de publication de l'article. Pour commencer, explorez les fonctionnalités du modèle dans la section cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Conclusion

Le référencement multi-images avec FLUX 1 Kontext représente une révolution dans les workflows d'IA générative. En unifiant le texte et les multiples entrées visuelles au sein d'une architecture unique de correspondance de flux, il permet aux créateurs d'obtenir des résultats complexes et cohérents en moins d'étapes. Les avancées récentes, allant du nœud Image Stitch de ComfyUI aux optimisations de quantification basse précision en passant par l'API CometAPI, ont considérablement amélioré l'accessibilité, les performances et le potentiel créatif du traitement multi-images.