API Runway/gen4_image

gen4_image est le modèle phare de génération d'images multimodales de Runway dans la famille Gen-4 qui prend en charge génération assistée plus références visuelles (vous pouvez « @mentionner » les images de référence) pour produire des sorties hautement contrôlables et stylistiquement cohérentes pour les pipelines d'images et d'images→vidéo.

Introduction — quoi Image Gen-4 is

gen4_image est la famille de modèles génératifs visuels de quatrième génération de Runway, conçue pour prendre invites textuelles + références visuelles et produire des images fixes haute fidélité ou des cadres prêts à être utilisés sur les supports qui préservent identité et Catégorie sous tous les angles et éclairages. Ce modèle est présenté dans le cadre d'une suite Gen-4 plus large (comprenant des variantes vidéo telles que gen4_turbo) et est explicitement conçu pour production créative — par exemple, rendu cohérent des personnages, photographie de produits à grande échelle, essai virtuel et génération d'éléments de jeu.

Fonctionnalités

Génération basée sur des références (1 à 3 références). Utilisez jusqu'à trois images de référence afin que le modèle puisse préserver son identité, son style ou son emplacement tout en transformant la pose, l'éclairage, l'arrière-plan, etc.
Haute fidélité visuelle (sorties prêtes pour la production). Les sorties visent une haute résolution (options 1080p disponibles) avec des détails forts et un contrôle stylistique.
Identité et cohérence de la scène. Conçu pour conserver le(s) même(s) personnage(s) ou environnement cohérent(s) sur plusieurs générations, ce qui est utile pour les visuels multi-plans ou les ressources centrées sur les personnages.
Invites multimodales (texte + images). Combinez des instructions en langage naturel avec des images de référence pour orienter la composition, l'ambiance, les vêtements, l'angle de la caméra, etc.
Image → image plus texte → flux de travail image. Fonctionne comme image à image (édition/transformation) et comme texte à image en utilisant des références pour maintenir la continuité.
Niveau de performance (Turbo) disponible. Une variante « Gen-4 Image Turbo » échange coût et vitesse (par exemple, environ 2.5 fois plus rapide) tout en conservant les fonctionnalités axées sur les références.
Contrôles et reproductibilité. Les options API typiques incluent les préréglages de rapport hauteur/largeur, la résolution (720p/1080p), la graine pour la reproductibilité et les balises de référence pour pointer vers des entrées spécifiques.

Détails techniques

Entrées : Texte/Image

Sorties : Image(s)

flux de travail :

Fournitures pour utilisateurs: invite de texte + 0 à 3 images de référence (et masques facultatifs, images clés, instructions de mouvement de caméra).
Prétraiter: les références sont normalisées et codées ; le texte est tokenisé. Les intégrations d'identité et de style sont extraites et mises en cache pour être réutilisées.
Conditionnement: les textes et les références incorporés sont fusionnés dans la structure multimodale ; des signaux de contrôle optionnels (pose, profondeur, masque) sont attachés.
Échantillonnage / débruitage: le décodeur exécute des itérations de débruitage (étapes de diffusion) produisant une image (ou une séquence d'images pour la vidéo).

gen4_image — limites concrètes

Cas limites temporels/de mouvement. Les réviseurs et les créateurs signalent des artefacts de mouvement occasionnels, une dynamique temporelle étrange (problèmes au début/à la fin des clips générés) et des échecs sur des chorégraphies multi-acteurs très complexes — testez avec vos scènes cibles.

Calcul, coût et mise en file d'attente. La génération d'images et de vidéos de haute qualité requiert une grande puissance GPU ; les utilisateurs signalent des temps d'attente et un coût par rendu qui peuvent être importants pour la production de masse. Planifiez votre budget et votre débit en conséquence.

Compromis créatifs vs modèles purement artistiques. La force de Gen-4 réside dans sa cohérence ; si vous avez besoin de résultats esthétiques hautement stylisés, picturaux ou « surprenants », Midjourney ou les points de contrôle SDXL réglés peuvent produire des directions artistiques préférées.

Cas d'utilisation canoniques

Pré-production et storyboard : créez rapidement des variantes de personnages/scènes cohérentes en termes de style à partir de photos de référence.
Marketing et génération de contenu : Production rapide d'images héroïques, de clips sociaux animés et de supports de campagne avec des personnages de marque cohérents. (Runway cite des exemples d'entreprises, notamment des visites guidées et des clips musicaux.)
Prototypage de jeux/actifs et essai virtuel : générer plusieurs angles de caméra, variantes de tenues et concepts d'environnement à partir d'un petit ensemble de références.

Comparaison avec d'autres modèles

gen4_image → meilleur quand tu as besoin cohérence de référence / d'identité (un seul personnage ou objet conservé identique sur toutes les prises de vue) et quand vous le souhaitez image→vidéo et pipelines multi-coups.
DALL·E 3 → meilleur pour une fidélité d'image précise et un flux d'édition conversationnel piloté par ChatGPT ainsi qu'un travail de sécurité/provenance intégré.
SDXL (famille de diffusion stable) → meilleur lorsque vous souhaitez des modèles ouverts, un réglage précis local/personnalisé et un déploiement flexible en termes de coûts.
À mi-parcours → meilleur pour des rendus hautement stylisés et artistiquement agréables et des préréglages puissants pilotés par la communauté / des commandes de « stylisation ».
Modèles Runway Gen-4 vs. ByteDance Seedream 4.0 / Google « Nano Banana » : les lancements récents de concurrents (par exemple, Seedream 4.0) mettent l'accent rendu ultra-rapide et gestion multi-références destiné aux créateurs commerciaux ; l'avantage de Runway est un pipeline image→vidéo étroitement intégré et des contrôles orientés production ainsi qu'un écosystème API et SDK mature.

Comment appeler gen4_image API de CometAPI


Prix	$0.32000

Étapes requises

Se connecter à cometapi.comSi vous n'êtes pas encore notre utilisateur, veuillez d'abord vous inscrire
Obtenez la clé API d'accès à l'interface. Cliquez sur « Ajouter un jeton » au niveau du jeton API dans l'espace personnel, récupérez la clé : sk-xxxxx et validez.
Obtenez l'URL de ce site : https://api.cometapi.com/

Utiliser la méthode

Sélectionnez le point de terminaison « gen4_image » pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Notre site web propose également un test Apifox pour plus de commodité.
Remplacer avec votre clé CometAPI réelle de votre compte.
Insérez votre question ou demande dans le champ de contenu : c'est à cela que le modèle répondra.
Traitez la réponse de l'API pour obtenir la réponse générée.

CometAPI fournit une API REST entièrement compatible, pour une migration fluide. Informations clés API doc:

Endpoint: https://api.cometapi.com/runwayml/v1/text_to_image
Paramètre de modèle: gen4_image
Authentification: Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \  
--header 'X-Runway-Version: 2024-11-06' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"promptText": "cat",  
"ratio": "1920:1080",  
"seed": 4294967295,  
"model": "gen4_image",  
"referenceImages": ,  
"contentModeration": {  
"publicFigureThreshold": "auto"  
}  
}'

Voir aussi
Piste/Acte_deux