API Runway/gen4_image

obraz_gen4 jest flagowym modelem firmy Runway do generowania obrazów multimodalnych w rodzinie Gen-4, który obsługuje generowanie podpowiedzi plus odniesienia wizualne (możesz używać funkcji @mention w odniesieniu do obrazów), aby tworzyć w pełni kontrolowane, stylistycznie spójne wyniki dla procesów przetwarzania obrazów i obrazów→wideo.

Wprowadzenie — co Obraz Gen-4 is

obraz_gen4 jest czwartą generacją rodziny modeli generatywnych firmy Runway, zaprojektowanych tak, aby podpowiedzi tekstowe + odniesienia wizualne i tworzyć wysokiej jakości nieruchome obrazy lub klatki gotowe do użycia na nośnikach, które zachowują tożsamość oraz styl pod różnymi kątami i oświetleniem. Model jest prezentowany jako część szerszego pakietu Gen-4 (obejmującego warianty wideo, takie jak gen4_turbo) i jest wyraźnie zaprojektowany dla produkcja kreatywna — np. spójne renderowanie postaci, robienie zdjęć produktów na dużą skalę, wirtualne przymierzanie i generowanie zasobów gry.

Główne cechy

Generowanie na podstawie referencji (1–3 referencji). Użyj maksymalnie trzech obrazów referencyjnych, aby model/ka mógł/mogła zachować tożsamość, styl lub lokalizację, jednocześnie zmieniając pozę, oświetlenie, tło itp.
Wysoka jakość obrazu (produkcja gotowa do produkcji). Wyjścia mają osiągnąć wysoką rozdzielczość (dostępne są opcje 1080p) z dużą ilością szczegółów i kontrolą stylistyczną.
Tożsamość i spójność sceny. Zaprojektowano tak, aby zachować spójność tej samej postaci lub środowiska w różnych generacjach — przydatne w przypadku wizualizacji składających się z wielu ujęć lub zasobów skoncentrowanych na postaciach.
Podpowiedzi multimodalne (tekst + obrazy). Łącz instrukcje w języku naturalnym z obrazami referencyjnymi, aby sterować kompozycją, nastrojem, strojem, kątem kamery itp.
Obraz → obraz plus tekst → przepływy pracy obraz. Działa jako obraz do obrazu (edycja/przekształcanie) i tekst do obrazu, wykorzystując odniesienia w celu zachowania ciągłości.
Dostępny poziom wydajności (Turbo). Wariant „Gen-4 Image Turbo” łączy w sobie niższe koszty i większą szybkość (np. ok. 2.5× szybszą), zachowując jednocześnie funkcje referencyjne.
Kontrola i powtarzalność. Typowe opcje interfejsu API obejmują ustawienia wstępne proporcji obrazu, rozdzielczość (720p/1080p), wartości początkowe umożliwiające powtarzalność oraz znaczniki referencyjne wskazujące na określone dane wejściowe.

Szczegóły techniczne

Wejście: Tekst/Obraz

wyjścia: Obraz

przepływ pracy:

Materiały użytkownika: monit tekstowy + 0–3 obrazy referencyjne (oraz opcjonalne maski, klatki kluczowe, instrukcje ruchu kamery).
Wstępne przetwarzanie: referencje są normalizowane i kodowane; tekst jest tokenizowany. Osadzenia tożsamości/stylu są wyodrębniane i buforowane w celu ponownego wykorzystania.
Kondycjonowanie:osadzenia tekstu i odniesień są połączone w wielomodalnym szkielecie; dołączone są opcjonalne sygnały sterujące (pozycja, głębokość, maska).
Próbkowanie / odszumianie:dekoder uruchamia iteracje odszumiania (kroki dyfuzji), w wyniku których powstaje obraz (lub sekwencja klatek w przypadku wideo).

gen4_image — konkretne ograniczenia

Przypadki brzegowe czasowe/ruchowe. Recenzenci i twórcy zgłaszają sporadyczne artefakty ruchu, nietypową dynamikę czasową (błędy na początku/pod koniec generowanych klipów) oraz błędy w bardzo złożonej choreografii wieloaktorowej — przetestuj to na scenach docelowych.

Obliczenia, koszty i kolejki. Generowanie wysokiej jakości obrazu→wideo wymaga dużej mocy obliczeniowej GPU; użytkownicy zgłaszają długie kolejki i wysokie koszty renderowania, które mogą mieć znaczący wpływ na produkcję masową. Zaplanuj budżet/przepustowość odpowiednio.

Kompromisy kreatywne kontra modele czystego artyzmu. Mocną stroną Gen-4 jest spójność; jeśli potrzebujesz wysoce stylizowanych, malarskich lub „zaskakujących” efektów estetycznych, Midjourney lub dostrojone punkty kontrolne SDXL mogą pomóc w wyborze preferowanych kierunków artystycznych.

Kanoniczne przypadki użycia

Preprodukcja i storyboarding: szybkie tworzenie spójnych stylistycznie wariantów postaci/scen na podstawie zdjęć referencyjnych.
Marketing i generowanie treści: Szybka produkcja obrazów głównych, animowanych klipów społecznościowych i materiałów kampanijnych ze spójnymi postaciami marki. (Runway podaje przykłady przedsiębiorstw, w tym trasy koncertowe i teledyski).
Prototypowanie gier/zasobów i wirtualne przymierzanie: generuj wiele ujęć kamery, wariantów strojów i koncepcji otoczenia na podstawie małego zestawu punktów odniesienia.

Porównanie z innymi modelami

gen4_image→ najlepszy kiedy potrzebujesz spójność odniesienia/tożsamości (pojedyncza postać lub obiekt zachowany w tych samych ujęciach) i kiedy chcesz obraz→wideo i rurociągi wielostrumieniowe.
DALL·E 3 → najlepszy w celu uzyskania ścisłej wierności obrazu i konwersacyjnego procesu edycji sterowanego przez ChatGPT, a także wbudowanych funkcji bezpieczeństwa/pochodzenia.
SDXL (rodzina Stable Diffusion) → najlepszy gdy potrzebujesz otwartych modeli, lokalnego/niestandardowego dostrajania i elastycznego kosztowo wdrożenia.
Midjourney → najlepszy dla wysoce stylizowanych, artystycznie przyjemnych renderów i silnych, tworzonych przez społeczność ustawień wstępnych / elementów sterujących „stylizacją”.
Runway Gen-4 kontra ByteDance Seedream 4.0 / modele typu „Nano Banana” w Google: ostatnie premiery konkurencji (np. Seedream 4.0) podkreślają ultraszybkie renderowanie i obsługa wielu odniesień skierowany do twórców komercyjnych; zaletą Runway jest ściśle zintegrowana struktura obrazu→wideo oraz kontrola zorientowana na produkcję, a także dojrzały ekosystem API i SDK.

Jak zadzwonić obraz_gen4 API z CometAPI


Cena	$0.32000

Wymagane kroki

Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
Uzyskaj adres URL tej witryny: https://api.cometapi.com/

Użyj metody

Wybierz punkt końcowy „gen4_image”, aby wysłać żądanie API i ustawić treść żądania. Metodę żądania i treść żądania można znaleźć w dokumentacji API naszej strony internetowej. Dla Państwa wygody nasza strona internetowa udostępnia również test Apifox.
Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

CometAPI zapewnia w pełni kompatybilne API REST, co umożliwia bezproblemową migrację. Kluczowe szczegóły Dokumentacja API:

Punkt końcowy: https://api.cometapi.com/runwayml/v1/text_to_image
Parametr modelu: gen4_image
Poświadczenie: Bearer YOUR_CometAPI_API_KEY
Typ zawartości: application/json .

curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \  
--header 'X-Runway-Version: 2024-11-06' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"promptText": "cat",  
"ratio": "1920:1080",  
"seed": 4294967295,  
"model": "gen4_image",  
"referenceImages": ,  
"contentModeration": {  
"publicFigureThreshold": "auto"  
}  
}'

Zobacz też Pas startowy/Akt_drugi