obraz_gen4 jest flagowym modelem firmy Runway do generowania obrazów multimodalnych w rodzinie Gen-4, który obsługuje generowanie podpowiedzi plus odniesienia wizualne (możesz używać funkcji @mention w odniesieniu do obrazów), aby tworzyć w pełni kontrolowane, stylistycznie spójne wyniki dla procesów przetwarzania obrazów i obrazów→wideo.
Wprowadzenie — co Obraz Gen-4 is
obraz_gen4 jest czwartą generacją rodziny modeli generatywnych firmy Runway, zaprojektowanych tak, aby podpowiedzi tekstowe + odniesienia wizualne i tworzyć wysokiej jakości nieruchome obrazy lub klatki gotowe do użycia na nośnikach, które zachowują tożsamość oraz styl pod różnymi kątami i oświetleniem. Model jest prezentowany jako część szerszego pakietu Gen-4 (obejmującego warianty wideo, takie jak gen4_turbo) i jest wyraźnie zaprojektowany dla produkcja kreatywna — np. spójne renderowanie postaci, robienie zdjęć produktów na dużą skalę, wirtualne przymierzanie i generowanie zasobów gry.
Główne cechy
- Generowanie na podstawie referencji (1–3 referencji). Użyj maksymalnie trzech obrazów referencyjnych, aby model/ka mógł/mogła zachować tożsamość, styl lub lokalizację, jednocześnie zmieniając pozę, oświetlenie, tło itp.
- Wysoka jakość obrazu (produkcja gotowa do produkcji). Wyjścia mają osiągnąć wysoką rozdzielczość (dostępne są opcje 1080p) z dużą ilością szczegółów i kontrolą stylistyczną.
- Tożsamość i spójność sceny. Zaprojektowano tak, aby zachować spójność tej samej postaci lub środowiska w różnych generacjach — przydatne w przypadku wizualizacji składających się z wielu ujęć lub zasobów skoncentrowanych na postaciach.
- Podpowiedzi multimodalne (tekst + obrazy). Łącz instrukcje w języku naturalnym z obrazami referencyjnymi, aby sterować kompozycją, nastrojem, strojem, kątem kamery itp.
- Obraz → obraz plus tekst → przepływy pracy obraz. Działa jako obraz do obrazu (edycja/przekształcanie) i tekst do obrazu, wykorzystując odniesienia w celu zachowania ciągłości.
- Dostępny poziom wydajności (Turbo). Wariant „Gen-4 Image Turbo” łączy w sobie niższe koszty i większą szybkość (np. ok. 2.5× szybszą), zachowując jednocześnie funkcje referencyjne.
- Kontrola i powtarzalność. Typowe opcje interfejsu API obejmują ustawienia wstępne proporcji obrazu, rozdzielczość (720p/1080p), wartości początkowe umożliwiające powtarzalność oraz znaczniki referencyjne wskazujące na określone dane wejściowe.
Szczegóły techniczne
Wejście: Tekst/Obraz
wyjścia: Obraz
przepływ pracy:
- Materiały użytkownika: monit tekstowy + 0–3 obrazy referencyjne (oraz opcjonalne maski, klatki kluczowe, instrukcje ruchu kamery).
- Wstępne przetwarzanie: referencje są normalizowane i kodowane; tekst jest tokenizowany. Osadzenia tożsamości/stylu są wyodrębniane i buforowane w celu ponownego wykorzystania.
- Kondycjonowanie:osadzenia tekstu i odniesień są połączone w wielomodalnym szkielecie; dołączone są opcjonalne sygnały sterujące (pozycja, głębokość, maska).
- Próbkowanie / odszumianie:dekoder uruchamia iteracje odszumiania (kroki dyfuzji), w wyniku których powstaje obraz (lub sekwencja klatek w przypadku wideo).
gen4_image — konkretne ograniczenia
Przypadki brzegowe czasowe/ruchowe. Recenzenci i twórcy zgłaszają sporadyczne artefakty ruchu, nietypową dynamikę czasową (błędy na początku/pod koniec generowanych klipów) oraz błędy w bardzo złożonej choreografii wieloaktorowej — przetestuj to na scenach docelowych.
Obliczenia, koszty i kolejki. Generowanie wysokiej jakości obrazu→wideo wymaga dużej mocy obliczeniowej GPU; użytkownicy zgłaszają długie kolejki i wysokie koszty renderowania, które mogą mieć znaczący wpływ na produkcję masową. Zaplanuj budżet/przepustowość odpowiednio.
Kompromisy kreatywne kontra modele czystego artyzmu. Mocną stroną Gen-4 jest spójność; jeśli potrzebujesz wysoce stylizowanych, malarskich lub „zaskakujących” efektów estetycznych, Midjourney lub dostrojone punkty kontrolne SDXL mogą pomóc w wyborze preferowanych kierunków artystycznych.
Kanoniczne przypadki użycia
- Preprodukcja i storyboarding: szybkie tworzenie spójnych stylistycznie wariantów postaci/scen na podstawie zdjęć referencyjnych.
- Marketing i generowanie treści: Szybka produkcja obrazów głównych, animowanych klipów społecznościowych i materiałów kampanijnych ze spójnymi postaciami marki. (Runway podaje przykłady przedsiębiorstw, w tym trasy koncertowe i teledyski).
- Prototypowanie gier/zasobów i wirtualne przymierzanie: generuj wiele ujęć kamery, wariantów strojów i koncepcji otoczenia na podstawie małego zestawu punktów odniesienia.
Porównanie z innymi modelami
- gen4_image→ najlepszy kiedy potrzebujesz spójność odniesienia/tożsamości (pojedyncza postać lub obiekt zachowany w tych samych ujęciach) i kiedy chcesz obraz→wideo i rurociągi wielostrumieniowe.
- DALL·E 3 → najlepszy w celu uzyskania ścisłej wierności obrazu i konwersacyjnego procesu edycji sterowanego przez ChatGPT, a także wbudowanych funkcji bezpieczeństwa/pochodzenia.
- SDXL (rodzina Stable Diffusion) → najlepszy gdy potrzebujesz otwartych modeli, lokalnego/niestandardowego dostrajania i elastycznego kosztowo wdrożenia.
- Midjourney → najlepszy dla wysoce stylizowanych, artystycznie przyjemnych renderów i silnych, tworzonych przez społeczność ustawień wstępnych / elementów sterujących „stylizacją”.
- Runway Gen-4 kontra ByteDance Seedream 4.0 / modele typu „Nano Banana” w Google: ostatnie premiery konkurencji (np. Seedream 4.0) podkreślają ultraszybkie renderowanie i obsługa wielu odniesień skierowany do twórców komercyjnych; zaletą Runway jest ściśle zintegrowana struktura obrazu→wideo oraz kontrola zorientowana na produkcję, a także dojrzały ekosystem API i SDK.
Jak zadzwonić obraz_gen4 API z CometAPI
| Cena | $0.32000 |
Wymagane kroki
- Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
- Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
- Uzyskaj adres URL tej witryny: https://api.cometapi.com/
Użyj metody
- Wybierz punkt końcowy „gen4_image”, aby wysłać żądanie API i ustawić treść żądania. Metodę żądania i treść żądania można znaleźć w dokumentacji API naszej strony internetowej. Dla Państwa wygody nasza strona internetowa udostępnia również test Apifox.
- Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
- Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
- . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne API REST, co umożliwia bezproblemową migrację. Kluczowe szczegóły Dokumentacja API:
- Punkt końcowy:
https://api.cometapi.com/runwayml/v1/text_to_image - Parametr modelu:
gen4_image - Poświadczenie:
Bearer YOUR_CometAPI_API_KEY - Typ zawartości:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
Zobacz też Pas startowy/Akt_drugi
