API landasan/gen4_image

gen4_image ialah model penjanaan imej multimodal utama Runway dalam keluarga Gen-4 yang menyokong penjanaan terdorong ditambah rujukan visual (anda boleh “@mention” merujuk imej) untuk menghasilkan output yang sangat terkawal, konsisten dari segi gaya untuk imej dan imej → saluran paip video.

Pengenalan - apa Imej Gen-4 is

gen4_image ialah keluarga model generatif visual generasi keempat Runway, direka bentuk untuk diambil gesaan teks + rujukan visual dan menghasilkan imej pegun berkesetiaan tinggi atau bingkai sedia media yang disimpan identiti and gaya merentasi sudut dan pencahayaan. Model ini dipersembahkan sebagai sebahagian daripada suite Gen-4 yang lebih luas (termasuk varian video seperti gen4_turbo) dan direka secara eksplisit untuk penghasilan kreatif — cth, pemaparan watak yang konsisten, fotografi produk pada skala, percubaan maya dan penjanaan aset permainan.

Ciri-ciri utama

Penjanaan berasaskan rujukan (1–3 rujukan). Gunakan sehingga tiga imej rujukan supaya model boleh mengekalkan identiti, gaya atau lokasi semasa mengubah pose, pencahayaan, latar belakang, dsb.
Kesetiaan visual yang tinggi (output sedia pengeluaran). Output menyasarkan resolusi tinggi (pilihan 1080p tersedia) dengan perincian yang kukuh dan kawalan gaya.
Konsistensi identiti & adegan. Direka bentuk untuk memastikan watak atau persekitaran yang sama konsisten merentas berbilang generasi — berguna untuk visual berbilang tangkapan atau aset tertumpu watak.
Gesaan multimodal (teks + imej). Gabungkan arahan bahasa semula jadi dengan imej rujukan untuk mengarahkan komposisi, mood, pakaian, sudut kamera, dsb.
Imej → imej tambah teks → aliran kerja imej. Berfungsi sebagai imej-ke-imej (edit/transformasi) dan sebagai teks-ke-imej menggunakan rujukan untuk mengekalkan kesinambungan.
Peringkat prestasi (Turbo) tersedia. Varian "Gen-4 Image Turbo" memperdagangkan kos dan kelajuan (cth, ~2.5× lebih pantas) sambil mengekalkan ciri dipacu rujukan.
Kawalan & kebolehulangan. Pilihan API biasa termasuk pratetap nisbah aspek, resolusi (720p/1080p), benih untuk kebolehulangan dan teg rujukan untuk menunjuk kepada input tertentu.

Maklumat teknikal

Input: Teks/Imej

Output: Image

aliran kerja:

Bekalan pengguna: gesaan teks + 0–3 imej rujukan (dan topeng pilihan, bingkai utama, arahan gerakan kamera).
Praproses: rujukan dinormalisasi dan dikodkan; teks ditandakan. Pembenaman identiti/gaya diekstrak dan dicache untuk digunakan semula.
Penyaman: benam teks dan rujukan disatukan dalam tulang belakang multimodal; isyarat kawalan pilihan (pose, kedalaman, topeng) dilampirkan.
Persampelan / denoising: penyahkod menjalankan denoising lelaran (langkah resapan) menghasilkan imej (atau jujukan bingkai untuk video).

gen4_image — had konkrit

Kes tepi temporal / gerakan. Pengulas dan pencipta melaporkan artifak gerakan sekali-sekala, dinamik temporal ganjil (gangguan awal/lewat dalam klip yang dijana) dan kegagalan pada koreografi berbilang pelakon yang sangat kompleks — uji dengan adegan sasaran anda.

Kira, kos & beratur. Imej berkualiti tinggi → penjanaan video adalah GPU-berat; pengguna melaporkan masa giliran dan kos/setiap pemaparan yang boleh menjadi penting untuk pengeluaran besar-besaran. Rancang belanjawan/proses dengan sewajarnya.

Pertukaran kreatif vs model kesenian tulen. Kekuatan Gen-4 adalah konsisten; jika anda memerlukan keluaran estetik yang sangat bergaya, melukis atau "mengejutkan", pusat pemeriksaan Midjourney atau SDXL yang ditala mungkin menghasilkan arah seni pilihan.

Kes penggunaan kanonik

Pra-pengeluaran & papan cerita: cepat mencipta variasi watak/adegan yang konsisten gaya daripada foto rujukan.
Pemasaran & penjanaan kandungan: pengeluaran pantas imej wira, klip sosial animasi dan aset kempen dengan watak jenama yang konsisten. (Lapangan terbang menyenaraikan contoh perusahaan termasuk lawatan langsung dan video muzik.)
Prototaip permainan/aset & percubaan maya: menjana berbilang sudut kamera, varian pakaian dan konsep persekitaran daripada set rujukan kecil.

Perbandingan dengan model lain

gen4_image→ terbaik apabila anda memerlukan rujukan / konsistensi identiti (watak tunggal atau objek dikekalkan sama merentasi tangkapan) dan apabila anda mahu imej→video dan saluran paip berbilang pukulan.
DALL·E 3 → terbaik untuk kesetiaan segera kepada imej yang ketat dan aliran pengeditan dipacu ChatGPT perbualan serta kerja keselamatan/provenan terbina dalam.
SDXL (Keluarga Stable Diffusion) → terbaik apabila anda mahukan model terbuka, penalaan halus setempat/tersuai dan penggunaan kos yang fleksibel.
Pertengahan → terbaik untuk pemaparan yang sangat bergaya, menarik secara artistik dan pratetap / kawalan "gayakan" dipacu komuniti yang kuat.
Runway Gen-4 lwn. ByteDance Seedream 4.0 / Model jenis "Nano Banana" Google: pelancaran pesaing baru-baru ini (cth, Seedream 4.0) menekankan rendering ultra-pantas dan pengendalian berbilang rujukan ditujukan kepada pencipta komersial; Kelebihan landasan ialah imej bersepadu → saluran paip video dan kawalan berorientasikan pengeluaran serta ekosistem API dan SDK yang matang.

Bagaimana hendak memanggil gen4_image API daripada CometAPI


Harga	$0.32000

Langkah yang Diperlukan

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
Dapatkan url tapak ini: https://api.cometapi.com/

Gunakan Kaedah

Pilih titik akhir "gen4_image" untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda.
Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
. Proses respons API untuk mendapatkan jawapan yang dijana.

CometAPI menyediakan REST API yang serasi sepenuhnya—untuk penghijrahan yang lancar. Butiran penting kepada Dokumen API:

Titik Akhir: https://api.cometapi.com/runwayml/v1/text_to_image
Parameter Model: gen4_image
Pengesahan: Bearer YOUR_CometAPI_API_KEY
Jenis kandungan: application/json .

curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \  
--header 'X-Runway-Version: 2024-11-06' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"promptText": "cat",  
"ratio": "1920:1080",  
"seed": 4294967295,  
"model": "gen4_image",  
"referenceImages": ,  
"contentModeration": {  
"publicFigureThreshold": "auto"  
}  
}'

Lihat juga Landasan/Akta_dua