gen4_image ialah model penjanaan imej multimodal utama Runway dalam keluarga Gen-4 yang menyokong penjanaan terdorong ditambah rujukan visual (anda boleh “@mention” merujuk imej) untuk menghasilkan output yang sangat terkawal, konsisten dari segi gaya untuk imej dan imej → saluran paip video.
Pengenalan - apa Imej Gen-4 is
gen4_image ialah keluarga model generatif visual generasi keempat Runway, direka bentuk untuk diambil gesaan teks + rujukan visual dan menghasilkan imej pegun berkesetiaan tinggi atau bingkai sedia media yang disimpan identiti and gaya merentasi sudut dan pencahayaan. Model ini dipersembahkan sebagai sebahagian daripada suite Gen-4 yang lebih luas (termasuk varian video seperti gen4_turbo) dan direka secara eksplisit untuk penghasilan kreatif — cth, pemaparan watak yang konsisten, fotografi produk pada skala, percubaan maya dan penjanaan aset permainan.
Ciri-ciri utama
- Penjanaan berasaskan rujukan (1–3 rujukan). Gunakan sehingga tiga imej rujukan supaya model boleh mengekalkan identiti, gaya atau lokasi semasa mengubah pose, pencahayaan, latar belakang, dsb.
- Kesetiaan visual yang tinggi (output sedia pengeluaran). Output menyasarkan resolusi tinggi (pilihan 1080p tersedia) dengan perincian yang kukuh dan kawalan gaya.
- Konsistensi identiti & adegan. Direka bentuk untuk memastikan watak atau persekitaran yang sama konsisten merentas berbilang generasi — berguna untuk visual berbilang tangkapan atau aset tertumpu watak.
- Gesaan multimodal (teks + imej). Gabungkan arahan bahasa semula jadi dengan imej rujukan untuk mengarahkan komposisi, mood, pakaian, sudut kamera, dsb.
- Imej → imej tambah teks → aliran kerja imej. Berfungsi sebagai imej-ke-imej (edit/transformasi) dan sebagai teks-ke-imej menggunakan rujukan untuk mengekalkan kesinambungan.
- Peringkat prestasi (Turbo) tersedia. Varian "Gen-4 Image Turbo" memperdagangkan kos dan kelajuan (cth, ~2.5× lebih pantas) sambil mengekalkan ciri dipacu rujukan.
- Kawalan & kebolehulangan. Pilihan API biasa termasuk pratetap nisbah aspek, resolusi (720p/1080p), benih untuk kebolehulangan dan teg rujukan untuk menunjuk kepada input tertentu.
Maklumat teknikal
Input: Teks/Imej
Output: Image
aliran kerja:
- Bekalan pengguna: gesaan teks + 0–3 imej rujukan (dan topeng pilihan, bingkai utama, arahan gerakan kamera).
- Praproses: rujukan dinormalisasi dan dikodkan; teks ditandakan. Pembenaman identiti/gaya diekstrak dan dicache untuk digunakan semula.
- Penyaman: benam teks dan rujukan disatukan dalam tulang belakang multimodal; isyarat kawalan pilihan (pose, kedalaman, topeng) dilampirkan.
- Persampelan / denoising: penyahkod menjalankan denoising lelaran (langkah resapan) menghasilkan imej (atau jujukan bingkai untuk video).
gen4_image — had konkrit
Kes tepi temporal / gerakan. Pengulas dan pencipta melaporkan artifak gerakan sekali-sekala, dinamik temporal ganjil (gangguan awal/lewat dalam klip yang dijana) dan kegagalan pada koreografi berbilang pelakon yang sangat kompleks — uji dengan adegan sasaran anda.
Kira, kos & beratur. Imej berkualiti tinggi → penjanaan video adalah GPU-berat; pengguna melaporkan masa giliran dan kos/setiap pemaparan yang boleh menjadi penting untuk pengeluaran besar-besaran. Rancang belanjawan/proses dengan sewajarnya.
Pertukaran kreatif vs model kesenian tulen. Kekuatan Gen-4 adalah konsisten; jika anda memerlukan keluaran estetik yang sangat bergaya, melukis atau "mengejutkan", pusat pemeriksaan Midjourney atau SDXL yang ditala mungkin menghasilkan arah seni pilihan.
Kes penggunaan kanonik
- Pra-pengeluaran & papan cerita: cepat mencipta variasi watak/adegan yang konsisten gaya daripada foto rujukan.
- Pemasaran & penjanaan kandungan: pengeluaran pantas imej wira, klip sosial animasi dan aset kempen dengan watak jenama yang konsisten. (Lapangan terbang menyenaraikan contoh perusahaan termasuk lawatan langsung dan video muzik.)
- Prototaip permainan/aset & percubaan maya: menjana berbilang sudut kamera, varian pakaian dan konsep persekitaran daripada set rujukan kecil.
Perbandingan dengan model lain
- gen4_image→ terbaik apabila anda memerlukan rujukan / konsistensi identiti (watak tunggal atau objek dikekalkan sama merentasi tangkapan) dan apabila anda mahu imej→video dan saluran paip berbilang pukulan.
- DALL·E 3 → terbaik untuk kesetiaan segera kepada imej yang ketat dan aliran pengeditan dipacu ChatGPT perbualan serta kerja keselamatan/provenan terbina dalam.
- SDXL (Keluarga Stable Diffusion) → terbaik apabila anda mahukan model terbuka, penalaan halus setempat/tersuai dan penggunaan kos yang fleksibel.
- Pertengahan → terbaik untuk pemaparan yang sangat bergaya, menarik secara artistik dan pratetap / kawalan "gayakan" dipacu komuniti yang kuat.
- Runway Gen-4 lwn. ByteDance Seedream 4.0 / Model jenis "Nano Banana" Google: pelancaran pesaing baru-baru ini (cth, Seedream 4.0) menekankan rendering ultra-pantas dan pengendalian berbilang rujukan ditujukan kepada pencipta komersial; Kelebihan landasan ialah imej bersepadu → saluran paip video dan kawalan berorientasikan pengeluaran serta ekosistem API dan SDK yang matang.
Bagaimana hendak memanggil gen4_image API daripada CometAPI
| Harga | $0.32000 |
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Gunakan Kaedah
- Pilih titik akhir "gen4_image" untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda.
- Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk penghijrahan yang lancar. Butiran penting kepada Dokumen API:
- Titik Akhir:
https://api.cometapi.com/runwayml/v1/text_to_image - Parameter Model:
gen4_image - Pengesahan:
Bearer YOUR_CometAPI_API_KEY - Jenis kandungan:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
Lihat juga Landasan/Akta_dua
