FLUX.2 ialah keluarga model penjanaan dan penyuntingan imej yang baru diumumkan oleh Black Forest Labs yang menawarkan kesetiaan setaraf produksi, penyuntingan berbilang rujukan (sehingga 10 rujukan), dan varian yang boleh dikerahkan daripada Dev berwajaran terbuka hingga Pro produksi serta peringkat Flex yang boleh dikawal.
Apakah itu FLUX.2?
FLUX.2 ialah keluarga penjanaan + penyuntingan imej setaraf produksi daripada Black Forest Labs yang menggabungkan pengkondisian berbilang rujukan, ruang terpendam (VAE) yang diperbaharui, dan primitif kawalan lanjutan (pengemudian warna hex, prompt JSON, panduan pose) untuk menghasilkan keputusan yang konsisten dan berkosakata tinggi bagi aliran kerja kreatif dan komersial. Ia menyokong kedua-dua penjanaan teks→imej dan penyuntingan imej berbilang rujukan dalam satu keluarga model, dan BFL menyediakan titik akhir API dihos serta artifak berwajaran terbuka untuk penyelidikan dan inferens setempat. Tawaran ini wujud merentas pelbagai saluran pengedaran: berat terbuka untuk penyelidik/pembangun (FLUX.2), model produksi dihos seperti Flux.2 Pro, dan titik akhir dihos boleh suai seperti Flux.2 Flex.
Keupayaan utama
- Penyuntingan berbilang rujukan: gabungkan sehingga 8–10 imej rujukan untuk satu output sambil mengekalkan konsistensi identiti dan gaya. Ini amat berguna untuk pengiklanan, lakaran produk, atau kesinambungan watak merentas varian kreatif.
- Resolusi tinggi (sehingga 4MP): output sehingga 4 megapiksel (contohnya 2048×2048 dan lebih besar, bergantung pada nisbah bidang).
- Fotorealisme + perincian halus: penambahbaikan pada tangan, wajah, tekstur dan penaakulan ruang berbanding model terbuka terdahulu.
- Prompt berstruktur & prompt JSON: FLUX.2 menyokong prompt berstruktur/JSON yang memetakan secara semula jadi kepada kawalan UI (scene, subjects[], style, lighting, camera), membolehkan penjanaan berprogram dan boleh diulangi.
- Tipografi dan kesetiaan warna: pemaparan teks yang luar biasa baik dan pengemudian warna (hex) yang tepat untuk aliran kerja sensitif jenama.
- Asal-usul kandungan & keselamatan: API Pro menerapkan metadata C2PA yang ditandatangani secara kriptografi pada imej yang dihasilkan dan mengendalikan penapisan berlapis untuk kategori kandungan yang tidak dibenarkan.
Pro vs Flex vs Dev: Model mana yang perlu dipilih?
| Varian | Kependaman & kos | Kualiti | Kawalan & ciri | Berbilang rujukan |
|---|---|---|---|---|
| FLUX.2 | dioptimumkan untuk kependaman rendah (<10s dalam persediaan API lazim), termasuk penapis kandungan dan metadata C2PA yang ditandatangani secara kriptografi untuk provenance. | Tertinggi (4MP, kesetiaan terbaik) | Ciri penuh, SLA produksi | Sehingga 8 (API, had 9MP) |
| FLUX.2 | kependaman lebih tinggi daripada pro tetapi mendedahkan hiperparameter inferens boleh laras (langkah, skala panduan, dll.) | Tinggi | Kesetiaan vs. kepelbagaian boleh ditala; langkah inferens, skala panduan, dan kawalan pensampelan lain boleh dilaras untuk pertukaran kualiti/kelajuan. | Sehingga 10 |
| FLUX.2 | Bergantung pada perkakasan | Kukuh (berat terbuka) | Penyuntingan penuh + berbilang rujukan; titik semak terbuka | Disyorkan maks 6 |
| FLUX.2 | Peranti tepi / sumber rendah | Sederhana (distil) | Pantas, jejak VRAM kecil |
Bila hendak memilih yang mana
- Pilih dev jika anda perlu menjalankan secara setempat, memerlukan penyelidikan algoritma, atau memerlukan penyesuaian berat terbuka (dan menerima keperluan perkakasan yang tinggi).
- Pilih pro apabila anda memerlukan imej produksi yang boleh dijangka, kependaman rendah dengan ciri keselamatan dan provenance terbina.
- Pilih flex jika anda mengulang kaji hiperparameter penjanaan (melaras langkah, skala panduan, dll.) dan mahukan titik akhir terurus yang mendedahkan kawalan tersebut.
Bagaimanakah FLUX.2 berfungsi?
FLUX.2 menggabungkan tiga elemen seni bina utama:
1. Tulang belakang transformer rectified-flow
Intinya, FLUX.2 menggunakan seni bina transformer flow-matching / rectified-flow yang beroperasi dalam ruang terpendam terpelajari (alternatif moden kepada diffusion untuk sesetengah talian produksi). Tulang belakang ini membolehkan pemaparan berkosakata tinggi dan penaakulan ruang yang meningkatkan konsistensi merentas berbilang rujukan. Pendekatan “flow matching” menawarkan pertukaran berbeza dalam kelajuan pensampelan dan kesetiaan berbanding diffusion klasik.
2. Variational autoencoder (VAE) baharu
Autoencoder tujuan khas memampatkan imej ke dalam perwakilan terpendam yang dioptimumkan untuk tugas penjanaan dan penyuntingan FLUX.2. BFL menyatakan bahawa VAE baharu meningkatkan keboleh-mampatan dan kesetiaan (dinamik pembelajaran yang lebih baik dan pembinaan semula berkualiti lebih tinggi daripada generasi terdahulu). VAE ialah penyumbang utama kepada peningkatan skala bersih hingga 4MP dan perincian yang dipertingkat.
3. Model penglihatan–bahasa konteks panjang (VLM)
Sebuah VLM (dilaporkan berkaitan dengan pengenkod visual–bahasa kelas Mistral dalam nota yang diterbitkan) menyediakan pengkondisian bahasa dan pengetahuan dunia sebenar yang menjadikan prompt lebih setia dan model lebih baik dalam mengikut arahan kompleks (panduan pose, suntingan berkonteks, dll.). Menggabungkan VLM dengan tulang belakang flow membolehkan FLUX.2 menalar tentang komposisi dan semantik pada tetingkap konteks yang lebih besar.
Bagaimana komponen ini berinteraksi (aliran masa larian)
- Mengekod input: imej rujukan dikodkan melalui VAE ke dalam token terpendam; prompt teks dikodkan oleh VLM.
- Gabungan rentas modal: tulang belakang transformer mengambil latens imej + token teks dan memodelkan hubungan ruang, ciri identiti, dan arahan penyuntingan.
- Penjanaan berasaskan flow: sampler rectified-flow menghasilkan atau menyunting imej terpendam yang dikondisikan pada representasi gabungan.
- Nyahkod: VAE menyahkod latens kembali ke ruang piksel, secara pilihan menerapkan kekangan warna akhir dan tera air/metadata C2PA.
Mengapa seni bina ini penting
Gabungan ini menghasilkan tiga kelebihan praktikal: (1) kesepaduan berbilang rujukan kerana identiti dan gaya dimodelkan secara eksplisit dalam terpendam; (2) teks dan tipografi yang lebih baik berkat pengintegrasian lebih rapat antara VLM dan ruang terpendam imej; (3) pilihan pelaksanaan yang boleh diskala — keluarga model asas yang sama boleh dihantar sebagai berat terbuka untuk kegunaan setempat (dev), sebagai perkhidmatan kependaman rendah terurus (pro), atau sebagai perkhidmatan boleh tatar untuk pembangun (flex).
Seberapa baik FLUX.2?
Prestasi dalam penanda aras
Black Forest Labs menerbitkan penilaian perbandingan dan carta yang menunjukkan FLUX.2 mengatasi beberapa rakan seangkatan berat terbuka dalam ujian keutamaan/nisbah kemenangan manusia bersemuka dan dalam analisis ELO vs kos. Sorotan yang dilaporkan daripada ringkasan vendor/media yang diterbitkan termasuk:
- Nisbah menang Teks→Imej: FLUX.2 dilaporkan ≈66.6% nisbah menang (vs ~51.3% Qwen-Image, 48.1% Hunyuan Image 3.0).
- Penyuntingan rujukan tunggal: ≈59.8% nisbah menang (vs ~49.3% Qwen-Image, 41.2% FLUX.1 Kontext).
- Penyuntingan berbilang rujukan: ≈63.6% nisbah menang (vs ~36.4% untuk Qwen-Image).
- ELO vs kos: keluarga FLUX.2 (Pro, Flex, Dev) berkumpul dalam jalur kualiti tinggi, kos relatif rendah (ELO ≈1030–1050 sambil beroperasi pada ~2–6 sen per imej dalam carta harga vendor).
Penjanaan Berbilang Rujukan
Salah satu ciri terbesar FLUX.2 ialah keupayaannya untuk menghasilkan pelbagai output yang konsisten menggunakan berbilang imej rujukan.
Sebagai contoh, apabila memotret produk, anda boleh memuat naik beberapa foto yang diambil dari sudut berbeza, di bawah keadaan pencahayaan berbeza, dan menentang latar belakang berbeza, lalu menjana berbilang variasi imej yang sama sekaligus.
Ciri ini membolehkan anda menjana foto katalog produk secara kelompok dengan cepat untuk laman e-dagang, sepanduk pengiklanan, set imej media sosial, dan banyak lagi.
Tidak seperti penjanaan imej tunggal tradisional, mekanisme berbilang rujukan ini amat sesuai untuk aliran kerja dunia sebenar yang menekankan konsistensi dan integriti.
Resolusi Tinggi, Kualiti Perniagaan (Sehingga 4MP)
FLUX.2 menyokong output sehingga 4 megapiksel (kira-kira 2000–3000 piksel), memberikan kualiti imej yang sesuai untuk aplikasi praktikal seperti pengiklanan, cetakan, papan tanda, dan poster.
Ia mengendalikan teks, logo, mockup UI, infografik, dan banyak lagi dengan sempurna, menjadikannya sesuai bukan sahaja untuk penciptaan artistik tetapi juga untuk reka bentuk dan kegunaan komersial.
Sementara itu, kualiti pemaparan fon dan teks juga telah dipertingkat, menjadikannya sesuai untuk mencipta sepanduk pengiklanan dan label produk.
Menyokong Pelaksanaan GPU Tempatan: Kos Rendah, Halangan Kemasukan Rendah
Setakat ini, banyak model penjanaan imej berprestasi tinggi hanya praktikal di pusat data dengan sumber pengkomputeran besar-besaran. Walau bagaimanapun, FLUX.2 dioptimumkan untuk dijalankan pada GPU standard (seperti NVIDIA RTX) dengan penggunaan VRAM yang lebih rendah.
Model tidak lagi perlu diakses melalui awan; ia boleh disunting dan dijana secara setempat, dengan ketara mengurangkan kos dan meningkatkan fleksibiliti operasi.
Ini ialah kelebihan besar bukan sahaja untuk syarikat tetapi juga untuk pencipta individu dan pasukan kecil.
Aliran Kerja Penciptaan dan Penyuntingan Bersatu
FLUX.2 bukan sahaja menyokong teks-ke-imej (penjanaan teks → imej) tetapi juga imej-ke-imej (menyunting dan menggayakan imej sedia ada).
Ini membolehkan anda menggunakan satu model secara konsisten untuk tugas seperti “melukis imej baharu dari kosong,” “menyunting dan mencantikkan foto sedia ada,” dan “menggunakan semula berbilang imej untuk mencipta variasi seragam.”
Sebagai contoh, menukar latar belakang foto produk kepada suasana berbeza atau mengubah saiznya untuk media sosial menjadi mudah.
Cara Mengakses Flux.2 API
Kami dengan sukacitanya mengumumkan bahawa CometAPI telah mengintegrasikan Flux.2 API. Kini Menyokong Model Format Replicate (Lebih rendah daripada Harga Rasmi Replicate), Titik Akhir FLUX.2:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
Mula Bina Sekarang Create Predictions – API Doc,
Mahukan percubaan dahulu? Uji FLUX.2 dalam playground selepas mendaftar dan log masuk ke CometAPI, jika anda mahu mula membina dengan API sekarang: Create Predictions – API Doc.
FLUX.2 bukan sekadar satu lagi pelepasan model; ia ialah strategi produk pada peringkat keluarga yang menangani realiti produksi: kesetiaan, kebolehsuntingan, kesepaduan berbilang rujukan, dan laluan pelaksanaan praktikal (API terurus dan titik semak terbuka). Bagi organisasi yang menghasilkan kandungan visual pada skala besar, FLUX.2 menjanjikan peningkatan produktiviti yang bermakna — dengan syarat pasukan memasangkan penerimaan teknikal dengan tadbir urus pelesenan yang teguh dan kawalan kualiti.
Kegunaan Utama dan Kes Penggunaan Disasarkan bagi FLUX.2
Visual Produk/Penciptaan Katalog E-dagang
Perniagaan e-dagang dan jenama mempunyai permintaan tinggi untuk mengambil banyak foto produk dari pelbagai sudut, menggunakan pencahayaan, latar belakang dan mod warna yang berbeza.
- Dengan FLUX.2, anda boleh dengan cepat menjana pelbagai kesan yang konsisten secara visual tanpa benar-benar merakam sebarang kandungan.
- Ini membolehkan anda memperluas katalog produk dengan cepat sambil mengurangkan kos fotografi, masa, dan kos pengurusan.
Penciptaan Bahan Pengiklanan dan Pemasaran
Permintaan untuk bahan reka bentuk adalah luas, termasuk sepanduk pengiklanan, imej siaran media sosial, visual kempen promosi, dan poster perhubungan awam.
- Hanya berikan deskripsi teks untuk memperoleh imej dengan gaya, komposisi, dan suasana yang diinginkan, sekali gus mengurangkan beban pada pereka dan pengiklan.
- Tambahan pula, kerana variasi boleh dijana menggunakan berbilang imej rujukan, ia juga sesuai untuk ujian A/B idea kreatif dan mencipta bahan yang serasi dengan pelbagai bahasa dan wilayah.
Reka Bentuk Antara Muka/Pengalaman Pengguna, Pembuatan Prototaip
FLUX.2 juga menyokong penyuntingan logo, fon, susun atur, dan latar belakang, menjadikannya sesuai bukan sahaja untuk penjanaan foto tetapi juga untuk reka bentuk visual produk digital.
- Anda boleh dengan cepat mencipta reka bentuk awal, wireframe, laman acara, mockup skrin aplikasi, dan banyak lagi.
- Ini ialah penyelesaian produksi yang menjimatkan kos, terutamanya sesuai untuk syarikat pemula dan pasukan reka bentuk kecil.
Seni/Karya Kreatif dan Kegunaan Peribadi
Sudah tentu, ia juga boleh digunakan semata-mata untuk “karya seni,” “ilustrasi,” atau “reka bentuk grafik.”
- Kembangkan ufuk kreatif anda dengan mencipta karya dalam pelbagai suasana dan gaya menggunakan prompt teks dan imej rujukan.
- Anda juga boleh menggunakan ciri penyuntingan imej untuk menukar foto sedia ada kepada gaya artistik dengan bebas, atau bereksperimen dengan landskap imaginatif atau reka bentuk watak.
Berbeza daripada Model Sedia Ada dan Pesaing—Mengapa Memilih FLUX.2?
Perbandingan dengan Model Penjanaan Imej AI Lain
Pada masa ini, terdapat banyak model (sumber terbuka dan komersial) dalam bidang penjanaan imej AI, seperti model diffusion tradisional dan model pesaing terkini. Jadi, mengapa FLUX.2 begitu menarik? Sebab-sebabnya adalah seperti berikut:
- Penjanaan dan Penyuntingan Terintegrasi: Banyak model menumpukan sama ada pada “penjanaan (teks ke imej)” atau “penyuntingan (imej ke imej).” FLUX.2 menyokong kedua-dua fungsi secara serentak, mencapai aliran kerja yang sangat konsisten.
- Input Berbilang Rujukan: Gunakan berbilang imej rujukan untuk memudahkan fotografi produk dan konsistensi visual yang seragam.
- Kualiti Komersial dan Resolusi Tinggi: Menyokong 4MP untuk pengiklanan, fotografi produk, dan cetakan.
- Pelaksanaan Setempat yang Mudah: Ia bebas awan dan boleh dijalankan pada GPU standard, menawarkan kelebihan dari segi kos dan fleksibiliti.
- Pemilihan Model yang Fleksibel: Menawarkan pelbagai model yang merangkumi daripada standard hingga komersial dan aplikasi penyelidikan, membolehkan anda memilih yang paling sesuai dengan keperluan dan bajet.
Ini menjadikan FLUX.2 pilihan yang berkuasa untuk aliran kerja profesional, penggunaan komersial, pengeluaran volum tinggi, dan projek di mana kos dan kelajuan adalah kritikal.
Pemikiran akhir:
FLUX.2 berada pada persilangan pragmatik: ia menawarkan pilihan berat terbuka untuk penyelidikan bagi pasukan yang memerlukan kawalan dan kebolehulangan, dan API produksi terurus bagi pasukan yang mengutamakan kependaman rendah, output boleh dijangka, dan provenance. Dengan menghantar varian terbuka dan terurus (dev/pro/flex), BFL mengakui bahawa aliran kerja yang berbeza — eksperimen, reka bentuk iteratif, dan produksi — memerlukan pertukaran berbeza antara kesetiaan, kelajuan, penyesuaian, dan tadbir urus.
Pembangun boleh mengakses Flux.2 Dev API, Flux.2 Flex API dan Flux.2 Pro API melalui CometAPI. Untuk bermula, terokai keupayaan model CometAPI dalam Playground. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasi.
Sedia Bermula?→ Sign up for CometAPI today !
Jika anda mahu mengetahui lebih banyak tip, panduan dan berita tentang AI ikuti kami di VK, X dan Discord!
