FLUX.2 adalah keluarga model pembuatan dan pengeditan gambar yang baru diumumkan dari Black Forest Labs, yang menawarkan fidelitas tingkat produksi, pengeditan multi-referensi (hingga 10 referensi), serta varian yang dapat diterapkan mulai dari Dev berbobot terbuka hingga Pro untuk produksi dan tier Flex yang dapat dikendalikan.
Apa itu FLUX.2?
FLUX.2 adalah keluarga pembuatan + pengeditan gambar tingkat produksi milik Black Forest Labs yang menggabungkan pengondisian multi-referensi, ruang laten yang dikerjakan ulang (VAE), dan primitif kontrol lanjutan (pengarahan warna hex, prompting JSON, panduan pose) untuk menghasilkan keluaran yang konsisten dan berkualitas tinggi untuk alur kerja kreatif dan komersial. Model ini mendukung pembuatan text→image dan pengeditan gambar multi-referensi dalam satu keluarga model, dan BFL menyediakan endpoint API yang di-hosting serta artefak berbobot terbuka untuk riset dan inferensi lokal. Penawaran ini tersedia melalui beberapa saluran distribusi: bobot terbuka untuk peneliti/developer (FLUX.2), model produksi yang di-hosting seperti Flux.2 Pro, dan endpoint hosting yang dapat dikustomisasi seperti Flux.2 Flex.
Kemampuan utama
- Pengeditan multi-referensi: gabungkan hingga 8–10 gambar referensi untuk satu output sambil mempertahankan konsistensi identitas dan gaya. Ini sangat berguna untuk iklan, mockup produk, atau kesinambungan karakter di berbagai varian kreatif.
- Resolusi tinggi (hingga 4MP): output hingga 4 megapiksel (misalnya 2048×2048 dan lebih besar, tergantung rasio aspek).
- Fotorealisme + detail halus: peningkatan pada tangan, wajah, tekstur, dan penalaran spasial dibanding model terbuka sebelumnya.
- Prompt terstruktur & prompt JSON: FLUX.2 mendukung prompt terstruktur/JSON yang secara alami dipetakan ke kontrol UI (scene, subjects[], style, lighting, camera), sehingga memungkinkan pembuatan yang terprogram dan dapat direproduksi.
- Tipografi dan fidelitas warna: rendering teks yang sangat baik dan pengarahan warna (hex) yang presisi untuk alur kerja yang sensitif terhadap merek.
- Provenans konten & keamanan: API Pro menerapkan metadata C2PA yang ditandatangani secara kriptografis pada gambar yang dihasilkan dan menjalankan pemfilteran berlapis untuk kategori konten yang tidak diizinkan.
Pro vs Flex vs Dev: Model Mana yang Harus Dipilih?
| Variant | Latency & cost | Quality | Control & features | Multi-reference |
|---|---|---|---|---|
| FLUX.2 | dioptimalkan untuk latensi rendah (<10 dtk dalam pengaturan API pada umumnya), mencakup filter konten dan metadata C2PA yang ditandatangani secara kriptografis untuk provenance. | Tertinggi (4MP, fidelitas terbaik) | Fitur lengkap, SLA produksi | Hingga 8 (API, batas 9MP) |
| FLUX.2 | latensi lebih tinggi daripada pro tetapi mengekspos hyperparameter inferensi yang dapat disesuaikan (steps, guidance scale, dll.) | Tinggi | Fidelitas vs. keragaman yang dapat dituning; langkah inferensi, guidance scale, dan kontrol sampling lain yang dapat disesuaikan untuk trade-off kualitas/kecepatan. | Hingga 10 |
| FLUX.2 | Tergantung pada hardware | Kuat (bobot terbuka) | Pengeditan penuh + multi-referensi; checkpoint terbuka | Maksimum yang direkomendasikan 6 |
| FLUX.2 | Edge / sumber daya rendah | Sedang (distilasi) | Cepat, kebutuhan VRAM kecil |
Kapan memilih yang mana
- Pilih dev jika Anda harus menjalankan secara lokal, memerlukan riset algoritmik, atau membutuhkan kustomisasi bobot terbuka (dan menerima kebutuhan hardware yang tinggi).
- Pilih pro saat Anda membutuhkan gambar produksi dengan latensi rendah yang dapat diprediksi, disertai fitur keamanan dan provenance bawaan.
- Pilih flex jika Anda sedang mengiterasi hyperparameter generasi (menyetel steps, guidance scale, dll.) dan menginginkan endpoint terkelola yang menyediakan kontrol tersebut.
Bagaimana cara kerja FLUX.2?
FLUX.2 menyatukan tiga elemen arsitektur utama:
1. Backbone transformer rectified-flow
Pada intinya FLUX.2 menggunakan arsitektur transformer flow-matching / rectified-flow yang beroperasi dalam ruang laten terpelajar (alternatif modern terhadap diffusion untuk beberapa pipeline produksi). Backbone ini memungkinkan rendering berkualitas tinggi dan penalaran spasial yang meningkatkan konsistensi di berbagai referensi. Pendekatan “flow matching” menawarkan trade-off yang berbeda dalam kecepatan sampling dan fidelitas dibanding diffusion klasik.
2. Variational autoencoder (VAE) baru
Autoencoder yang dirancang khusus mengompresi gambar ke dalam representasi laten yang dioptimalkan untuk tugas generasi dan pengeditan FLUX.2. BFL menyatakan bahwa VAE baru ini meningkatkan kompresibilitas dan fidelitas (dinamika pembelajaran yang lebih baik dan rekonstruksi berkualitas lebih tinggi dibanding generasi sebelumnya). VAE adalah kontributor utama untuk upscaling bersih hingga 4MP dan peningkatan detail.
3. Vision–language model (VLM) berkonteks panjang
Sebuah VLM (dilaporkan terkait dengan encoder visual–language kelas Mistral dalam catatan yang dipublikasikan) menyediakan pengondisian bahasa dan pengetahuan dunia nyata yang membuat prompt lebih setia dan model lebih baik dalam mengikuti instruksi kompleks (panduan pose, pengeditan kontekstual, dll.). Menggabungkan VLM dengan backbone flow memungkinkan FLUX.2 bernalar tentang komposisi dan semantik pada jendela konteks yang lebih besar.
Bagaimana komponen-komponen ini berinteraksi (alur runtime)
- Encode input(s): gambar referensi dienkode melalui VAE menjadi token laten; prompt teks dienkode oleh VLM.
- Cross-modal fusion: backbone transformer menerima latent gambar + token teks dan memodelkan hubungan spasial, fitur identitas, dan instruksi pengeditan.
- Flow-based generation: sampler rectified-flow menghasilkan atau mengedit gambar laten yang dikondisikan pada representasi gabungan.
- Decode: VAE mendekode laten kembali ke ruang piksel, secara opsional menerapkan batasan warna akhir dan metadata watermark/C2PA.
Mengapa arsitektur ini penting
Kombinasi ini menghasilkan tiga keunggulan praktis: (1) koherensi multi-referensi karena identitas dan gaya dimodelkan secara eksplisit di laten; (2) teks dan tipografi yang lebih baik karena integrasi yang lebih erat antara VLM dan ruang laten gambar; (3) opsi deployment yang skalabel — keluarga model dasar yang sama dapat dikirim sebagai bobot terbuka untuk penggunaan lokal (dev), sebagai layanan terkelola berlatensi rendah (pro), atau sebagai layanan yang dapat dituning untuk developer (flex).
Seberapa Bagus FLUX.2?
Performa dalam benchmark
Black Forest Labs mempublikasikan evaluasi komparatif dan grafik yang menunjukkan FLUX.2 mengungguli beberapa model bobot terbuka sezaman dalam uji preferensi manusia/head-to-head dan analisis ELO vs. biaya. Sorotan yang dilaporkan dari ringkasan vendor/pers yang dipublikasikan mencakup:
- Win-rate Text→Image: FLUX.2 melaporkan win rate ≈66.6% (vs ~51.3% Qwen-Image, 48.1% Hunyuan Image 3.0).
- Pengeditan referensi tunggal: win rate ≈59.8% (vs ~49.3% Qwen-Image, 41.2% FLUX.1 Kontext).
- Pengeditan multi-referensi: win rate ≈63.6% (vs ~36.4% untuk Qwen-Image).
- ELO vs biaya: keluarga FLUX.2 (Pro, Flex, Dev) berada pada kelompok kualitas atas dengan biaya relatif rendah (ELO ≈1030–1050 sambil beroperasi pada ~2–6 sen per gambar dalam grafik harga vendor).
Generasi Multi-Referensi
Salah satu fitur terbesar FLUX.2 adalah kemampuannya untuk menghasilkan beberapa output yang konsisten menggunakan beberapa gambar referensi.
Misalnya, saat memotret produk, Anda dapat mengunggah beberapa foto yang diambil dari sudut berbeda, di bawah pencahayaan yang berbeda, dan dengan latar belakang yang berbeda, lalu menghasilkan beberapa variasi dari gambar yang sama sekaligus.
Fitur ini memungkinkan Anda dengan cepat menghasilkan batch foto katalog produk untuk situs e-commerce, banner iklan, set gambar media sosial, dan banyak lagi.
Tidak seperti generasi gambar tunggal tradisional, mekanisme multi-referensi ini ideal untuk alur kerja dunia nyata yang menekankan konsistensi dan integritas.
Resolusi Tinggi, Kualitas Bisnis (Hingga 4MP)
FLUX.2 mendukung output hingga 4 megapiksel (sekitar 2000-3000 piksel), menyediakan kualitas gambar yang cocok untuk aplikasi praktis seperti iklan, cetak, signage, dan poster.
Model ini menangani teks, logo, mockup UI, infografik, dan lainnya dengan sangat baik, sehingga cocok tidak hanya untuk kreasi artistik tetapi juga untuk desain dan penggunaan komersial.
Sementara itu, kualitas rendering font dan teks juga telah ditingkatkan, sehingga cocok untuk membuat banner iklan dan label produk.
Mendukung Eksekusi GPU Lokal: Biaya Rendah, Hambatan Masuk Rendah
Sampai saat ini, banyak model pembuatan gambar berkinerja tinggi hanya praktis digunakan di pusat data dengan sumber daya komputasi yang sangat besar. Namun, FLUX.2 dioptimalkan untuk berjalan pada GPU standar (seperti NVIDIA RTX) dengan konsumsi VRAM yang lebih rendah.
Model tidak lagi perlu diakses melalui cloud; model dapat diedit dan dihasilkan secara lokal, sehingga secara signifikan mengurangi biaya dan meningkatkan fleksibilitas operasional.
Ini merupakan keunggulan besar tidak hanya bagi perusahaan tetapi juga bagi kreator individu dan tim kecil.
Alur Kerja Kreasi dan Pengeditan Terpadu
FLUX.2 mendukung tidak hanya text-to-image (generasi teks → gambar) tetapi juga image-to-image (mengedit dan memberi gaya pada gambar yang sudah ada).
Ini memungkinkan Anda untuk secara konsisten menggunakan satu model untuk tugas seperti “menggambar gambar baru dari nol,” “mengedit dan memperbaiki foto yang sudah ada,” dan “menggunakan kembali beberapa gambar untuk membuat variasi yang seragam.”
Misalnya, mudah untuk mengubah latar belakang foto produk menjadi suasana yang berbeda atau mengubah ukurannya untuk media sosial.
Cara Mengakses Flux.2 API
Kami dengan senang hati mengumumkan bahwa CometAPI telah mengintegrasikan Flux.2 API. Kini Mendukung Model Berformat Replicate (Lebih Rendah dari Harga Resmi Replicate), endpoint FLUX.2:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
Mulai Bangun Sekarang Create Predictions – API Doc,
Ingin mencoba dulu? Uji FLUX.2 di playground kami setelah mendaftar dan masuk ke CometAPI, jika Anda ingin mulai membangun dengan API sekarang: Create Predictions – API Doc.
FLUX.2 bukan sekadar perilisan model lainnya; ini adalah strategi produk tingkat keluarga yang menjawab realitas produksi: fidelitas, kemampuan edit, koherensi multi-referensi, dan jalur deployment yang praktis (API terkelola dan checkpoint terbuka). Bagi organisasi yang memproduksi konten visual dalam skala besar, FLUX.2 menjanjikan peningkatan produktivitas yang berarti — asalkan tim memasangkan adopsi teknis dengan tata kelola lisensi dan kontrol kualitas yang kuat.
Penggunaan Utama dan Use Case yang Ditujukan untuk FLUX.2
Visual Produk/Pembuatan Katalog E-commerce
Bisnis e-commerce dan merek memiliki kebutuhan tinggi untuk mengambil banyak foto produk dari berbagai sudut, menggunakan pencahayaan, latar belakang, dan mode warna yang berbeda.
- Dengan FLUX.2, Anda dapat dengan cepat menghasilkan beberapa tampilan yang konsisten secara visual tanpa benar-benar memotret konten apa pun.
- Ini memungkinkan Anda memperluas katalog produk dengan cepat sambil mengurangi biaya fotografi, waktu, dan biaya manajemen.
Pembuatan Materi Iklan dan Pemasaran
Permintaan untuk materi desain sangat luas, termasuk banner iklan, gambar posting media sosial, visual kampanye promosi, dan poster hubungan masyarakat.
- Cukup berikan deskripsi teks untuk mendapatkan gambar dengan gaya, komposisi, dan suasana yang diinginkan, yang sangat mengurangi beban desainer dan pengiklan.
- Selain itu, karena variasi dapat dihasilkan menggunakan beberapa gambar referensi, ini juga cocok untuk A/B testing ide kreatif dan membuat materi yang kompatibel dengan berbagai bahasa dan wilayah.
Desain User Interface/User Experience, Prototyping
FLUX.2 juga mendukung pengeditan logo, font, tata letak, dan latar belakang, sehingga cocok tidak hanya untuk generasi foto tetapi juga untuk desain visual produk digital.
- Anda dapat dengan cepat membuat desain awal, wireframe, situs web acara, mockup layar aplikasi, dan lainnya.
- Ini adalah solusi produksi yang hemat biaya, terutama cocok untuk startup dan tim desain kecil.
Karya Seni/Kreatif dan Penggunaan Pribadi
Tentu saja, model ini juga dapat digunakan murni untuk “karya seni,” “ilustrasi,” atau “desain grafis.”
- Perluas cakrawala kreatif Anda dengan membuat karya dalam berbagai suasana dan gaya menggunakan prompt teks dan gambar referensi.
- Anda juga dapat menggunakan fitur pengeditan gambar untuk dengan bebas mengubah foto yang sudah ada menjadi gaya artistik, atau bereksperimen dengan lanskap fantasi maupun desain karakter.
Berbeda dari Model yang Ada dan Kompetitor—Mengapa Memilih FLUX.2?
Perbandingan dengan Model Pembuatan Gambar AI Lainnya
Saat ini, ada banyak model (open-source dan komersial) di bidang pembuatan gambar AI, seperti model diffusion tradisional dan model pesaing terbaru. Jadi, mengapa FLUX.2 begitu menarik? Alasannya adalah sebagai berikut:
- Generasi dan Pengeditan Terintegrasi: Banyak model berfokus pada “generasi (text to image)” atau “pengeditan (image to image).” FLUX.2 mendukung kedua fungsi tersebut secara bersamaan, menghasilkan alur kerja yang sangat konsisten.
- Input Banyak Referensi: Memanfaatkan beberapa gambar referensi untuk fotografi produk yang mudah dan konsistensi visual yang tetap terjaga.
- Kualitas Komersial dan Resolusi Tinggi: Mendukung 4MP untuk iklan, fotografi produk, dan cetak.
- Eksekusi Lokal yang Mudah: Tidak bergantung pada cloud dan dapat berjalan pada GPU standar, menawarkan keunggulan baik dari segi biaya maupun fleksibilitas.
- Pilihan Model yang Fleksibel: Menawarkan berbagai model yang mencakup kebutuhan standar, komersial, dan riset, sehingga Anda dapat memilih yang paling sesuai dengan kebutuhan dan anggaran Anda.
Hal ini menjadikan FLUX.2 pilihan yang kuat untuk alur kerja profesional, penggunaan komersial, produksi volume tinggi, dan proyek di mana biaya serta kecepatan sangat penting.
Pemikiran akhir:
FLUX.2 berada di persimpangan yang pragmatis: model ini menawarkan opsi riset berbobot terbuka untuk tim yang membutuhkan kontrol dan reproduktibilitas, serta API produksi terkelola untuk tim yang memprioritaskan latensi rendah, output yang dapat diprediksi, dan provenance. Dengan menyediakan varian terbuka dan terkelola (dev/pro/flex), BFL mengakui bahwa alur kerja yang berbeda — eksperimen, desain iteratif, dan produksi — memerlukan trade-off yang berbeda antara fidelitas, kecepatan, kustomisasi, dan tata kelola.
Developer dapat mengakses Flux.2 Dev API, Flux.2 Flex API dan Flux.2 Pro API melalui CometAPI. Untuk memulai, jelajahi kemampuan model CometAPI di Playground. Sebelum mengakses, pastikan Anda sudah masuk ke CometAPI dan memperoleh API key. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap Memulai?→ Daftar ke CometAPI hari ini !
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!
