Flux.2 là gì và Flux 2 hiện đã khả dụng trên CometAPI

FLUX.2 là một họ mô hình tạo và chỉnh sửa hình ảnh mới được Black Forest Labs công bố, cung cấp độ trung thực cấp sản xuất, chỉnh sửa đa tham chiếu (tối đa 10 tham chiếu), và các biến thể có thể triển khai từ bản open-weight Dev đến bản sản xuất Pro và tầng Flex có thể điều khiển.

FLUX.2 là gì?

FLUX.2 là họ mô hình tạo + chỉnh sửa hình ảnh cấp sản xuất của Black Forest Labs, kết hợp điều kiện đa tham chiếu, không gian latent (VAE) được làm lại, và các nguyên thủy điều khiển nâng cao (điều hướng màu hex, nhắc lệnh JSON, hướng dẫn tư thế) để mang lại kết quả nhất quán, độ trung thực cao cho quy trình sáng tạo và thương mại. Nó hỗ trợ cả tạo văn bản→hình ảnh và chỉnh sửa hình ảnh đa tham chiếu trong cùng một họ mô hình, và BFL cung cấp cả endpoint API được lưu trữ lẫn artifact open-weight cho nghiên cứu và suy luận cục bộ. Gói sản phẩm tồn tại trên nhiều kênh phân phối: trọng số mở cho nhà nghiên cứu/nhà phát triển (FLUX.2), mô hình sản xuất được lưu trữ như Flux.2 Pro, và endpoint lưu trữ tùy chỉnh như Flux.2 Flex.

Năng lực chính

Chỉnh sửa đa tham chiếu: kết hợp tới 8–10 ảnh tham chiếu cho một đầu ra trong khi vẫn giữ nhất quán về danh tính và phong cách. Điều này đặc biệt hữu ích cho quảng cáo, mockup sản phẩm, hoặc tính liên tục của nhân vật giữa các biến thể sáng tạo.
Độ phân giải cao (tối đa 4MP): xuất tối đa 4 megapixel (ví dụ 2048×2048 và lớn hơn, tùy theo tỷ lệ khung hình).
Ảnh chân thực + chi tiết tinh xảo: cải thiện ở tay, khuôn mặt, kết cấu và suy luận không gian so với các mô hình mở trước đó.
Nhắc lệnh có cấu trúc & nhắc lệnh JSON: FLUX.2 hỗ trợ nhắc lệnh có cấu trúc/JSON ánh xạ tự nhiên tới các điều khiển UI (scene, subjects[], style, lighting, camera), cho phép tạo sinh có lập trình và tái lập.
Độ chính xác về chữ và màu: dựng chữ tốt bất thường và điều hướng màu chính xác (hex) cho các quy trình nhạy cảm với thương hiệu.
Nguồn gốc nội dung & an toàn: API Pro áp dụng metadata C2PA được ký mật mã cho ảnh tạo ra và vận hành lọc nhiều lớp cho các danh mục nội dung không cho phép.

Pro vs Flex vs Dev: Nên chọn mô hình nào?

Variant	Latency & cost	Quality	Control & features	Multi-reference
FLUX.2	tối ưu cho độ trễ thấp (<10s trong thiết lập API điển hình), bao gồm bộ lọc nội dung và metadata C2PA được ký mật mã cho tính nguồn gốc.	Cao nhất (4MP, độ trung thực tốt nhất)	Đầy đủ tính năng, SLA cấp sản xuất	Tối đa 8 (API, giới hạn 9MP)
FLUX.2	độ trễ cao hơn `pro` nhưng cho phép điều chỉnh siêu tham số suy luận (steps, guidance scale, v.v.)	Cao	Cân chỉnh độ trung thực vs. đa dạng; điều chỉnh số bước suy luận, hệ số hướng dẫn và các điều khiển lấy mẫu khác cho đánh đổi chất lượng/tốc độ.	Tối đa 10
FLUX.2	Phụ thuộc vào phần cứng	Mạnh (open weights)	Đầy đủ chỉnh sửa + đa tham chiếu; checkpoint mở	Khuyến nghị tối đa 6
FLUX.2	Edge / tài nguyên thấp	Vừa phải (distilled)	Nhanh, chiếm VRAM nhỏ

Khi nào chọn cái nào

Chọn dev nếu bạn phải chạy cục bộ, cần nghiên cứu thuật toán hoặc cần tùy biến trọng số mở (và chấp nhận nhu cầu phần cứng cao).
Chọn pro khi bạn cần ảnh sản xuất với độ trễ thấp, ổn định cùng tính năng an toàn và nguồn gốc tích hợp.
Chọn flex nếu bạn đang tinh chỉnh siêu tham số tạo sinh (số bước, hệ số hướng dẫn, v.v.) và muốn một endpoint quản lý cho phép những điều khiển đó.

FLUX.2 hoạt động như thế nào?

FLUX.2 tập hợp ba thành phần kiến trúc chính:

1. Backbone transformer rectified-flow

Cốt lõi của FLUX.2 sử dụng kiến trúc transformer flow-matching/rectified-flow hoạt động trong không gian latent học được (một lựa chọn hiện đại thay thế diffusion cho một số pipeline sản xuất). Backbone này cho phép dựng hình độ trung thực cao và suy luận không gian, cải thiện tính nhất quán qua nhiều tham chiếu. Phương pháp “flow matching” mang lại những đánh đổi khác về tốc độ lấy mẫu và độ trung thực so với diffusion cổ điển.

2. Variational autoencoder (VAE) mới

Một autoencoder được xây dựng có mục đích nén ảnh vào biểu diễn latent được tối ưu cho tác vụ tạo và chỉnh sửa của FLUX.2. BFL cho biết VAE mới cải thiện khả năng nén và độ trung thực (động lực học học tốt hơn và tái tạo chất lượng cao hơn so với các thế hệ trước). VAE là đóng góp then chốt cho khả năng upscale sạch tới 4MP và chi tiết được cải thiện.

3. Mô hình ngôn ngữ–thị giác ngữ cảnh dài (VLM)

Một VLM (được cho là liên quan tới bộ mã hóa ngôn ngữ–thị giác cùng lớp Mistral theo ghi chú công bố) cung cấp điều kiện ngôn ngữ và kiến thức thế giới thực, giúp nhắc lệnh trung thực hơn và mô hình theo dõi chỉ dẫn phức tạp tốt hơn (hướng dẫn tư thế, chỉnh sửa ngữ cảnh, v.v.). Kết hợp VLM với backbone flow cho phép FLUX.2 lý luận về bố cục và ngữ nghĩa ở cửa sổ ngữ cảnh lớn hơn.

Cách các phần này tương tác (quy trình chạy)

Mã hóa đầu vào: ảnh tham chiếu được VAE mã hóa thành token latent; nhắc lệnh văn bản được VLM mã hóa.
Hợp nhất liên phương thức: backbone transformer tiếp nhận latent ảnh + token văn bản và mô hình hóa quan hệ không gian, đặc trưng danh tính và chỉ dẫn chỉnh sửa.
Tạo sinh dựa trên flow: bộ lấy mẫu rectified-flow tạo/chỉnh sửa ảnh latent có điều kiện trên biểu diễn đã hợp nhất.
Giải mã: VAE giải mã latent về không gian điểm ảnh, tùy chọn áp dụng ràng buộc màu cuối cùng và watermark/metadata C2PA.

Vì sao kiến trúc này quan trọng

Sự kết hợp này mang lại ba lợi thế thực tiễn: (1) tính mạch lạc đa tham chiếu vì danh tính và phong cách được mô hình hóa tường minh trong latent; (2) văn bản và typography tốt hơn nhờ tích hợp chặt hơn giữa VLM và không gian latent ảnh; (3) tùy chọn triển khai mở rộng — cùng một họ mô hình có thể phát hành dưới dạng trọng số mở cho sử dụng cục bộ (dev), dịch vụ quản lý độ trễ thấp (pro), hoặc dịch vụ có thể tinh chỉnh cho nhà phát triển (flex).

FLUX.2 tốt đến mức nào?

Hiệu năng trong các benchmark

Black Forest Labs đã công bố các đánh giá so sánh và biểu đồ cho thấy FLUX.2 vượt trội so với một số đối thủ open-weight trong các bài kiểm tra ưu tiên của con người theo cặp và phân tích ELO vs. chi phí. Điểm nổi bật báo cáo từ tóm tắt nhà cung cấp/báo chí gồm:

Tỷ lệ thắng Text→Image: FLUX.2 báo cáo tỷ lệ thắng ≈66,6% (so với ~51,3% Qwen-Image, 48,1% Hunyuan Image 3.0).
Chỉnh sửa đơn tham chiếu: ≈59,8% tỷ lệ thắng (so với ~49,3% Qwen-Image, 41,2% FLUX.1 Kontext).
Chỉnh sửa đa tham chiếu: ≈63,6% tỷ lệ thắng (so với ~36,4% cho Qwen-Image).
ELO vs chi phí: họ FLUX.2 (Pro, Flex, Dev) tập trung ở dải chất lượng cao, chi phí tương đối thấp (ELO ≈1030–1050 trong khi hoạt động ở ~2–6 xu mỗi ảnh theo biểu giá của nhà cung cấp).

Tạo sinh đa tham chiếu

Một trong những tính năng lớn nhất của FLUX.2 là khả năng tạo nhiều đầu ra nhất quán bằng cách sử dụng nhiều ảnh tham chiếu.

Ví dụ, khi chụp ảnh sản phẩm, bạn có thể tải lên nhiều ảnh chụp từ các góc khác nhau, dưới các điều kiện ánh sáng khác nhau và trên các phông nền khác nhau, rồi tạo ra nhiều biến thể của cùng một hình ảnh cùng lúc.

Tính năng này cho phép bạn nhanh chóng tạo hàng loạt ảnh catalog sản phẩm cho website thương mại điện tử, banner quảng cáo, bộ ảnh mạng xã hội và hơn thế nữa.

Không giống cơ chế tạo một ảnh truyền thống, cơ chế đa tham chiếu này lý tưởng cho quy trình thực tế nhấn mạnh tính nhất quán và toàn vẹn.

Độ phân giải cao, chất lượng cho doanh nghiệp (tối đa 4MP)

FLUX.2 hỗ trợ đầu ra lên tới 4 megapixel (xấp xỉ 2000–3000 pixel), mang lại chất lượng hình ảnh phù hợp cho các ứng dụng thực tiễn như quảng cáo, in ấn, biển hiệu và poster.

Nó xử lý văn bản, logo, mockup UI, infographic và hơn thế nữa một cách hoàn hảo, phù hợp không chỉ cho sáng tạo nghệ thuật mà còn cho thiết kế và sử dụng thương mại.

Trong khi đó, chất lượng dựng font và văn bản cũng được cải thiện, phù hợp để tạo banner quảng cáo và nhãn sản phẩm.

Hỗ trợ chạy trên GPU cục bộ: chi phí thấp, rào cản thấp

Cho đến nay, nhiều mô hình tạo ảnh hiệu năng cao chỉ thực tế trong các trung tâm dữ liệu với tài nguyên tính toán lớn. Tuy nhiên, FLUX.2 được tối ưu để chạy trên GPU tiêu chuẩn (như NVIDIA RTX) với mức tiêu thụ VRAM thấp hơn.

Mô hình không còn cần truy cập qua đám mây; có thể chỉnh sửa và tạo sinh cục bộ, giảm đáng kể chi phí và tăng tính linh hoạt vận hành.

Đây là lợi thế lớn không chỉ cho doanh nghiệp mà còn cho nhà sáng tạo cá nhân và đội nhỏ.

Quy trình sáng tạo và chỉnh sửa hợp nhất

FLUX.2 không chỉ hỗ trợ văn bản-đến-hình ảnh (text → image generation) mà còn hỗ trợ ảnh-đến-ảnh (chỉnh sửa và tạo phong cách cho ảnh hiện có).

Điều này cho phép bạn nhất quán sử dụng một mô hình duy nhất cho các tác vụ như “vẽ ảnh mới từ đầu”, “chỉnh sửa và retouch ảnh có sẵn” và “tái sử dụng nhiều ảnh để tạo biến thể đồng nhất”.

Ví dụ, việc thay nền ảnh sản phẩm sang bầu không khí khác hoặc chỉnh kích thước cho mạng xã hội trở nên dễ dàng.

Cách truy cập Flux.2 API

Chúng tôi vui mừng thông báo CometAPI đã tích hợp Flux.2 API. Hiện hỗ trợ Model định dạng Replicate (giá thấp hơn giá chính thức của Replicate), các Endpoint FLUX.2:

black-forest-labs/flux-2-pro
black-forest-labs/flux-2-dev
black-forest-labs/flux-2-flex

Bắt đầu xây dựng ngay Create Predictions – API Doc,

Muốn thử trước? Hãy thử FLUX.2 trong playground sau khi đăng ký và đăng nhập CometAPI, nếu bạn muốn bắt đầu xây dựng với API ngay bây giờ: Create Predictions – API Doc.

FLUX.2 không chỉ là một bản phát hành mô hình khác; đó là chiến lược sản phẩm cấp họ mô hình, giải quyết thực tế sản xuất: độ trung thực, khả năng chỉnh sửa, mạch lạc đa tham chiếu, và con đường triển khai thực tiễn (API quản lý và checkpoint mở). Với các tổ chức sản xuất nội dung hình ảnh ở quy mô lớn, FLUX.2 hứa hẹn mang lại lợi ích năng suất đáng kể — với điều kiện đội ngũ đi kèm áp dụng kỹ thuật với quản trị cấp phép và kiểm soát chất lượng vững chắc.

Các mục đích chính và trường hợp sử dụng dự kiến của FLUX.2

Hình ảnh sản phẩm/Tạo catalog thương mại điện tử

Doanh nghiệp thương mại điện tử và thương hiệu có nhu cầu lớn chụp nhiều ảnh sản phẩm từ nhiều góc, với các điều kiện ánh sáng, phông nền và chế độ màu khác nhau.

Với FLUX.2, bạn có thể nhanh chóng tạo nhiều hiệu ứng nhất quán về thị giác mà không cần chụp thật.
Điều này cho phép bạn mở rộng nhanh catalog sản phẩm đồng thời giảm chi phí chụp ảnh, thời gian và chi phí quản lý.

Tạo tài liệu quảng cáo và marketing

Nhu cầu về tư liệu thiết kế rất rộng, gồm banner quảng cáo, ảnh bài đăng mạng xã hội, hình ảnh chiến dịch khuyến mãi và poster PR.

Chỉ cần cung cấp mô tả văn bản để nhận hình ảnh với phong cách, bố cục và bầu không khí mong muốn, giảm đáng kể gánh nặng cho nhà thiết kế và nhà quảng cáo.
Hơn nữa, vì có thể tạo biến thể bằng nhiều ảnh tham chiếu, nên cũng phù hợp cho A/B testing ý tưởng sáng tạo và tạo tư liệu tương thích nhiều ngôn ngữ/khu vực.

Thiết kế Giao diện người dùng/Trải nghiệm người dùng, tạo prototype

FLUX.2 cũng hỗ trợ chỉnh sửa logo, font, bố cục và nền, phù hợp không chỉ cho tạo ảnh mà còn cho thiết kế thị giác của sản phẩm số.

Bạn có thể nhanh chóng tạo thiết kế sơ bộ, wireframe, website sự kiện, mockup màn hình ứng dụng, và hơn thế nữa.
Đây là giải pháp sản xuất tiết kiệm chi phí, đặc biệt phù hợp cho startup và đội thiết kế nhỏ.

Nghệ thuật/Tác phẩm sáng tạo và sử dụng cá nhân

Tất nhiên, nó cũng có thể dùng thuần túy cho “tác phẩm nghệ thuật”, “minh họa” hoặc “thiết kế đồ họa”.

Mở rộng biên độ sáng tạo bằng cách tạo tác phẩm ở nhiều tâm trạng và phong cách khác nhau với nhắc lệnh văn bản và ảnh tham chiếu.
Bạn cũng có thể dùng tính năng chỉnh sửa ảnh để tái mục đích ảnh hiện có sang phong cách nghệ thuật, hoặc thử nghiệm phong cảnh kỳ ảo hay thiết kế nhân vật.

Khác biệt so với các mô hình hiện có và đối thủ — Vì sao chọn FLUX.2?

So sánh với các mô hình tạo ảnh AI khác

Hiện có rất nhiều mô hình (mã nguồn mở và thương mại) trong lĩnh vực tạo ảnh AI, như các mô hình diffusion truyền thống và các mô hình cạnh tranh mới nhất. Vậy, điều gì làm FLUX.2 hấp dẫn? Lý do như sau:

Tích hợp Tạo sinh và Chỉnh sửa: Nhiều mô hình tập trung hoặc vào “tạo sinh (văn bản đến hình ảnh)” hoặc “chỉnh sửa (ảnh đến ảnh)”. FLUX.2 hỗ trợ đồng thời cả hai, đạt quy trình làm việc nhất quán cao.
Nhiều đầu vào tham chiếu: Sử dụng nhiều ảnh tham chiếu để dễ dàng chụp sản phẩm và đảm bảo nhất quán thị giác.
Chất lượng thương mại và độ phân giải cao: Hỗ trợ 4MP cho quảng cáo, chụp sản phẩm và in ấn.
Dễ chạy cục bộ: Không phụ thuộc đám mây và có thể chạy trên GPU tiêu chuẩn, mang lại lợi thế cả về chi phí lẫn linh hoạt.
Lựa chọn mô hình linh hoạt: Cung cấp nhiều biến thể từ chuẩn đến thương mại và nghiên cứu, cho phép chọn cái phù hợp nhất với nhu cầu và ngân sách.

Điều này khiến FLUX.2 trở thành lựa chọn mạnh mẽ cho quy trình chuyên nghiệp, sử dụng thương mại, sản xuất khối lượng lớn, và các dự án nơi chi phí và tốc độ là then chốt.

Tổng kết

FLUX.2 nằm ở giao điểm thực dụng: cung cấp tùy chọn trọng số mở cho đội ngũ cần kiểm soát và khả năng tái lập, và API sản xuất quản lý cho đội ưu tiên độ trễ thấp, đầu ra dự đoán được và nguồn gốc. Bằng cách phát hành cả biến thể mở và quản lý (dev/pro/flex), BFL thừa nhận rằng các quy trình khác nhau — thử nghiệm, thiết kế lặp, và sản xuất — cần những đánh đổi khác nhau giữa độ trung thực, tốc độ, mức tùy biến và quản trị.

Nhà phát triển có thể truy cập Flux.2 Dev API, Flux.2 Flex API và Flux.2 Pro API thông qua CometAPI. Để bắt đầu, hãy khám phá năng lực mô hình của CometAPI trong Playground. Trước khi truy cập, hãy đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Đăng ký CometAPI ngay hôm nay!

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI hãy theo dõi chúng tôi trên VK, X và Discord!

Sẵn sàng giảm 20% chi phí phát triển AI?

Đọc thêm