Flux.2 là gì và Flux 2 hiện đã có trên CometAPI

CometAPI
AnnaNov 26, 2025
Flux.2 là gì và Flux 2 hiện đã có trên CometAPI

FLUX.2 là dòng sản phẩm mới được Black Forest Labs công bố gồm các mô hình tạo và chỉnh sửa hình ảnh, cung cấp độ trung thực ở cấp độ sản xuất, chỉnh sửa nhiều tham chiếu (tối đa 10 tham chiếu) và các biến thể có thể triển khai từ Dev trọng lượng mở đến Pro sản xuất và cấp Flex có thể kiểm soát.

FLUX.2 là gì?

FLUX.2 là dòng sản phẩm tạo và chỉnh sửa hình ảnh đạt chuẩn sản xuất của Black Forest Labs, kết hợp điều kiện hóa đa tham chiếu, không gian tiềm ẩn (VAE) được thiết kế lại và các nguyên hàm điều khiển nâng cao (điều khiển màu hex, nhắc nhở JSON, hướng dẫn tư thế) để mang lại kết quả nhất quán và độ trung thực cao cho các quy trình làm việc sáng tạo và thương mại. FLUX.2 hỗ trợ cả tạo văn bản→hình ảnh và chỉnh sửa hình ảnh đa tham chiếu trong một dòng sản phẩm duy nhất, và BFL cung cấp các điểm cuối API được lưu trữ cũng như các tạo tác trọng số mở cho nghiên cứu và suy luận cục bộ. Sản phẩm được cung cấp trên nhiều kênh phân phối: trọng số mở dành cho các nhà nghiên cứu/nhà phát triển (FLUX.2 ), các mô hình sản xuất được lưu trữ như **Flux.2 Pro**và các điểm cuối được lưu trữ có thể tùy chỉnh như Flux.2 Flex.

Các khả năng chính

  • Chỉnh sửa nhiều tài liệu tham khảo: Kết hợp tối đa 8–10 hình ảnh tham chiếu cho một đầu ra duy nhất mà vẫn duy trì tính nhất quán về bản sắc và phong cách. Điều này đặc biệt hữu ích cho quảng cáo, mô hình sản phẩm hoặc tính nhất quán về nhân vật trên nhiều phiên bản sáng tạo.
  • Độ phân giải cao (lên đến 4MP): đầu ra lên đến 4 megapixel (ví dụ: 2048×2048 trở lên, tùy thuộc vào tỷ lệ khung hình).
  • Chủ nghĩa hiện thực + chi tiết tinh tế: cải tiến về bàn tay, khuôn mặt, kết cấu và khả năng suy luận không gian so với các mô hình mở trước đó.
  • Lời nhắc có cấu trúc & lời nhắc JSON: FLUX.2 hỗ trợ các lời nhắc có cấu trúc/JSON ánh xạ tự nhiên tới các điều khiển UI (cảnh, chủ thể[], kiểu, ánh sáng, máy ảnh), cho phép tạo ra các chương trình có thể tái tạo.
  • Kiểu chữ và độ trung thực của màu sắc: khả năng hiển thị văn bản cực kỳ tốt và điều hướng màu sắc (hex) chính xác cho các quy trình làm việc nhạy cảm với thương hiệu.
  • Nguồn gốc nội dung và an toàn: API Pro áp dụng siêu dữ liệu C2PA được ký bằng mật mã vào các hình ảnh được tạo ra và vận hành lọc theo lớp cho các danh mục nội dung không được phép.

Pro, Flex và Dev: Chọn mẫu nào?

biến thểĐộ trễ và chi phíGiáo dụcKiểm soát & tính năngĐa tài liệu tham khảo
FLUX.2được tối ưu hóa cho độ trễ thấp (<10 giây trong thiết lập API thông thường), bao gồm bộ lọc nội dung và siêu dữ liệu C2PA được ký bằng mật mã để xác định nguồn gốc.Cao nhất (4MP, độ trung thực tốt nhất)Tính năng đầy đủ, SLA sản xuấtLên đến 8 (API, giới hạn 9MP)
FLUX.2độ trễ cao hơn pro nhưng phơi bày các siêu tham số suy luận có thể điều chỉnh (các bước, thang hướng dẫn, v.v.)CaoĐộ trung thực có thể điều chỉnh so với tính đa dạng; các bước suy luận có thể điều chỉnh, thang hướng dẫn và các biện pháp kiểm soát lấy mẫu khác để cân bằng giữa chất lượng/tốc độ.Lên đến 10
FLUX.2Phụ thuộc vào phần cứngMạnh (tạ mở)Chỉnh sửa đầy đủ + tham chiếu đa chiều; điểm kiểm tra mởKhuyến nghị tối đa 6
FLUX.2Edge / tài nguyên thấpVừa phải (chưng cất)Dấu chân VRAM nhỏ, nhanh

Khi nào nên chọn cái nào

  • Chọn dev nếu bạn phải chạy cục bộ, cần nghiên cứu thuật toán hoặc yêu cầu tùy chỉnh mở (và chấp nhận nhu cầu phần cứng cao).
  • Chọn khi bạn cần hình ảnh sản xuất có độ trễ thấp, có thể dự đoán được với các tính năng an toàn và nguồn gốc tích hợp.
  • Chọn uốn cong nếu bạn đang lặp lại các siêu tham số thế hệ (các bước điều chỉnh, thang đo hướng dẫn, v.v.) và muốn có một điểm cuối được quản lý để hiển thị điều khiển đó.

FLUX.2 hoạt động như thế nào?

FLUX.2 kết hợp ba yếu tố kiến ​​trúc chính:

1. Xương sống máy biến áp dòng chỉnh lưu

Về bản chất, FLUX.2 sử dụng một dòng chảy phù hợp / dòng chảy chỉnh lưu Kiến trúc biến áp hoạt động trong không gian tiềm ẩn đã học (một giải pháp thay thế hiện đại cho phương pháp khuếch tán trong một số quy trình sản xuất). Xương sống này cho phép kết xuất hình ảnh độ trung thực cao và suy luận không gian, giúp cải thiện tính nhất quán trên nhiều tham chiếu. Phương pháp "khớp dòng chảy" mang lại những đánh đổi khác nhau về tốc độ lấy mẫu và độ trung thực so với phương pháp khuếch tán cổ điển.

2. Bộ mã hóa tự động biến thiên mới (VAE)

Bộ mã hóa tự động được thiết kế riêng sẽ nén hình ảnh thành dạng biểu diễn tiềm ẩn được tối ưu hóa cho các tác vụ tạo và chỉnh sửa của FLUX.2. BFL tuyên bố rằng VAE mới cải thiện khả năng nén và độ trung thực (khả năng học tốt hơn và tái tạo chất lượng cao hơn so với các thế hệ trước). VAE là yếu tố quan trọng góp phần nâng cấp độ nét lên 4MP và cải thiện chi tiết.

3. Mô hình ngôn ngữ thị giác ngữ cảnh dài (VLM)

VLM (được báo cáo là có liên quan đến bộ mã hóa ngôn ngữ thị giác lớp Mistral trong các ghi chú đã xuất bản) cung cấp khả năng điều chỉnh ngôn ngữ và kiến ​​thức thực tế, giúp các lời nhắc trở nên trung thực hơn và mô hình tuân theo các hướng dẫn phức tạp tốt hơn (hướng dẫn tư thế, chỉnh sửa ngữ cảnh, v.v.). Việc kết hợp VLM với xương sống luồng cho phép FLUX.2 suy luận về thành phần và ngữ nghĩa trong các cửa sổ ngữ cảnh lớn hơn.

Cách các phần này tương tác (luồng thời gian chạy)

  1. Mã hóa đầu vào: hình ảnh tham chiếu được mã hóa thông qua VAE thành các mã thông báo tiềm ẩn; lời nhắc văn bản được mã hóa bởi VLM.
  2. Sự kết hợp đa phương thức: xương sống của bộ biến đổi tiếp nhận các hình ảnh tiềm ẩn + mã thông báo văn bản và mô hình hóa các mối quan hệ không gian, đặc điểm nhận dạng và hướng dẫn chỉnh sửa.
  3. Tạo dựa trên luồng: các máy lấy mẫu dòng chỉnh lưu tạo ra hoặc chỉnh sửa hình ảnh tiềm ẩn dựa trên biểu diễn hợp nhất.
  4. Giải mã: VAE giải mã các giá trị tiềm ẩn trở lại không gian pixel, tùy chọn áp dụng các ràng buộc màu cuối cùng và siêu dữ liệu hình mờ/C2PA.

Tại sao kiến ​​trúc này lại quan trọng

Sự kết hợp này mang lại ba lợi thế thực tế: (1) sự nhất quán đa tham chiếu bởi vì bản sắc và phong cách được mô phỏng rõ ràng trong tiềm ẩn; (2) văn bản và kiểu chữ tốt hơn do sự tích hợp chặt chẽ hơn giữa VLM và không gian tiềm ẩn của hình ảnh; (3) tùy chọn triển khai có thể mở rộng — cùng một họ mô hình cơ bản có thể được cung cấp dưới dạng trọng số mở để sử dụng cục bộ (dev), dưới dạng dịch vụ độ trễ thấp được quản lý (pro) hoặc dưới dạng dịch vụ có thể điều chỉnh cho nhà phát triển (flex).

FLUX.2 có tốt không?

Thực hiện trong các tiêu chuẩn

Black Forest Labs đã công bố các đánh giá so sánh và biểu đồ cho thấy FLUX.2 vượt trội hơn một số đối thủ cạnh tranh mở trong các bài kiểm tra so sánh trực tiếp về sở thích/tỷ lệ thắng của con người và trong các phân tích ELO so với chi phí. Những điểm nổi bật được báo cáo từ bản tóm tắt của nhà cung cấp/báo chí đã công bố bao gồm:

  • Tỷ lệ thắng của Văn bản → Hình ảnh: FLUX.2 đã báo cáo ≈66.6% tỷ lệ thắng (so với ~51.3% Qwen-Image, 48.1% Hunyuan Image 3.0).
  • Chỉnh sửa tham chiếu đơn: ≈59.8% tỷ lệ thắng (so với ~49.3% Qwen-Image, 41.2% FLUX.1 Kontext).
  • Chỉnh sửa nhiều tài liệu tham khảo: ≈63.6% tỷ lệ thắng (so với ~36.4% của Qwen-Image).
  • ELO so với chi phí: Nhóm FLUX.2 (Pro, Flex, Dev) nằm trong băng tần chất lượng cao, chi phí tương đối thấp (ELO ≈1030–1050 trong khi hoạt động ở mức ~2–6 xu cho mỗi hình ảnh theo biểu đồ giá của nhà cung cấp).

Tạo nhiều tham chiếu

Một trong những tính năng lớn nhất của FLUX.2 là khả năng tạo ra nhiều đầu ra nhất quán bằng cách sử dụng nhiều hình ảnh tham chiếu.

Ví dụ, khi chụp ảnh sản phẩm, bạn có thể tải lên nhiều ảnh chụp từ nhiều góc độ, trong điều kiện ánh sáng khác nhau và với nhiều phông nền khác nhau, rồi tạo nhiều biến thể của cùng một hình ảnh cùng một lúc.

Tính năng này cho phép bạn nhanh chóng tạo hàng loạt ảnh danh mục sản phẩm cho các trang web thương mại điện tử, biểu ngữ quảng cáo, bộ ảnh mạng xã hội, v.v.

Không giống như cách tạo ảnh đơn truyền thống, cơ chế tham chiếu đa dạng này lý tưởng cho các quy trình làm việc thực tế nhấn mạnh vào tính nhất quán và toàn vẹn.

Độ phân giải cao, chất lượng doanh nghiệp (Lên đến 4MP)

FLUX.2 hỗ trợ đầu ra lên đến 4 megapixel (khoảng 2000-3000 pixel), cung cấp chất lượng hình ảnh phù hợp cho các ứng dụng thực tế như quảng cáo, in ấn, biển báo và áp phích.

Nó xử lý văn bản, logo, mô hình UI, đồ họa thông tin và nhiều thứ khác một cách hoàn hảo, không chỉ phù hợp cho sáng tạo nghệ thuật mà còn cho thiết kế và mục đích thương mại.

Trong khi đó, chất lượng hiển thị của phông chữ và văn bản cũng được cải thiện, phù hợp để tạo biểu ngữ quảng cáo và nhãn sản phẩm.

Hỗ trợ thực thi GPU cục bộ: Chi phí thấp, rào cản gia nhập thấp

Cho đến nay, nhiều mô hình tạo hình ảnh hiệu suất cao chỉ khả thi trong các trung tâm dữ liệu có tài nguyên tính toán khổng lồ. Tuy nhiên, FLUX.2 được tối ưu hóa để chạy trên các GPU tiêu chuẩn (như NVIDIA RTX) với mức tiêu thụ VRAM thấp hơn.

Các mô hình không còn cần phải được truy cập thông qua đám mây nữa; chúng có thể được chỉnh sửa và tạo ra tại địa phương, giúp giảm đáng kể chi phí và tăng tính linh hoạt trong hoạt động.

Đây là một lợi thế lớn không chỉ cho các công ty mà còn cho cả những người sáng tạo cá nhân và các nhóm nhỏ.

Quy trình tạo và chỉnh sửa hợp nhất

FLUX.2 không chỉ hỗ trợ chuyển văn bản thành hình ảnh (tạo văn bản → hình ảnh) mà còn hỗ trợ chuyển hình ảnh thành hình ảnh (chỉnh sửa và định dạng hình ảnh hiện có).

Điều này cho phép bạn sử dụng một mô hình duy nhất một cách nhất quán cho các tác vụ như "vẽ một hình ảnh mới từ đầu", "chỉnh sửa và chỉnh sửa ảnh hiện có" và "tái sử dụng nhiều hình ảnh để tạo ra các biến thể đồng nhất".

Ví dụ, bạn có thể dễ dàng thay đổi nền của ảnh sản phẩm sang một bầu không khí khác hoặc thay đổi kích thước ảnh để phù hợp với mạng xã hội.

Cách truy cập API Flux.2

Chúng tôi vui mừng thông báo rằng CometAPI đã tích hợp API Flux.2. Hiện hỗ trợ Mô hình Định dạng Replicate (Giá thấp hơn Giá chính thức của Replicate), các Điểm cuối FLUX.2:

  • black-forest-labs/flux-2-pro
  • black-forest-labs/flux-2-dev
  • black-forest-labs/flux-2-flex

Bắt đầu xây dựng ngay bây giờ Tạo dự đoán – Tài liệu API,

Bạn có muốn thử trước không? Kiểm tra FLUX.2 và trong sân chơi sau khi đăng ký và đăng nhập vào CometAPI, nếu bạn muốn bắt đầu xây dựng với API ngay bây giờ: Tạo dự đoán – Tài liệu API.

FLUX.2 không chỉ là một mô hình mới; nó là một chiến lược sản phẩm cấp độ gia đình, giải quyết các vấn đề thực tế trong sản xuất: độ trung thực, khả năng chỉnh sửa, tính nhất quán đa tham chiếu và các lộ trình triển khai thiết thực (API được quản lý và điểm kiểm tra mở). Đối với các tổ chức sản xuất nội dung trực quan ở quy mô lớn, FLUX.2 hứa hẹn mang lại những cải thiện đáng kể về năng suất — với điều kiện các nhóm kết hợp việc áp dụng kỹ thuật với quản trị cấp phép và kiểm soát chất lượng chặt chẽ.

Công dụng chính và các trường hợp sử dụng dự kiến ​​của FLUX.2

Hình ảnh sản phẩm/Tạo danh mục thương mại điện tử

Các doanh nghiệp và thương hiệu thương mại điện tử có nhu cầu cao trong việc chụp nhiều ảnh sản phẩm từ nhiều góc độ, sử dụng nhiều chế độ ánh sáng, phông nền và màu sắc khác nhau.

  • Với FLUX.2, bạn có thể nhanh chóng tạo ra nhiều hiệu ứng trực quan nhất quán mà không cần phải quay bất kỳ nội dung nào.
  • Điều này cho phép bạn nhanh chóng mở rộng danh mục sản phẩm đồng thời giảm chi phí chụp ảnh, thời gian và chi phí quản lý.

Tạo tài liệu quảng cáo và tiếp thị

Nhu cầu về vật liệu thiết kế rất đa dạng, bao gồm biểu ngữ quảng cáo, hình ảnh bài đăng trên mạng xã hội, hình ảnh chiến dịch quảng cáo và áp phích quan hệ công chúng.

  • Chỉ cần cung cấp mô tả văn bản để có được hình ảnh có phong cách, bố cục và bầu không khí mong muốn, giúp giảm đáng kể gánh nặng cho các nhà thiết kế và nhà quảng cáo.
  • Hơn nữa, vì có thể tạo ra các biến thể bằng cách sử dụng nhiều hình ảnh tham chiếu nên nó cũng phù hợp để thử nghiệm A/B các ý tưởng sáng tạo và tạo ra các tài liệu tương thích với nhiều ngôn ngữ và khu vực.

Thiết kế giao diện người dùng/trải nghiệm người dùng, tạo mẫu

FLUX.2 cũng hỗ trợ chỉnh sửa logo, phông chữ, bố cục và hình nền, không chỉ phù hợp để tạo ảnh mà còn phù hợp để thiết kế hình ảnh cho các sản phẩm kỹ thuật số.

  • Bạn có thể nhanh chóng tạo các thiết kế sơ bộ, khung lưới, trang web sự kiện, mô hình màn hình ứng dụng, v.v.
  • Đây là giải pháp sản xuất tiết kiệm chi phí, đặc biệt phù hợp với các công ty khởi nghiệp và nhóm thiết kế nhỏ.

Tác phẩm nghệ thuật/sáng tạo và sử dụng cá nhân

Tất nhiên, nó cũng có thể được sử dụng hoàn toàn cho "tác phẩm nghệ thuật", "hình minh họa" hoặc "thiết kế đồ họa".

  • Mở rộng tầm nhìn sáng tạo của bạn bằng cách tạo ra các tác phẩm theo nhiều tâm trạng và phong cách khác nhau bằng cách sử dụng lời nhắc văn bản và hình ảnh tham khảo.
  • Bạn cũng có thể sử dụng các tính năng chỉnh sửa ảnh để thoải mái tái sử dụng các bức ảnh hiện có theo phong cách nghệ thuật hoặc thử nghiệm với phong cảnh kỳ ảo hoặc thiết kế nhân vật.

Khác biệt so với các mô hình hiện có và đối thủ cạnh tranh—Tại sao nên chọn FLUX.2?

So sánh với các mô hình tạo hình ảnh AI khác

Hiện nay, có rất nhiều mô hình (nguồn mở và thương mại) trong lĩnh vực tạo hình ảnh AI, chẳng hạn như các mô hình khuếch tán truyền thống và các mô hình cạnh tranh mới nhất. Vậy tại sao FLUX.2 lại hấp dẫn đến vậy? Lý do là:

  • Tạo và chỉnh sửa tích hợp: Nhiều mô hình tập trung vào "tạo (văn bản thành hình ảnh)" hoặc "chỉnh sửa (hình ảnh thành hình ảnh)". FLUX.2 hỗ trợ cả hai chức năng cùng lúc, đạt được quy trình làm việc có tính nhất quán cao.
  • Nhiều đầu vào tham chiếu: Sử dụng nhiều hình ảnh tham chiếu để chụp ảnh sản phẩm dễ dàng và có tính nhất quán về mặt hình ảnh.
  • Chất lượng thương mại và độ phân giải cao: Hỗ trợ 4MP cho quảng cáo, chụp ảnh sản phẩm và in ấn.
  • Thực thi cục bộ dễ dàng: Không phụ thuộc vào đám mây và có thể chạy trên GPU tiêu chuẩn, mang lại lợi thế về cả chi phí và tính linh hoạt.
  • Lựa chọn mô hình linh hoạt: Cung cấp nhiều mô hình đáp ứng mọi nhu cầu từ tiêu chuẩn đến ứng dụng thương mại và nghiên cứu, cho phép bạn lựa chọn mô hình phù hợp nhất với nhu cầu và ngân sách của mình.

Điều này khiến FLUX.2 trở thành lựa chọn mạnh mẽ cho quy trình làm việc chuyên nghiệp, mục đích thương mại, sản xuất khối lượng lớn và các dự án mà chi phí và tốc độ là yếu tố quan trọng.

Suy nghĩ cuối cùng:

FLUX.2 nằm ở một giao lộ thực dụng: nó cung cấp các lựa chọn nghiên cứu trọng lượng mở cho các nhóm cần kiểm soát và khả năng tái tạo, và API được quản lý, sản xuất dành cho các nhóm ưu tiên độ trễ thấp, đầu ra có thể dự đoán và nguồn gốc. Bằng cách cung cấp cả phiên bản mở và được quản lý (dev/pro/flex), BFL thừa nhận rằng các quy trình làm việc khác nhau — thử nghiệm, thiết kế lặp lại và sản xuất — đòi hỏi những đánh đổi khác nhau giữa độ trung thực, tốc độ, khả năng tùy chỉnh và quản trị.

Các nhà phát triển có thể truy cập API phát triển Flux.2, API linh hoạt Flux.2API Flux.2 Pro thông qua CometAPI. Để bắt đầu, hãy khám phá khả năng mô hình của CometAPI trong Sân chơi. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. VớietAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VKX và Discord!

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%