FLUX.2 — это недавно анонсированное семейство моделей для генерации и редактирования изображений от Black Forest Labs, обеспечивающее промышленного уровня точность, многореференсное редактирование (до 10 референсов) и варианты развёртывания от открытых весов Dev до производственного Pro и управляемого уровня Flex.
Что такое FLUX.2?
FLUX.2 — это производственная линейка генерации и редактирования изображений от Black Forest Labs, объединяющая многореференсное кондиционирование, переработанное латентное пространство (VAE) и продвинутые примитивы управления (настройка цвета по hex, JSON‑промпты, управление позой) для обеспечения стабильных, высокодетализированных результатов в творческих и коммерческих рабочих процессах. Она поддерживает как генерацию по тексту (text→image), так и многореференсное редактирование изображений в рамках одного семейства моделей, а BFL предоставляет как размещённые API‑эндпойнты, так и артефакты с открытыми весами для исследований и локального инференса. Предложение доступно по нескольким каналам: открытые веса для исследователей/разработчиков (FLUX.2 ), размещённые производственные модели, такие как Flux.2 Pro, и настраиваемые размещённые эндпойнты, такие как Flux.2 Flex.
Ключевые возможности
- Многореференсное редактирование: объединяйте до 8–10 референсных изображений для одного результата при сохранении идентичности и стилистической согласованности. Особенно полезно для рекламы, продуктовых мокапов и сохранения целостности персонажа в креативных вариантах.
- Высокое разрешение (до 4 МП): выход до 4 мегапикселей (например, 2048×2048 и больше, в зависимости от соотношения сторон).
- Фотореализм и тонкие детали: улучшения рук, лиц, текстур и пространственного понимания по сравнению с более ранними открытыми моделями.
- Структурированные промпты и JSON‑промпты: FLUX.2 поддерживает структурированные/JSON‑промпты, которые естественно отображаются на элементы UI (scene, subjects[], style, lighting, camera), позволяя программируемую и воспроизводимую генерацию.
- Типографика и точная цветопередача: необычно качественная отрисовка текста и точное управление цветом (hex) для задач с чувствительностью к бренду.
- Происхождение контента и безопасность: Pro API добавляет криптографически подписанные метаданные C2PA к созданным изображениям и применяет многоуровневую фильтрацию запрещённых категорий контента.
Pro vs Flex vs Dev: какую модель выбрать?
| Вариант | Задержка и стоимость | Качество | Контроль и функции | Многореференсность |
|---|---|---|---|---|
| FLUX.2 | оптимизирован для низкой задержки (<10 с в типичных API‑настройках), включает фильтры контента и криптографически подписанные метаданные C2PA для подтверждения происхождения. | Наивысшее (4 МП, лучшая точность) | Полный набор функций, производственные SLA | До 8 (API, лимит 9 МП) |
| FLUX.2 | большая задержка, чем у pro, но предоставляет доступ к настраиваемым гиперпараметрам инференса (steps, guidance scale и т. п.) | Высокое | Балансируемая точность/разнообразие; настраиваемые число шагов, guidance scale и другие параметры сэмплинга для компромисса качество/скорость. | До 10 |
| FLUX.2 | Зависит от оборудования | Высокое (открытые веса) | Полное редактирование + многореференсность; открытый чекпойнт | Рекомендуемый максимум 6 |
| FLUX.2 | Периферия / малоресурсные | Умеренное (distilled) | Быстро, небольшой отпечаток по VRAM |
Когда что выбирать
- Выбирайте dev, если нужно запускать локально, требуется алгоритмическое исследование или нужны кастомизации с открытыми весами (и вы принимаете высокие требования к железу).
- Выбирайте pro, когда необходимы предсказуемые, низколатентные производственные результаты с встроенной безопасностью и метаданными происхождения.
- Выбирайте flex, если вы итеративно подбираете гиперпараметры генерации (настройка шагов, guidance scale и т. п.) и хотите управляемый эндпойнт с этим контролем.
Как работает FLUX.2?
FLUX.2 объединяет три основных архитектурных элемента:
1. Бэкбон‑трансформер с flow‑matching/rectified‑flow
В основе FLUX.2 лежит архитектура трансформера с flow‑matching / rectified‑flow, работающая в обученном латентном пространстве (современная альтернатива диффузии для некоторых производственных пайплайнов). Этот бэкбон обеспечивает высокую точность рендеринга и пространственное понимание, повышая согласованность при работе с несколькими референсами. Подход «flow matching» даёт иные компромиссы между скоростью сэмплинга и точностью по сравнению с классической диффузией.
2. Новый вариационный автоэнкодер (VAE)
Специально разработанный автоэнкодер сжимает изображения в латентное представление, оптимизированное под задачи генерации и редактирования FLUX.2. По заявлению BFL, новый VAE улучшает сжимаемость и точность (лучшие динамики обучения и более качественные реконструкции по сравнению с предыдущими поколениями). VAE — ключевой фактор для чистого апскейлинга до 4 МП и улучшенной детализации.
3. Визуально‑языковая модель (VLM) с длинным контекстом
VLM (по опубликованным примечаниям связанная с визуально‑языковыми энкодерами класса Mistral) обеспечивает языковое кондиционирование и «знание мира», делая промпты более точными и улучшая следование сложным инструкциям (управление позой, контекстные правки и т. п.). Комбинация VLM с flow‑бэкбоном позволяет FLUX.2 рассуждать о композиции и семантике на больших окнах контекста.
Как взаимодействуют эти компоненты (рабочий конвейер)
- Кодирование входов: референсные изображения кодируются VAE в латентные токены; текстовые промпты кодируются VLM.
- Кросс‑модальное слияние: бэкбон‑трансформер принимает латенты изображений и текстовые токены и моделирует пространственные отношения, признаки идентичности и инструкции редактирования.
- Генерация на основе flow: сэмплеры rectified‑flow генерируют или редактируют латентные изображения, обусловленные совмещённым представлением.
- Декодирование: VAE раскодирует латенты обратно в пиксельное пространство, при необходимости применяя финальные цветовые ограничения и водяной знак/метаданные C2PA.
Почему эта архитектура важна
Эта комбинация даёт три практических преимущества: (1) согласованность при нескольких референсах, потому что идентичность и стиль явно моделируются в латенте; (2) лучший текст и типографика благодаря более тесной интеграции VLM и латентного пространства изображений; (3) масштабируемые варианты развёртывания — одно семейство моделей может поставляться как открытые веса для локального использования (dev), как управляемый сервис с низкой задержкой (pro) или как настраиваемый сервис для разработчиков (flex).
Насколько хорош FLUX.2?
Результаты в бенчмарках
Black Forest Labs опубликовала сравнительные оценки и графики, показывающие превосходство FLUX.2 над несколькими современными открытыми моделями в парных тестах предпочтения людей и в анализе ELO vs стоимость. Из отчёта вендора/прессы:
- Побед‑рейт Text→Image: FLUX.2 сообщил о ≈66.6% побед (vs ~51.3% Qwen‑Image, 48.1% Hunyuan Image 3.0).
- Редактирование по одному референсу: ≈59.8% побед (vs ~49.3% Qwen‑Image, 41.2% FLUX.1 Kontext).
- Многореференсное редактирование: ≈63.6% побед (vs ~36.4% для Qwen‑Image).
- ELO vs стоимость: семейство FLUX.2 (Pro, Flex, Dev) кластеризуется в зоне высокого качества при относительно низкой цене (ELO ≈1030–1050 при ~2–6 центах за изображение по прайсингу вендора).
Многореференсная генерация
Одна из крупнейших возможностей FLUX.2 — генерировать несколько согласованных результатов с использованием нескольких референсных изображений.
Например, при съёмке продукта вы можете загрузить несколько фото, сделанных под разными углами, при разном освещении и на разных фонах, а затем сгенерировать несколько вариантов одного и того же изображения за один раз.
Эта функция позволяет быстро пакетно генерировать фотографии каталога товаров для e‑commerce, рекламные баннеры, наборы изображений для соцсетей и многое другое.
В отличие от традиционной генерации по одному изображению, такой многореференсный механизм идеально подходит для реальных рабочих процессов, где важны согласованность и целостность.
Высокое разрешение, коммерческое качество (до 4 МП)
FLUX.2 поддерживает вывод до 4 мегапикселей (примерно 2000–3000 пикселей), обеспечивая качество, подходящее для практических задач — рекламы, печати, вывесок и постеров.
Он отлично справляется с текстом, логотипами, UI‑мокапами, инфографикой и т. п., что делает его пригодным не только для художественного творчества, но и для дизайна и коммерческого использования.
Одновременно улучшено качество рендеринга шрифтов и текста, что делает модель подходящей для создания рекламных баннеров и продуктовых этикеток.
Поддержка локального выполнения на GPU: низкая стоимость, низкий порог входа
До сих пор многие высокопроизводительные модели генерации изображений были практичны главным образом в дата‑центрах с огромными вычислительными ресурсами. Однако FLUX.2 оптимизирован для работы на стандартных GPU (например, NVIDIA RTX) с меньшим потреблением VRAM.
Доступ к моделям больше не должен осуществляться через облако; редактирование и генерация могут выполняться локально, существенно снижая затраты и повышая операционную гибкость.
Это серьёзное преимущество как для компаний, так и для индивидуальных создателей и небольших команд.
Единый конвейер создания и редактирования
FLUX.2 поддерживает не только преобразование текста в изображение (text → image), но и преобразование изображения в изображение (редактирование и стилизация существующих изображений).
Это позволяет последовательно использовать одну модель для задач «создания нового изображения с нуля», «редактирования и ретуши существующих фото» и «повторного использования нескольких изображений для создания единообразных вариаций».
Например, легко сменить фон у продуктового фото на другой по атмосфере или подготовить размер под соцсети.
How to Access Flux.2 API
Мы рады сообщить, что CometAPI интегрировал Flux.2 API. Теперь поддерживается модель в формате Replicate (стоимость ниже официальных цен Replicate), эндпойнты FLUX.2:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
Start Building Now Create Predictions – API Doc,
Want to try first? Test FLUX.2 and in our playground after registering and logging in to CometAPI, if you want to start building with API now: Create Predictions – API Doc.
FLUX.2 — это не просто ещё один релиз модели; это продуктовая стратегия на уровне семейства, ориентированная на реальные производственные задачи: точность, редактируемость, многореференсную согласованность и практические пути развёртывания (управляемые API и открытые чекпойнты). Для организаций, массово создающих визуальный контент, FLUX.2 обещает существенный рост продуктивности — при условии, что команды совместят техническое внедрение с продуманным лицензированием и контролем качества.
Основные способы использования и целевые сценарии FLUX.2
Визуалы для продуктов/создание каталогов e‑commerce
У e‑commerce и брендов высок спрос на множество продуктовых фото под разными углами, с разным освещением, фонами и цветовыми режимами.
- С FLUX.2 вы можете быстро генерировать множество визуально согласованных вариантов без фактической съёмки.
- Это позволяет быстро расширять товарный каталог, сокращая затраты на фотографию, время и управленческие расходы.
Создание рекламных и маркетинговых материалов
Спрос на дизайн‑материалы широк: рекламные баннеры, изображения для соцсетей, визуалы промокампаний, PR‑постеры.
- Достаточно предоставить текстовое описание, чтобы получить изображения с нужным стилем, композицией и атмосферой, существенно снижая нагрузку на дизайнеров и рекламщиков.
- Кроме того, так как вариации можно генерировать по нескольким референсам, это подходит для A/B‑тестирования креативов и создания материалов, совместимых с несколькими языками и регионами.
Дизайн интерфейсов/UX и прототипирование
FLUX.2 поддерживает редактирование логотипов, шрифтов, макетов и фонов, поэтому подходит не только для фотогенерации, но и для визуального дизайна цифровых продуктов.
- Вы можете быстро создавать предварительные дизайны, вайрфреймы, лендинги мероприятий, мокапы экранов приложений и др.
- Это экономичное решение для производства, особенно для стартапов и небольших дизайн‑команд.
Искусство/творческие работы и личное использование
Разумеется, модель можно использовать и для «артов», «иллюстраций» или «графического дизайна».
- Расширяйте горизонты творчества, создавая работы в самых разных настроениях и стилях с помощью текстовых промптов и референсов.
- Вы также можете применять функции редактирования, чтобы свободно адаптировать существующие фото под художественные стили или экспериментировать с фантазийными ландшафтами и дизайном персонажей.
Отличия от существующих моделей и конкурентов — почему выбрать FLUX.2?
Сравнение с другими моделями генерации изображений ИИ
Сегодня существует множество моделей (открытых и коммерческих) в области генерации изображений ИИ — от традиционных диффузионных до новейших конкурирующих. Так почему же FLUX.2 настолько привлекателен? Причины следующие:
- Интеграция генерации и редактирования: многие модели сосредоточены либо на «генерации (text to image)», либо на «редактировании (image to image)». FLUX.2 поддерживает обе функции одновременно, обеспечивая единый согласованный рабочий процесс.
- Несколько референсных входов: используйте несколько референсов для лёгкой предметной съёмки и устойчивой визуальной согласованности.
- Коммерческое качество и высокое разрешение: поддержка 4 МП для рекламы, продуктовой съёмки и печати.
- Простота локального запуска: независимость от облака и работа на стандартных GPU — выгода и по стоимости, и по гибкости.
- Гибкий выбор моделей: варианты от стандартных до коммерческих и исследовательских — можно подобрать под задачи и бюджет.
Это делает FLUX.2 мощным выбором для профессиональных процессов, коммерческого использования, массового производства и проектов, где критичны стоимость и скорость.
Итоги:
FLUX.2 находится в прагматичном пересечении: он предлагает варианты с открытыми весами для исследований командам, которым нужны контроль и воспроизводимость, и управляемые производственные API — тем, кто ставит во главу угла низкую задержку, предсказуемые результаты и подтверждаемое происхождение. Поставляя и открытые, и управляемые варианты (dev/pro/flex), BFL признаёт, что разные рабочие процессы — эксперименты, итеративный дизайн и продакшн — требуют различных компромиссов между точностью, скоростью, кастомизацией и управлением.
Разработчики могут получить доступ к Flux.2 Dev API, Flux.2 Flex API и Flux.2 Pro API через CometAPI. Для начала изучите возможности модели CometAPI в Playground. Прежде чем приступать, убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы упростить интеграцию.
Готовы начать?→ Sign up for CometAPI today !
Если вы хотите узнавать больше советов, гайдов и новостей об ИИ, следите за нами в VK, X и Discord!
