Новый Veo3.1: Больше согласованности, более разнообразные результаты и богаче

Veo 3.1 от Google получила обновление в январе, привнесшее точечные улучшения, которые приблизили конвейеры «изображение→видео» к производственному качеству. Версия 3.1 сфокусирована на четырёх практических апгрейдах, которые делают процессы изображение→видео значительно более удобными для создателей и разработчиков: усиленный конвейер «Ingredients to Video» для генерации динамичных клипов по референс‑изображениям, более высокая согласованность персонажей и сцен, нативный вертикальный (9:16) вывод для mobile‑first платформ и новые опции высокодетализированного вывода, включая улучшенное 1080p и апскейл до 4K. Для создателей и разработчиков, которые привыкли обходиться схемой «обрезка‑затем‑редактирование» для вертикальных соцформатов, нативный 9:16 и улучшенный апскейл в Veo 3.1 обещают снизить трение и выдавать более отполированные, готовые к платформам клипы.

Для разработчиков и медиа‑профессионалов Veo 3.1 — это не только про больше пикселей; это про консистентность. Обновление напрямую решает проблемы «мерцания» и потери идентичности, которые долго преследовали AI‑видео, предлагая набор инструментов, способных поддерживать персонажную и стилистическую целостность в нескольких шотах, фактически бросая вызов Sora 2.0 от OpenAI за лидерство на рынке высококлассных генеративных медиа.

Что определяет архитектуру Veo 3.1?

Veo 3.1 построена на усовершенствованной диффузионной архитектуре на базе трансформеров, тонко настроенной для мультимодального понимания. В отличие от предшественников, которые в основном сопоставляли текст с видео, Veo 3.1 рассматривает визуальные входы (изображения) как полноправные объекты наряду с текстовыми подсказками.

Этот архитектурный сдвиг позволяет модели «видеть» предоставленные пользователем ассеты — например, фото продукта, референс персонажа или конкретный фон — и анимировать их с глубоким пониманием 3D‑геометрии и освещения. В итоге система ощущается меньше как «однорукий бандит» и больше как цифровой рендер‑движок.

Что изменилось в 3.1 по сравнению с предыдущими версиями?

Более богатый синтез референсов: модель лучше извлекает характеристики (лицо, одежда, фактуры поверхностей, элементы фона) и надёжно переиспользует их в нескольких кадрах, чтобы персонажи выглядели одинаково по всему клипу.
Более умная композиция: вместо того чтобы кадрировать горизонтальный кадр под вертикальное полотно (или наоборот), Veo 3.1 нативно генерирует вертикальные композиции (9:16), поэтому расположение объектов, глубина и движение выглядят уместно для формата (критично для творчества под TikTok/Shorts/Reels).
Быстрая итерация для коротких форматов: UX и модель настроены на 8‑секундный «social‑first» вывод во многих продуктовых контекстах (приложение Gemini, Flow), позволяя быстро экспериментировать.

Как работает «Ingredients to Video» и что нового в 3.1?

Выдающаяся функция этого релиза — переработанная возможность «Ingredients to Video». Эта функция позволяет пользователям предоставлять отдельные визуальные «ингредиенты», которые модель должна использовать в итоговом результате, эффективно сокращая разрыв между управлением ассетами и генерацией видео.

Что такое концепт «Ingredients to Video»?

В предыдущих версиях «Image‑to‑Video» в основном была задачей анимации одного изображения. Veo 3.1 расширяет это, позволяя загружать несколько референс‑изображений (до трёх) для определения сцены. Эти ассеты выступают как субъект (человек, объект, текстура или фон), а модель композитит движение, кадрирование камеры и переходы вокруг них, чтобы создать короткое видео, сохраняющее исходную визуальную идентичность. Это отличается от чистого text‑to‑video, поскольку изначально накладывает более жёсткие ограничения на внешность и визуальную непрерывность.

Контекстное смешение: вы можете загрузить изображение человека (Персонаж A), изображение локации (Фон B) и референс стиля (Стиль C). Veo 3.1 синтезирует эти разные элементы в цельное видео, где Персонаж A действует в Окружении B, отрендеренном в Стиле C.
Мультимодальные подсказки: этот визуальный ввод работает совместно с текстом. Вы можете предоставить изображение продукта и текстовую подсказку «взорваться на частицы», и модель строго соблюдает визуальные детали продукта, одновременно исполняя физику, описанную в текстовой подсказке.

Что нового в режиме Ingredients у Veo 3.1?

Veo 3.1 добавляет несколько конкретных улучшений в поток Ingredients:

Выразительность при минимальных подсказках: даже короткие текстовые подсказки дают более богатый нарратив и выразительную пластику движения в сочетании с изображениями‑ингредиентами, что упрощает получение годных результатов с меньшим числом итераций.
Сильнее сохраняется идентичность субъекта: модель лучше сохраняет визуальную идентичность субъекта (лицо, костюм, маркировка продукта) через несколько шотов и смен сцены. Это снижает потребность повторно поставлять ассеты для континуитета.
Консистентность объектов и фона: объекты и элементы сцены могут сохраняться между склейками, повышая связность повествования и позволяя переиспользовать реквизит или текстуры.
Автоматически добавляет в сцену динамичные действия и нарративный ритм;
Выходные видео богаче по «storytelling» и «деталям лица», что усиливает естественность человеческого визуального восприятия.

Эти улучшения призваны снизить самые распространённые болевые точки генерации из изображений: дрейф субъекта, неконсистентность фона и потерю стилизации при переходах между кадрами.

Практические сценарии использования Ingredients to Video

Анимировать бренд‑маскотов из дизайнерских ассетов.
Превращать портретные фотографии актёров в движущиеся клипы для соцрекламы.
Быстро прототипировать визуальные приёмы (свет, фактуры) до полноформатного продакшн‑прохода.

Какие апгрейды консистентности появились в Veo 3.1?

В любой сгенерированной последовательности из нескольких шотов или сцен критично сохранять идентичность субъекта (лицо, одежда, лейблы продукта), размещение объектов и непрерывность фона — это основа достоверности повествования. Несогласованности — небольшие изменения в структуре лица, форме или текстуре объектов — ломают вовлечённость зрителя и требуют ручной правки или перегенерации. Предыдущие поколения видеомоделей часто обменивали гибкость на целостность; Veo 3.1 стремится сузить этот компромисс.

Veo 3.1 делает возможной сборку коротких последовательностей и сюжетных битов, которые читаются как непрерывный нарратив, а не набор отдельных виньеток. Это улучшение — центральная часть опыта 3.1:

Временная стабильность: модель значительно снижает эффект «морфинга», когда лица или объекты едва заметно меняют форму со временем.
Согласованность между шотами: используя одни и те же изображения‑«ингредиенты» в разных подсказках, создатели могут генерировать несколько клипов одного персонажа в разных сценариях, не рискуя, что он будет выглядеть как разные люди. Это огромный шаг вперёд для бренд‑гайдов и создания эпизодического контента.
Смешение текстур: позволяет персонажам, объектам и стилизованным фонам естественно смешиваться, генерируя высококачественные видео с единой стилистикой.

Практическое влияние

Для монтажёров и соц‑криэторов это означает меньше правок и ротоскопинга; для разработчиков и студий — меньше трения при автоматизации многокадровых последовательностей и снижение ручной кураторской работы, необходимой для поддержания визуальной целостности ассетов.

Veo-3.1

Улучшения вывода Veo 3.1: вертикаль и высокая детализация

Нативный вертикальный вывод

С доминированием TikTok, YouTube Shorts и Instagram Reels запрос на качественное вертикальное видео неуклонно растёт. Veo 3.1, наконец, относится к этому формату с должной серьёзностью.

Veo 3.1 вводит нативную генерацию с соотношением сторон 9:16.

Без кадрирования: в отличие от прежних рабочих процессов, где генерировалось квадратное или горизонтальное видео и потом кадрировалось (теряя разрешение и композицию), Veo 3.1 композитит кадр вертикально с самого начала.
Интеллект кадрирования: модель понимает правила вертикальной композиции, гарантируя, что субъекты центрированы, а высокие структуры используются эффективно, вместо того чтобы генерировать широкие горизонты, выглядящие неуместно на экране телефона.

Как нативная вертикальная генерация меняет рабочие процессы

Быстрый паблишинг: не требуется пост‑кадрирование и перекомпоновка.
Лучшая композиция: модель строит сцены с учётом вертикального кадра (запас над головой, траектории движения).
Готово к платформам: экспорт под TikTok и Shorts с минимальным редактированием.

Высокодетализированный вывод

Разрешение долго было узким местом AI‑видео. Veo 3.1 пробивает потолок 720p/1080p с нативной поддержкой 4K.

Интегрированный апскейлинг: конвейер включает новый модуль суперразрешения, который повышает разрешение сгенерированного контента до 4K (3840x2160) или 1080p с высокой битрейтовой точностью.
Снижение артефактов: апскейлер обучен специально на генеративных артефактах, что позволяет сглаживать «шиммер», часто встречающийся в AI‑текстурах, одновременно повышая резкость кромок — результат подходит для профессиональных монтажных таймлайнов.

Как Veo 3.1 сопоставляется с Sora 2.0?

Сравнение Veo 3.1 от Google и Sora 2.0 от OpenAI определяет текущий ландшафт AI‑видео. Обе мощны, но служат разным задачам.

Feature	Google Veo 3.1	OpenAI Sora 2.0
Primary Philosophy	Контроль и консистентность. Разработана для продакшн‑воркфлоу, где необходимо уважать конкретные ассеты (продукты, персонажи).	Симуляция и физика. Создана для реалистичной симуляции реального мира с акцентом на «one‑shot» магию. Text‑to‑video и image‑to‑video с упором на фотореализм, физическую точность и синхронизированный звук.
Input Flexibility	Высокая. «Ingredients to Video» позволяет инжектировать несколько изображений для точного контроля ассетов.	Средняя. Сильные text‑to‑video и старт с одного изображения, но меньше гранулярного контроля над конкретными элементами.
Vertical Video	Нативный 9:16. Оптимизированная композиция под мобильные форматы.	Поддерживается, но в обучающих данных часто предпочтение кинематографическому 16:9.
Resolution	4K (через апскейлинг). Чёткий, готовый к вещанию вывод.	1080p нативно. Высокое качество, но для 4K‑воркфлоу требуется внешний апскейл.
Brand Safety	Высокая. Сильные ограничения и верность ассетам делают её безопаснее для коммерческого использования.	Переменная. Может «галлюцинировать» странную физику или детали, отходящие от подсказки ради «креативности».
Identity/consistency	Улучшенная консистентность субъекта и объекта, закреплённая на референс‑изображениях (Ingredients)	Sora 2 также делает упор на консистентность между шотами и управляемость

Практическое различие

Мобильные и вертикальные воркфлоу: Veo 3.1 целенаправленно работает на мобильных создателей с нативным портретным рендерингом и прямой интеграцией с YouTube Shorts — преимущество для эффективности пайплайна коротких форматов.
Аудио и синхронный звук: Sora 2 выделяет синхронизированные диалоги и звуковые эффекты как ключевую возможность, что может стать решающим для создателей, которым требуется интегрированная генерация аудио вместе с движением.

Короче: Veo 3.1 закрывает важные практические разрывы вокруг мобильного форматирования и продакшн‑апскейлинга, тогда как Sora 2 продолжает лидировать в интегрированном аудио и некоторых метриках реализма. Выбор зависит от приоритетов воркфлоу: мобильное, сторителлинговое повествование, привязанное к изображениям (Veo), против кинематографического реализма со звуком (Sora 2).

Почему это важно: если вы креатор в соцсетях, ищущий вирусный, гиперреалистичный клип шерстистого мамонта, идущего по Нью‑Йорку, Sora 2.0 часто выдаёт больше «вау» в секунду. Но если вы рекламное агентство, которому нужно анимировать конкретную банку содовой (Ингредиент A) на конкретном пляже (Ингредиент B) для вертикальной рекламы в Instagram, Veo 3.1 — более подходящий инструмент.

Как разработчикам и креаторам начать использовать Veo 3.1 уже сегодня?

Где доступна Veo 3.1?

Veo 3.1 доступна в Gemini API через CometAPI. Почему я рекомендую CometAPI вам? Потому что это дешевле и просто в использовании, а также там можно найти Sora 2 API и др.

Примеры паттернов использования и образец кода

import osimport timeimport requests# Получите ваш ключ CometAPI на https://api.cometapi.com/console/token и вставьте его нижеCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Создать задачу генерации видеосоздатьcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "Оранжевый кот летит в голубом небе с белыми облаками, солнечный свет льётся на его шерсть, создавая красивую и сказочную сцену",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Задача создана: {task_id}")print(f"Статус: {task['status']}")# Опрос до готовности видеоwhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Проверяем статус... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Ссылка на видео: {video_url}")        break    elif status == "FAILED":        print(f"Неудача: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

Заключение

Veo 3.1 представляет собой зрелость генеративного видео. Выйдя за пределы простой «галлюцинации пикселей по тексту» и предложив надёжные инструменты для контроля ассетов («Ingredients»), оптимизации формата (нативный вертикальный) и качества доставки (4K), Google предоставила первый по‑настоящему «студийный» API генеративного видео. Для предприятий, стремящихся автоматизировать производство контента в масштабе, ожидание управляемой, высокодетализированной видеомодели наконец закончено.

Разработчики могут получить доступ к Veo 3.1 API через CometAPI. Для начала изучите возможности модели CometAPI в Playground и обратитесь к API guide за подробными инструкциями. Прежде чем получить доступ, убедитесь, что вы вошли в CometAPI и получили API‑ключ. CometAPI предлагает цену значительно ниже официальной, чтобы упростить интеграцию.

Готовы начать?→ Sign up for CometAPI today

Если хотите больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!