Google Veo 3.1: какие изменения в новой версии для видео с ИИ и как их использовать

Сегодня Google расширила свой набор инструментов для создания видео с помощью Вео 3.1, постепенное, но значимое обновление семейства видеомоделей Veo. Veo 3.1, позиционируемый как промежуточное звено между быстрым созданием прототипов и более точными рабочими процессами производства, обеспечивает более насыщенный звук, более продолжительное и последовательное создание клипов, более точное соблюдение инструкций и ряд функций рабочего процесса, призванных сделать видео с использованием ИИ более полезными для сторителлеров, брендов и разработчиков. Релиз выходит одновременно с обновлениями приложения для редактирования Flow от Google и доступен в платной версии на платформах Google для разработчиков.

Что такое Veo 3.1?

Veo 3.1 — это последняя публичная версия семейства генеративных видеомоделей Google. Она основана на архитектуре и наборе функций, представленных в Veo 3, но в большей степени ориентирована на интеграция звука, большая продолжительность клипа и непрерывность повествования. Если предыдущие поколения отдавали предпочтение коротким, цикличным или экспериментальным клипам (часто длительностью в несколько секунд), то Veo 3.1 поддерживает значительно более длинные одиночные клипы — Google и партнёры демонстрируют результаты вплоть до одну минуту для определённых режимов генерации — и ориентирован на вывод в формате 1080p в качестве базового уровня для сценариев с более высокой точностью. Модель также предоставляет удобные функции для режиссёров и создателей контента, например, возможность указать первый и последний кадр для определения визуальной дуги, «ингредиенты для видео» (несколько опорных изображений, определяющих содержание) и расширение сцены (создание дополнительных секунд видеоматериала с сохранением контекста).

Предлагаются две версии: основная модель Veo 3.1 (направленная на качество и точность) и Я вижу 3.1 быстрых (жертвуя некоторой точностью ради более быстрой итерации), что позволяет командам быстро создавать прототипы, а затем масштабировать или повторно визуализировать более качественные версии для финальных результатов.

Veo 3.1 позиционируется как эволюционное обновление, которое улучшает качество звука, увеличивает продолжительность сцен и добавляет возможности детального редактирования (вставка/удаление, расширение сцен, интерполяция первого и последнего кадров и руководство по опорным изображениям), а не переписывает архитектуру. По сравнению с Veo 3, выпущенным ранее в 2025 году, Veo 3.1 построен вокруг трёх практических векторов: (1) более насыщенный собственный звук, (2) расширенное управление сценами и кадрами и (3) улучшение качества и продолжительности.

Более насыщенный собственный звук во всех функциях

В то время как Veo 3 впервые представил синхронизированный звук, Veo 3.1 расширяет богатство и контекстную чувствительность этого аудиовыхода. Veo 3.1 генерирует синхронизированный, контекстный звук (диалоги, окружающий звук и эффекты) как встроенный продукт, не требуя отдельных этапов звукового дизайна. Google специально добавила сгенерированный звук к функциям, которые ранее создавали беззвучное видео (например, «Ингредиенты в видео», «Кадры в видео» и «Расширение сцены»). Это изменение сокращает этапы постобработки и упрощает итерации для создателей и команд. Google описывает «более насыщенный звук» и улучшенную синхронизацию губ при разговоре персонажей.

Расширенное управление сценами и кадрами

Veo 3.1 делает акцент на управлении в стиле производства (использование референсных изображений, расширение сцен, интерполяция «первый-последний», вставка/удаление), что лучше соответствует рабочему процессу режиссёра. Это явное преимущество для творческих процессов и автоматизации предприятий.

Создатели могут предоставить первое и последнее изображение или «ингредиенты» (набор изображений), а Veo 3.1 сгенерирует последовательные переходы и промежуточные движения, сохраняющие внешний вид персонажей и компоновку сцены, улучшая непрерывность повествования или фирменного контента.

Последовательность многократных подсказок/кадров и согласованность персонажей: Новые функции рабочего процесса позволяют сохранять индивидуальность персонажей и визуальную непрерывность в кадрах и при наличии нескольких подсказок, благодаря чему один и тот же персонаж или реквизит может корректно отображаться на протяжении всей последовательности.

Кинематографические настройки и управление освещением: Встроенные настройки освещения и камеры (перемещение камеры, нажатие, масштабирование, глубина резкости, кинематографические таблицы преобразования цветов) ускоряют производство и снижают потребность в сложной инженерной поддержке.

Улучшения качества и длины

Veo 3.1 позволяет создавать более длинные клипы (согласно отчётам, в функциях расширения сцены Flow длительность клипов достигает ~60 секунд), тогда как Veo 3 был в основном ориентирован на короткие (восьмисекундные) высококачественные клипы. Доступность более длительных клипов может быть ограничена интерфейсом (Flow) или параметрами API.

Лучшая точность изображения→видео — улучшения в рендеринге при наличии у модели опорных изображений (первый/последний кадры, несколько опорных изображений) обеспечивают более последовательную идентичность персонажей и согласованность сцены.

Выходные данные включают как горизонтальные (16:9), так и вертикальные (9:16) варианты для непосредственного использования в социальных сетях и вещании.

Безопасность, происхождение и водяные знаки

Google уделяет особое внимание функциям безопасности и происхождения в своих генеративных моделях; Veo 3.1 следует этой тенденции. В раннем обзоре Google отмечает:

Подходы SynthID и происхождения (там, где это поддерживается) для отслеживания медиаконтента, созданного ИИ, вплоть до моделей/источников и для защиты от ненадлежащего использования.
Защитные барьеры политики контента в редакторе Flow и API (зависит от региона/плана), а также инструменты модерации для уменьшения создания вредоносного или конфиденциального контента.

Создателям по-прежнему следует следовать передовым практикам: четко маркировать контент ИИ там, где это необходимо, проверять результаты на наличие галлюциногенных или деликатных элементов и применять традиционные процессы проверки при широкой публикации.

Какие ограничения и риски сохраняются в Veo 3.1?

Veo 3.1 — это значительный шаг вперёд, но не панацея. Основные ограничения и риски:

Режимы отказов остаются Артефакты освещения, едва заметные геометрические искажения и случайные несоответствия (рук, пальцев, мелкого текста) всё ещё наблюдаются в сложных сценах или когда требуется максимальная точность. Журналисты и первые тестировщики называют их устойчивыми пограничными случаями.
Проблемы с дезинформацией и неправильным использованием — более высокий реализм и аудиосинтез вызывают очевидные опасения по поводу дипфейков и злоупотреблений. Google продолжает делать акцент на мерах безопасности (контроль за соблюдением политики в отношении контента, маркеры происхождения) и ранее внедрила систему водяных знаков SynthID для отслеживания синтетических медиафайлов, но эти системы не являются надёжной заменой управления и проверки человеком.
Юридические вопросы и вопросы интеллектуальной собственности — использование референтных изображений, изображений персонажей или материалов, защищенных авторским правом, для создания контента повлечет за собой стандартные правовые разбирательства; предприятиям следует проконсультироваться с юристом и соблюдать ограничения политики использования.

Быстрый старт — пример рабочего процесса (приложение Gemini + API)

В приложении Gemini / Flow (без кода):

Откройте приложение Gemini (или редактор Flow) и войдите в систему. Найдите опцию «Видео» или «Создать → Видео».
Небесная работа

Выберите Veo 3.1 в раскрывающемся списке моделей (если доступно несколько моделей). Выберите соотношение сторон и целевую длительность. При желании выберите кинематографический шаблон или шаблон освещения.
TechRadar

Введите текстовую подсказку, при необходимости загрузите 1–3 контрольных изображения (для потоков «Ингредиенты → Видео» или «Первый/последний кадр») и выберите, нужно ли генерировать звук. Отправьте запрос и дождитесь завершения генерации. Используйте инструменты редактирования Flow для расширения сцен, добавления объектов или удаления элементов по мере необходимости.
Грань

как вызвать Veo 3.1 (программно)

Список моделей CometAPI и документация по ИИ включают названия моделей (например, veo-3.1 и veo-3.1-pro) и параметры для управления разрешением, длиной, соотношением сторон и ссылками.

Шаги:

Войдите в CometAPI и убедитесь, что вы получить ключ CometAPI.
Вызовите конечную точку модели Veo 3.1 с полезной нагрузкой JSON, содержащей ваш запрос, ссылки (base64 или GCS), целевое разрешение/длительность и флаги для расширения звука или сцены. Используйте конечную точку Veo 3.1 Fast для итеративных запусков.
Обрабатывайте выходные данные (видеофайлы, опционально отдельную звуковую дорожку) и управляйте постобработкой (цветокоррекцией, кодированием для доставки) в вашем конвейере. Отслеживайте затраты и квоты; длинные или высококачественные клипы потребляют больше вычислительных ресурсов.

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ Вео 3.1 через CometAPI, CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Заключение

Veo 3.1 — это прагматичное и хорошо продуманное обновление: его непосредственная ценность заключается в уменьшении разрыва между идеей и финальной сценой за счёт добавления звука в качестве нативного выходного сигнала, расширения управления сценами и референсами, а также обеспечения возможности создания достаточно длинных цепочек выходных данных. Для создателей контента, которым требуется монтаж в стиле продакшена в рамках генеративного цикла, и для компаний, стремящихся к автоматизации программируемого контента, Veo 3.1 — это убедительный инструмент, который стоит оценить.