Google публично представил Вео 3.1 (и Veo 3.1 Fast вариант) в середине октября 2025 года как улучшенная модель преобразования текста в видео, которая создает короткие клипы с более высоким качеством собственное аудио, лучшее соблюдение графика и новые возможности редактирования, такие как расширение сцены/клипа, покадровая интерполяция и наведение по изображению (используйте до трёх референсных изображений). Veo 3.1 доступен через API, появляется в Gemini приложение и Поток творческий инструмент, и доступен корпоративным разработчикам через Вершинный ИИ и Google AI Studio (доступность зависит от платформы и тарифного плана). Интеграция с Flow расширяет возможности редактирования пользовательского интерфейса (в скором времени появятся функции освещения/теней, вставки/удаления объектов), а API предоставляют разработчикам функции программной генерации и расширения.
Я предоставлю пошаговое руководство по редактированию видео с помощью Veo 3.1 (Flow, CometAPI/Gemini API).
Что делает Veo 3.1 и откуда он взялся?
Veo 3.1 — это новейшая версия семейства генеративных видеомоделей Google (Veo), разработанных для преобразования текстовых подсказок (а также изображений или существующих видеокадров) в короткие, связные, фотореалистичные или стилизованные видеоклипы с синтезированным звуком (диалогами, фоновыми звуками, спецэффектами). Обновление 3.1 делает акцент на лучший реализм, более богатый родной звук и инструменты для обеспечения преемственности (расширение сцены и интерполяция кадров), позиционируя Veo как ориентированный на видео аналог текстовых и графических моделей Google.
Ключевые обновления в версии 3.1 включают в себя:
- Собственный синтез звука и диалогов для сгенерированных клипов (отдельный голосовой конвейер не требуется).
- Покадровая интерполяция (первый и последний кадры управляют сгенерированным клипом).
- Генерация на основе изображений (используйте до трех контрольных изображений для сохранения единообразия персонажей/стиля).
- Расширение сцены (сохранение непрерывности путем создания соединительных клипов, взятых из последней секунды предыдущих клипов).
- Лучшее соблюдение инструкций и улучшенное управление кинематографией.
Где работает Veo 3.1?
Veo 3.1 доступен в Google API (платный предварительный просмотр), Vertex AI / Модельный сад, Мобильные/веб-приложения Geminiи интегрированы в демоверсии Flow и Veo Studio. CometAPI также начала интеграцию Veo.
Как редактировать видео через Veo 3.1 в Flow? Пошаговое руководство
Ниже я рассмотрю наиболее распространенные программные и UI-процессы: редактирование в Flow (пользовательский интерфейс создателя), использование приложения Gemini (быстрая генерация) и программное использование API Gemini/Vertex AI (для производства и автоматизации).
Как редактировать видео с помощью Flow (интерфейса создателя)?
Поток это креативный пользовательский интерфейс Google для кинематографистов/творцов, который интегрирует модели Veo для создания и Набор инструментов для редактирования (освещение, тени, композиция сцены, инструменты вставки/удаления объектов). С Veo 3.1 в Flow вы можете:
- Создавайте или регенерируйте кадры с более насыщенным звуком.
- Используйте «Ингредиенты для видео» (загрузите справочные изображения для обеспечения единообразия персонажей/стилей).
- Расширяйте сцены или объединяйте несколько кадров вместе с помощью функции расширения сцен (соединяет новые клипы с окончаниями предыдущих клипов).
- Применить базовую вставку и (скоро) удаление объектов внутри пользовательского интерфейса.
Как выполнить базовое редактирование в Flow (практические шаги)?
- Создайте/сгенерируйте свой Seed-клип (текстовую подсказку или подсказку в виде изображения).
- Используйте шкалу времени, чтобы выбрать конец клипа, и выберите Продлить (Расширение сцены) с новым запросом на продолжение действия или добавление движения. Каждое расширение добавляет небольшой скачок, который система интегрирует для сохранения непрерывности.
- Для изменения объектов используйте инструмент «Вставить» (опишите, какой элемент нужно добавить и куда). Для удаления используйте инструмент «Удалить» Flow (если он доступен) и проверьте наличие артефактов композиции.
- Экспортируйте и, при необходимости, обработайте в традиционном редакторе нелинейного монтажа (Premiere, DaVinci Resolve) для цветокоррекции, добавления субтитров или точной нарезки.
Flow разработан для ускорения итеративного творческого редактирования; относитесь к нему как к гибриду редактирования на временной шкале и генеративных замен.
Как редактировать или генерировать видео программно через API Veo 3.1
Существует два основных программных пути:
- Gemini API (generativelanguage / Gemini SDK) — используется для прямого вызова моделей Veo для генерации и расширения (примеры приведены в документации Gemini API от Google).
- CometAPI (формат OpenAI/чат) — CometAPI предлагает доступ к Изображение Gemini 3 Pro (Nano Banana Pro),Близнецы 3 Про и более 100 моделей ИИ для чата, изображений, музыки и создания видео, вы можете получить доступ Вео 3.1 через чат-точку в стиле OpenAI.
Монтаж в Veo 3.1 можно представить в виде нескольких отдельных потоков. Каждый поток объединяет входные данные модели (текст, изображения, видео) и этап постобработки для получения готовых к производству результатов.
Veo 3.1 доступен через API. Типичный шаблон — это долгосрочный generateVideos операция — вы публикуете задание, опрашиваете операцию и загружаете выходной файл после ее завершения.
Ниже приведены упрощенные, готовые к запуску примеры — адаптируйте их под свои ключи API и среду. ; ознакомьтесь с руководством по SDK и аутентификации для своей среды.
Пример JavaScript (Node) — генерация и опрос
Пример основан на использовании стиля API Gemini.
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
Этот шаблон (отправить → опрос → загрузить) является каноническим методом в документации Gemini.
Могу ли я использовать curl / REST вместо Python SDK?
Да — официальный веб-сайт показывает SDK, но базовую версию Veo 3.1 можно использовать через REST. Реализации различаются в зависимости от среды (Gemini API и CometAPI REST). Если вы предпочитаете Curl, убедитесь, что используете правильную аутентификацию (токены Bearer из Google Cloud или ключ cometAPIAPI) и используете конечную точку для генерации видео, специфичную для вашего продукта. Пример псевдо-Curl для CometAPI (адаптируйте под вашу аутентификацию и конечную точку):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
Важнo: точный URL REST и структура полезной нагрузки зависят от того, используете ли вы Близнецы API or CometAPI Конечные точки — перед отправкой запросов ознакомьтесь с документацией по продукту. SDK берут на себя многие задачи аутентификации и опроса.
Как использовать Veo 3.1 — какие рабочие процессы поддерживаются?
Ниже я подробно расскажу о практических схемах, которые вы будете использовать при редактировании в Veo 3.1: UX-схемах (Flow/Gemini Studio) и программных схемах (Gemini API/Vertex API). Для каждой схемы я покажу примеры, замечания и небольшие фрагменты кода, которые можно скопировать.
Монтаж в Veo 3.1 можно представить в виде нескольких отдельных потоков. Каждый поток объединяет входные данные модели (текст, изображения, видео) и этап постобработки для получения готовых к производству результатов.
Основные рабочие процессы редактирования
Есть три практических способа редактирования, которые вы будете использовать чаще всего:
- Редактирование и повторная генерация текста — изменить кадр, переписав подсказку или применив новые инструкции к той же сцене.
- Редактирование с использованием референтного изображения («Ингредиенты для видео») — вы предоставляете до 3 изображений для сохранения персонажа или объекта в сгенерированных кадрах.
- Интерполяция кадров (первый и последний кадр) — укажите начальное и конечное изображение, и Veo сгенерирует последовательность переходов между ними (со звуком, если требуется).
- Расширение сцены — расширить существующий клип, созданный Veo (или другой), путем создания соединительного клипа, который продолжается с последней секунды предыдущего клипа.
- Вставка/удаление объектов и другие инструменты редактирования Flow — некоторые функции пользовательского интерфейса Flow (вставка/удаление объектов, подсказки для рисования, повторная съемка ракурсов) добавляются поверх возможностей Veo и могут помочь с ретушированием на уровне кадров в графическом интерфейсе.
Примечания и советы: используйте соответствующую аутентификацию (ключ API Gemini / ключ API CometAPI). В примере используется veo-3.1-generate-preview — идентификаторы моделей и названия параметров могут немного различаться в зависимости от версии SDK и региона; идентификаторы моделей CometAPI veo 3.1 — veo3.1-pro и veo3.1.
1) Текст → Видео (новое поколение)
Случай использования: Создайте совершенно новый короткий клип на основе сценария или творческой идеи.
Поток:
- Подготовьте четкую текстовую подсказку, включая описание сцены, направление камеры и звуковые подсказки (диалог или звуковые эффекты).
- Позвоните Близнецам сгенерироватьВидео конечная точка с использованием модели Veo 3.1.
- Опрашивайте длительную операцию до завершения генерации, загружайте полученный MP4-файл, затем просматривайте и повторяйте.
Простой пример Python (текст → видео):
Используйте официальный Google Genai Клиент для Python. Этот фрагмент демонстрирует генерацию короткого видео из командной строки с помощью Veo 3.1.
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) Изображение → Видео (анимация исходного изображения)
Случай использования: Анимируйте снимок продукта, портрет персонажа или отдельную фотографию в короткий клип.
Поток:
- Создайте или выберите исходное изображение (может быть сгенерировано с помощью модели изображения, например Nano Banana).
- Загрузите изображение как
imageпараметр и вызовgenerate_videos, опционально поставляяreferenceImagesилиlastFrameдля интерполяции. - Извлекайте и просматривайте; повторяйте подсказки или ресурсы изображений.
Фрагмент изображения Python→видео (изображение создано отдельно):
Одна из самых практичных функций Veo 3.1 — это эталонные изображения: предоставьте до 3 изображений (человек, продукт, объект), чтобы сгенерированное видео сохраняло этот вид во всех кадрах.
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
Практические советы:
- Отдавайте предпочтение четким, хорошо освещенным справочным изображениям, на которых объект запечатлен с удобных ракурсов.
- Используйте отсылки для сохранения идентичности продукта, одежды или лица персонажа в многокадровых последовательностях.
- Избегайте использования изображений, защищенных авторским правом или принадлежащих частным лицам, без разрешения.
3) Видео-в-видео / Расширение (продолжить или переснять)
Случай использования: Расширьте существующий сгенерированный клип или продолжите действие за его пределами или используйте ранее сгенерированное видео в качестве основы для повторного редактирования.
Поток:
- Предоставьте сгенерированное видео в качестве
videoвведите и создайте подсказку, описывающую, как должно продолжаться видео (например, «Продолжение: главный герой открывает дверь и выходит на свет»). - Используйте режим расширения — Veo 3.1 завершает последнюю секунду и продолжает движение. Примечание: голосовое расширение менее надежно, если на последней секунде нет звука.
Пример Python (дополнить существующее видео):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
Примечание к рабочему процессу: многократное расширение клипов (сшивание каждого нового сгенерированного клипа с концом предыдущего) для создания более длинных последовательностей. Помните о накоплении артефактов — периодически привязывайтесь к высококачественным опорным кадрам или перегенерируйте фрагменты для сохранения точности.
4) Редактирование отдельных кадров (первый и последний кадры, контрольные изображения)
Вы можете создать видео, которое переходит от начального кадра к конечному. Для этого сначала генерируется изображение (например, с помощью модели изображения Gemini), затем передается это изображение как image и задается last_frame в конфигурации для управления интерполяцией.
Случай использования: Вам нужна четкая визуальная непрерывность или анимация между двумя указанными кадрами.
Поток:
- Создайте или загрузите первый и последний кадр.
- Вызов Veo 3.1 с
image=first_frameиconfig.last_frame=last_frame. - Модель интерполирует эти кадры, создавая правдоподобное движение и звук в соответствии с вашей подсказкой.
Почему это имеет значение: Для творческого контроля первый/последний кадр позволяет точно определить кадрирование камеры и композицию для начала/конца, что важно для визуальных эффектов, последовательности или повествовательных ходов.
Python (изображение → видео)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
Это обеспечивает плавную интерполяцию между двумя определенными визуальными якорями.
Какие стратегии подсказок и ввода лучше всего работают в Veo 3.1?
Veo 3.1 лучше всего реагирует на структурированные подсказки, которые чётко описывают визуальную композицию, движение, звук и эмоциональный тон. В «Руководстве по подсказкам» Google для Veo 3.1 рекомендованы конкретные ингредиенты; вот краткий контрольный список:
Быстрая анатомия (рекомендуется)
- Основная сцена — краткое предложение: кто/что, первичное действие.
- Описание камеры — крупный план / широкий план / с тележкой / неподвижный / ручная съемка, движение камеры и кадрирование.
- Расчет времени и темпа — короткие подсказки, такие как «медленно», «ощущение кинематографичности 24 кадра в секунду» или количество кадров, если вам нужна точность.
- Звуковые подсказки — укажите фоновое окружение, конкретные звуковые эффекты или диалоги (в кавычках). Veo 3.1 может синтезировать собственный звук.
- Стиль и ссылки - включать
referenceImagesили упомянуть стили фотографии/пленки: «фильм-нуар, высокая контрастность, ощущение Kodak 500». - Отрицательные подсказки — укажите, что вы не хотите (например, «без логотипов, без текста, без мультяшного стиля») уменьшить нежелательные результаты.
Использование референсных изображений
Управление изображением и интерполяция первого/последнего кадра — функции Veo 3.1. Стандартный высококачественный конвейер:
- Создавайте или улучшайте статические объекты с помощью 1–3 референсных изображений, используя модель изображения (модели Nano Banana или Gemini), которая определяет внешний вид/стиль постоянных объектов (людей, товаров). Veo хорошо сохраняет внешний вид объектов, используя референсные объекты.
- Объедините эти активы в референсные изображения (или первый/последний кадры).
- Для генерации/интерполяции/расширения видео используйте Veo 3.1.
- Опциональная постобработка (цветокоррекция, сжатие, ручное редактирование) с помощью стандартных видеоинструментов (Premiere, DaVinci Resolve).
Вопросы токенов, длины и разрешения
- Ввод текста в Veo 3.1 имеет ограничения по количеству токенов (например, около 1,024 токенов для некоторых вариантов предварительного просмотра), а на выходе обычно получается одно короткое видео (примеры часто показывают 8 секунд); будьте лаконичны и итеративны. Планируйте сшивать несколько сгенерированных клипов для получения более длинного контента.
Заключение — что меняет Veo 3.1 для создателей и редакторов
Veo 3.1 — это практический шаг в создании коротких аудио-видеороликов с помощью ИИ. Это не просто генератор: он становится помощник по редактированию В таких инструментах, как Flow и Gemini Studio, которые позволяют создателям вносить хирургические правки (вставлять/удалять объекты, переснимать камеру), повторно используя те же генеративные примитивы. Разработчикам и командам постобработки рекомендуется итеративный подход: использовать API для создания и расширения коротких дублей, использовать опорные кадры для обеспечения непрерывности и выполнять финальный композитинг и аудиомикширование с помощью традиционных инструментов.
Разработчики могут получить доступ API Veo3.1 и Изображение Gemini 3 Pro (Nano Banana Pro) через CometAPI. Для начала изучите возможности моделирования CometAPI в Детская Площадка и проконсультируйтесь API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. сetAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.
Готовы к работе?→ Зарегистрируйтесь в CometAPI сегодня !
Если вы хотите узнать больше советов, руководств и новостей об искусственном интеллекте, подпишитесь на нас VK, X и Discord!
