Como editar vídeos usando o Veo 3.1

O Google apresentou publicamente Veo 3.1 (e um Veo 3.1 Fast variante) em meados de outubro de 2025 como um modelo aprimorado de texto para vídeo que produz clipes curtos de maior fidelidade com áudio nativo, melhor adesão imediata e novas funcionalidades de edição, tais como extensão de cena/clipe, interpolação quadro a quadro e guiado por imagem geração (use até três imagens de referência). O Veo 3.1 está disponível através do API, aparece no Gemini aplicativo e Fluxo ferramenta criativa, e é exposta a desenvolvedores corporativos por meio de VERTEX AI e o Google AI Studio (a disponibilidade varia conforme a plataforma e o plano). A integração do Flow traz mais controles de edição da interface do usuário (iluminação/sombras, inserção/remoção de objetos em breve), enquanto as APIs expõem recursos de geração programática e extensão para desenvolvedores.

Vou fornecer um guia sobre como editar vídeos usando o Veo 3.1 (Flow, API Comet/API Gemini — passo a passo).

O que faz o Veo 3.1 e qual a sua origem?

O Veo 3.1 é a versão mais recente da família de modelos de vídeo generativo do Google (Veo), criada para transformar instruções de texto — e, opcionalmente, imagens ou quadros de vídeo existentes — em videoclipes curtos, coerentes, fotorrealistas ou estilizados, com áudio sintetizado (diálogos, sons ambientes, efeitos sonoros). A atualização 3.1 enfatiza maior realismo, áudio nativo mais rico e ferramentas para continuidade (extensão de cena e interpolação de quadros), posicionando o Veo como uma contraparte centrada em vídeo aos modelos de texto e imagem do Google.

As principais melhorias da versão 3.1 incluem:

Síntese nativa de áudio e diálogos para clipes gerados (sem necessidade de um pipeline de voz separado).
Interpolação quadro a quadro (primeiro e último quadro controlando o clipe gerado).
Geração guiada por imagem (use até três imagens de referência para manter a consistência do estilo/caractere).
Extensão de cena (preservar a continuidade gerando clipes de ligação a partir do último segundo dos clipes anteriores).
Melhor adesão imediata e controles cinematográficos aprimorados.

Onde o Veo 3.1 é executado?

O Veo 3.1 está disponível no Google. API (prévia paga), Vertex AI / Jardim de Modelos, Aplicativos móveis/web Geminie integrado às demonstrações do Flow e do Veo Studio. CometAPI também começou a integrar o Veo.

Como editar vídeos do Veo 3.1 no Flow? Passo a passo

A seguir, descrevo os fluxos de trabalho programáticos e de interface do usuário mais comuns: edição no Flow (interface do usuário do criador), uso do aplicativo Gemini (geração rápida) e uso da API Gemini / Vertex AI programaticamente (para produção e automação).

Como faço para editar vídeos usando o Flow (a interface de usuário do criador)?

Fluxo é a interface de usuário criativa do Google para cineastas/criadores que integra modelos Veo para geração de conteúdo. e Um conjunto de controles de edição (iluminação, sombras, composição de cena, ferramentas de inserção/remoção de objetos). Com o Veo 3.1 no Flow, você pode:

Gere ou recrie cenas com áudio mais rico.
Use a opção “Ingredientes para Vídeo” (faça o upload de imagens de referência para garantir a consistência dos personagens/estilos).
Prolongue cenas ou encadeie várias tomadas com a Extensão de Cena (conecta novos clipes aos finais dos clipes anteriores).
Implementar funcionalidades básicas de inserção e (em breve) remoção de objetos na interface do usuário.

Como faço para realizar uma edição básica no Flow (passos práticos)?

Crie/gere seu clipe inicial (instrução de texto ou instrução de imagem).
Use a linha do tempo para selecionar o final do clipe e escolha Estender (Extensão de Cena) com um novo comando para continuar a ação ou adicionar movimento. Cada extensão adiciona um pequeno salto que o sistema integra para preservar a continuidade.
Para alterações em objetos, use a ferramenta Inserir (descreva o item a ser adicionado e onde). Para remoção, utilize a ferramenta Remover do Flow, quando disponível, e verifique se há artefatos de composição.
Exporte e, se necessário, refine o vídeo em um software de edição não linear tradicional (Premiere, DaVinci Resolve) para correção de cores, legendas ou cortes precisos.
O Flow foi projetado para agilizar edições criativas iterativas; considere-o como um híbrido entre edição em linha do tempo e substituições generativas.

Como faço para editar ou gerar vídeos programaticamente usando a API do Veo 3.1?

Existem duas vias programáticas principais:

API Gemini (generativelanguage / SDK Gemini) — usado para chamar modelos Veo diretamente para geração e extensão (exemplos fornecidos na documentação da API Gemini do Google).
CometAPI (formato OpenAI/chat) — O CometAPI oferece acesso a Gemini 3 Pro Image (Nano Banana Pro),Gêmeos 3 Pró e mais de 100 modelos de IA para geração de bate-papo, imagem, música e vídeo, aos quais você pode acessar Veo 3.1 via chat no estilo OpenAI.

A edição com o Veo 3.1 pode ser dividida em alguns fluxos distintos. Cada fluxo combina entradas do modelo (texto/imagens/vídeo) e uma etapa de pós-processamento para obter resultados prontos para produção.

O Veo 3.1 é exposto através das APIs. O padrão típico é uma execução de longa duração. generateVideos Operação — você publica a tarefa, verifica o andamento da operação e baixa o arquivo de saída assim que ela for concluída.

Abaixo estão exemplos simplificados e executáveis — adapte-os com suas chaves de API e ambiente. Consulte o SDK e as diretrizes de autenticação do seu ambiente.

Exemplo em JavaScript (Node) — gerar e consultar

O exemplo é baseado no uso do estilo da API Gemini.

import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});

const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
  model: "veo-3.1-generate-preview",
  prompt,
});

// Poll
while (!operation.done) {
  console.log("Waiting...");
  await new Promise(r => setTimeout(r, 10000));
  operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos

Esse padrão (enviar → pesquisa → baixar) é o método canônico na documentação do Gemini.

Posso usar curl/REST em vez do SDK do Python?

Sim, o SDK oficial do Veo 3.1 pode ser usado via REST, mas a versão subjacente também pode ser acessada por meio dessa API. As implementações variam de acordo com o ambiente (API Gemini vs. REST da CometAPI). Se você preferir usar o curl, certifique-se de seguir a autenticação correta (tokens Bearer do Google Cloud ou chave da CometAPI) e utilize o endpoint específico para geração de vídeo do seu produto. Exemplo de pseudo-curl da CometAPI (adapte à sua autenticação e endpoint):

curl "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "veo-3.1",
    "prompt": "A simple prompt describing the action",
    "config": {"aspect_ratio":"16:9","length_seconds":8}
  }' --output generated_response.json

importanteA URL REST exata e a estrutura da carga útil dependem de você usar o API Gêmeos or CometAPI endpoints—consulte a documentação do produto antes de enviar solicitações. Os SDKs cuidam de muitos detalhes de autenticação e sondagem para você.

Como usar o Veo 3.1 — quais fluxos de trabalho são suportados?

A seguir, descreverei os fluxos práticos que você usará ao editar com o Veo 3.1: os fluxos de UX (Flow/Gemini Studio) e os fluxos programáticos (API Gemini / API Vertex). Para cada fluxo, mostrarei exemplos, observações importantes e pequenos trechos de código que você pode copiar.

Principais fluxos de trabalho de edição

Existem três fluxos de edição práticos que você usará com frequência:

Edições e regenerações orientadas por texto — Alterar uma tomada reescrevendo o enunciado ou aplicando novas instruções à mesma cena.
Edição guiada por imagem de referência (“Ingredientes para vídeo”) — você fornece até 3 imagens para preservar um personagem ou objeto entre os quadros gerados.
Interpolação de quadros (primeiro e último quadro) — Forneça uma imagem inicial e uma imagem final e o Veo gera a sequência de transição entre elas (com áudio, se solicitado).
Extensão de cena — estender um clipe existente gerado pelo Veo (ou outro) criando um clipe de ligação que continue a partir do último segundo do clipe anterior.
Inserção/remoção de objetos e outras ferramentas de edição do Flow. — Algumas funcionalidades da interface do usuário do Flow (inserção/remoção de objetos, sugestões de rabiscos, refilmagens de ângulos de câmera) estão sendo adicionadas às capacidades do Veo e podem auxiliar no retoque em nível de quadro em uma interface gráfica.

Observações e dicas: utilize a autenticação apropriada (chave da API Gemini / chave da API CometAPI). O exemplo utiliza o veo-3.1-generate-preview — os IDs dos modelos e os nomes dos parâmetros podem ser ligeiramente diferentes entre as versões do SDK e as regiões; os IDs dos modelos veo 3.1 da CometAPI são veo3.1-pro e veo3.1.

1) Texto → Vídeo (nova geração)

Caso de uso: Crie um novo vídeo curto a partir de um roteiro ou de uma ideia criativa.

Fluxo:

Prepare um texto explicativo claro, incluindo descrição da cena, direção da câmera e dicas de áudio (diálogos ou efeitos sonoros).
Ligue para Gemini gerarVídeos ponto final usando o modelo Veo 3.1.
Acompanhe a operação de longa duração até que a geração termine, baixe o MP4 resultante e, em seguida, revise e itere.

Exemplo simples em Python (texto → vídeo):

Use o Google oficial genai Cliente para Python. Este trecho demonstra como gerar um vídeo curto a partir de um prompt com o Veo 3.1.

# Requires google-genai Python client configured with credentials

import time
from google import genai

client = genai.Client()

prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
)

# Poll until done

while not operation.done:
    print("Waiting for generation...")
    time.sleep(8)
    operation = client.operations.get(operation)

# Save video

generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")

2) Imagem → Vídeo (animar uma imagem de origem)

Caso de uso: Transforme uma imagem de produto, um retrato de personagem ou uma única foto em um clipe curto de animação.

Fluxo:

Produza ou selecione uma imagem inicial (que pode ser gerada por um modelo de imagem como o Nano Banana).
Faça o upload da imagem como a image parâmetro e chamada generate_videos, fornecendo opcionalmente referenceImages ou um lastFrame para interpolação.
Recuperar e revisar; iterar instruções ou recursos de imagem.

Trecho de código Python para criação de vídeo a partir de imagem (imagem gerada separadamente):

Uma das funcionalidades mais práticas do Veo 3.1 é imagens de referênciaForneça até 3 imagens (uma pessoa, um produto, um objeto) para que o vídeo gerado preserve essa aparência em todos os quadros.

# Python: use reference images with Veo 3.1

from google import genai
from google.genai import types
client = genai.Client()

prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."

# reference_image_* can be binary content or file references depending on the SDK

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=,  # up to 3

        aspect_ratio="16:9",
        length_seconds=8
    ),
)

# handle operation result and download as earlier example

Dicas práticas:

Prefira imagens de referência nítidas e bem iluminadas que capturem o assunto em ângulos úteis.
Utilize referências para manter a identidade do produto, das roupas ou do rosto de um personagem em sequências com várias tomadas.
Evite usar imagens protegidas por direitos autorais ou de uso pessoal sem permissão.

3) Vídeo para vídeo / Extensão (continuar ou refilmar)

Caso de uso: Estenda um clipe já gerado ou continue uma ação além do seu término, ou use um vídeo gerado anteriormente como base para reedição.

Fluxo:

Forneça o vídeo gerado como o video Insira os dados e elabore um texto descrevendo como o vídeo deve continuar (por exemplo, "Extensão: o protagonista abre a porta e caminha em direção à luz").
Use o modo de extensão — o Veo 3.1 finaliza o último segundo e continua o movimento. Observação: a extensão de voz é menos confiável, a menos que haja áudio no último segundo.

Exemplo em Python (extensão do vídeo existente):

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    video=previous_generated_video,  # a Video object from previous generation

    prompt="Extend: The paraglider slowly descends and lands by a meadow.",
    config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...

Nota sobre o fluxo de trabalhoEstenda os clipes repetidamente (unindo cada novo clipe gerado ao final do anterior) para construir sequências mais longas. Lembre-se do acúmulo de artefatos — periodicamente, ancore novamente em quadros de referência de alta qualidade ou regenere as seções para preservar a fidelidade.

4) Edição específica de quadros (primeiro e último quadro, imagens de referência)

Você pode produzir um vídeo que faça a transição de um quadro inicial para um quadro final. Para isso, primeiro gere uma imagem (por exemplo, com um modelo de imagem Gemini), depois passe essa imagem como parâmetro e defina last\_frame na configuração para controlar a interpolação.

Caso de uso: Você deseja uma continuidade visual precisa ou uma animação entre dois quadros específicos.

Fluxo:

Gere ou carregue um primeiro e um último quadro.
Ligue para Veo 3.1 com image=first_frame e config.last_frame=last_frame.
O modelo interpola entre esses quadros, produzindo movimento e áudio plausíveis que correspondem ao seu comando.

Por que isso importa: Para controle criativo, o recurso de primeiro/último quadro permite definir o enquadramento e a composição da câmera exatamente para o início e o fim, o que é essencial para efeitos visuais, continuidade ou momentos-chave da narrativa.

Python (imagem → vídeo)

# Step 1: make an image (using a Gemini image model)

image_resp = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents="A stylized watercolor painting of a fox in a moonlit forest",
    config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition to a fox bounding across snow toward the camera.",
    image=first_image,
    config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...

Isso proporciona uma interpolação suave entre duas âncoras visuais definidas.

Quais estratégias de prompt e input funcionam melhor com o Veo 3.1?

O Veo 3.1 responde melhor a instruções estruturadas que descrevem claramente a composição visual, o movimento, o som e o tom emocional. O "guia de instruções" do Google para o Veo 3.1 recomenda ingredientes específicos; aqui está uma lista resumida:

Anatomia básica (recomendada)

Cena principal — frase concisa: quem/o quê, ação principal.
Descrição da câmera — close-up / plano geral / dolly / steady / câmera na mão, movimento e enquadramento da câmera.
Cronometragem e ritmo — dicas curtas como “lentamente”, “sensação cinematográfica de 24fps” ou contagens de quadros, caso precise de precisão.
Sugestões de áudio — especifique o ambiente de fundo, efeitos sonoros específicos ou diálogos (entre aspas). O Veo 3.1 pode sintetizar áudio nativo.
Estilo e referências — incluir referenceImages Ou mencione estilos fotográficos/cinematográficos: “filme noir, alto contraste, estilo Kodak 500”.
Avisos negativos — especifique o que você não desejam (por exemplo, “sem logotipos, sem texto, sem estilo de desenho animado”) para reduzir resultados indesejados.

Utilizando imagens de referência

O guiamento por imagem e a interpolação do primeiro/último quadro são recursos do Veo 3.1. Um fluxo de trabalho comum e de alta qualidade é:

Gere ou refine imagens estáticas com 1 a 3 imagens de referência por meio de um modelo de imagem (modelos de imagem Nano Banana ou Gemini) que define a aparência/estilo de objetos persistentes (pessoas, produtos). O Veo preserva bem a aparência do objeto quando guiado por imagens de referência.
Componha esses elementos em imagens de referência (ou nos primeiros/últimos quadros).
Chame o Veo 3.1 para geração/interpolação/extensão de vídeo.
Opcionalmente, pós-processamento (Correção de cor, compressão, edições manuais) com ferramentas de vídeo padrão (Premiere, DaVinci Resolve).

Considerações sobre tokens, comprimento e resolução

As entradas de texto do Veo 3.1 têm limites de tokens (por exemplo, cerca de 1,024 tokens para certas variantes de pré-visualização) e a saída geralmente é um vídeo curto (os exemplos frequentemente mostram 8 segundos); seja conciso e iterativo. Planeje unir vários clipes gerados para obter conteúdo mais longo.

Conclusão — o que o Veo 3.1 muda para criadores e editores

O Veo 3.1 representa um salto prático na geração de vídeos curtos com áudio nativo por IA. Não é apenas um gerador: está se tornando um assistente de edição Ferramentas como Flow e Gemini Studio permitem que os criadores façam edições precisas (inserção/remoção de objetos, novas tomadas de câmera) reutilizando as mesmas primitivas generativas. Para desenvolvedores e equipes de pós-produção, a abordagem recomendada é iterativa: usar a API para gerar e estender tomadas curtas, usar quadros de referência para manter a continuidade e realizar a composição final e a mixagem de áudio com ferramentas tradicionais.

Os desenvolvedores podem acessar API do Veo 3.1 e Gemini 3 Pro Image (Nano Banana Pro) por meio da CometAPI. Para começar, explore os recursos de modelagem da CometAPI no Playground e consultar Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. Com e tAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.

Pronto para ir?→ Inscreva-se no CometAPI hoje mesmo !

Se você quiser saber mais dicas, guias e novidades sobre IA, siga-nos em VK, X e Discord!

O que faz o Veo 3.1 e qual a sua origem?

Onde o Veo 3.1 é executado?

Como editar vídeos do Veo 3.1 no Flow? Passo a passo

Como faço para editar vídeos usando o Flow (a interface de usuário do criador)?

Como faço para realizar uma edição básica no Flow (passos práticos)?

Como faço para editar ou gerar vídeos programaticamente usando a API do Veo 3.1?

Exemplo em JavaScript (Node) — gerar e consultar

Posso usar curl/REST em vez do SDK do Python?

Como usar o Veo 3.1 — quais fluxos de trabalho são suportados?

Principais fluxos de trabalho de edição

1) Texto → Vídeo (nova geração)

2) Imagem → Vídeo (animar uma imagem de origem)

3) Vídeo para vídeo / Extensão (continuar ou refilmar)

4) Edição específica de quadros (primeiro e último quadro, imagens de referência)

Python (imagem → vídeo)

Quais estratégias de prompt e input funcionam melhor com o Veo 3.1?

Anatomia básica (recomendada)

Utilizando imagens de referência

Considerações sobre tokens, comprimento e resolução

Conclusão — o que o Veo 3.1 muda para criadores e editores

Leia Mais

500+ Modelos em Uma API