Veo 3.1

Por Segundo:$0.05

Veo 3.1 é a atualização incremental, porém significativa, da família Veo de texto e imagem→vídeo do Google, adicionando áudio nativo mais rico, saídas de vídeo mais longas e mais controláveis e controles de edição e em nível de cena mais refinados.

Novo

Uso comercial

Playground

Visão Geral

Recursos

Preços

API

Versões

Recursos principais

Veo 3.1 foca em recursos práticos de criação de conteúdo:

Geração de áudio nativa (diálogo, som ambiente, SFX) integrada nas saídas. O Veo 3.1 gera áudio nativo (diálogo + ambiência + SFX) alinhado à linha do tempo visual; o modelo busca preservar a sincronização labial e o alinhamento áudio–visual para diálogos e pistas de cena.
Saídas mais longas (suporte para até ~60 segundos / 1080p, em comparação com os clipes muito curtos de 8s do Veo 3), e sequências multi-shot de múltiplos prompts para continuidade narrativa.
Modos Scene Extension e First/Last Frame que estendem ou interpolam a filmagem entre quadros-chave.
Inserção de objetos e (em breve) remoção de objetos e primitivos de edição dentro do Flow.

Cada item acima foi projetado para reduzir o trabalho manual de VFX: áudio e continuidade de cena agora são saídas de primeira classe, e não um acréscimo tardio.

Detalhes técnicos (comportamento do modelo e entradas)

Família do modelo e variantes: Veo pertence à família Veo-3 da Google; o ID do modelo em prévia é normalmente veo3.1-pro; veo3.1 (documentação da CometAPI). Ele aceita prompts de texto, referências de imagem (quadro único ou sequências) e layouts estruturados com múltiplos prompts para geração multi-shot.

Resolução e duração: A documentação de prévia descreve saídas em 720p/1080p, com opções para durações mais longas (até ~60s em certas configurações de prévia) e fidelidade superior às variantes anteriores do Veo.

Proporções de imagem: 16:9 (suportado) e 9:16 (suportado, exceto em alguns fluxos de imagem de referência).

Idioma dos prompts: inglês (prévia).

Limites da API: os limites típicos da prévia incluem máx. 10 solicitações de API/min por projeto, máx. 4 vídeos por solicitação, e comprimentos de vídeo selecionáveis entre 4, 6 ou 8 segundos (fluxos de imagem de referência suportam 8s).

Desempenho em benchmarks

Avaliações internas da Google e resumos públicos relatam forte preferência pelas saídas do Veo 3.1 em comparações com avaliadores humanos, em métricas como alinhamento de texto, qualidade visual e coerência áudio–visual (tarefas de texto→vídeo e imagem→vídeo).

Veo 3.1 alcançou resultados de estado da arte em comparações internas com avaliadores humanos em vários eixos objetivos — preferência geral, alinhamento ao prompt (texto→vídeo e imagem→vídeo), qualidade visual, alinhamento áudio–vídeo e “física visualmente realista” em conjuntos de benchmark como MovieGenBench e VBench.

Limitações e considerações de segurança

Limitações:

Artefatos e inconsistência: apesar das melhorias, certas condições de iluminação, física de detalhes finos e oclusões complexas ainda podem gerar artefatos; a consistência imagem→vídeo (especialmente em durações longas) melhorou, mas não é perfeita.
Desinformação / risco de deepfake: áudio mais rico + inserção/remoção de objetos aumentam o risco de uso indevido (áudio falso realista e clipes estendidos). A Google aponta mitigadores (políticas, salvaguardas) e lançamentos anteriores do Veo referenciaram marca d’água/SynthID para ajudar na proveniência; porém, salvaguardas técnicas não eliminam o risco de uso indevido.
Restrições de custo e vazão: vídeos longos em alta resolução são computacionalmente caros e atualmente restritos em uma prévia paga — espere latência e custo mais altos em comparação com modelos de imagem. Posts da comunidade e tópicos nos fóruns da Google discutem janelas de disponibilidade e estratégias de fallback.

Controles de segurança: Veo3.1 possui políticas de conteúdo integradas, marca d’água/sinalização SynthID em lançamentos anteriores do Veo e controles de acesso na prévia; recomenda-se que os clientes sigam a política da plataforma e implementem revisão humana para saídas de alto risco.

Casos de uso práticos

Prototipagem rápida para criativos: storyboards → clipes multi-shot e animatics com diálogo nativo para revisão criativa antecipada.
Marketing e conteúdo de formato curto: spots de produto de 15–60s, clipes para redes sociais e teasers de conceito, em que a velocidade importa mais do que o fotorrealismo perfeito.
Adaptação imagem→vídeo: transformando ilustrações, personagens ou dois quadros em transições suaves ou cenas animadas via First/Last Frame e Scene Extension.
Aprimoramento de ferramentas: integrado ao Flow para edição iterativa (inserção/remoção de objetos, predefinições de iluminação) que reduz etapas manuais de VFX.

Comparação com outros modelos líderes

Veo 3.1 vs Veo 3 (antecessor): Veo 3.1 foca em maior adesão ao prompt, qualidade de áudio e consistência multi-shot — atualizações incrementais, porém impactantes, voltadas a reduzir artefatos e melhorar a editabilidade.

Veo 3.1 vs OpenAI Sora 2: trade-offs relatados na imprensa: Veo 3.1 enfatiza controle narrativo de formato mais longo, áudio integrado e integração de edição no Flow; Sora 2 (quando comparado na imprensa) foca em pontos fortes diferentes (velocidade, pipelines de edição diferentes). TechRadar e outros veículos apresentam o Veo 3.1 como o concorrente direcionado da Google ao Sora 2 para narrativa e suporte a vídeos mais longos. Testes comparativos lado a lado independentes ainda são limitados.

Preços para Veo 3.1

Explore preços competitivos para Veo 3.1, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Veo 3.1 pode aprimorar seus projetos mantendo os custos gerenciáveis.

veo3.1（videos）

Model name	Tags	Calculate price
veo3.1-all	videos	$0.20000
veo3.1	videos	$0.40000

Código de exemplo e API para Veo 3.1

Acesse código de exemplo abrangente e recursos de API para Veo 3.1 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do Veo 3.1 em seus projetos.

POST

/v1/videos

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Versões do Veo 3.1

O motivo pelo qual Veo 3.1 possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.

ID do modelo	descrição	Disponibilidade	Preço	Requisição
veo3.1-all	A tecnologia utilizada é não oficial e a geração é instável etc	✅	$0.2 / por	Chat formato
veo3.1	Recomendado, aponta para o modelo mais recente	✅	$0.4/ por	Geração assíncrona

Mais modelos

Blogs relacionados

Apr 20, 2026

Kling 3.0 vs Veo 3.1: o confronto definitivo de geradores de vídeo com IA em 2026

Atualmente, o Kling 3.0 lidera com narrativa de múltiplas tomadas nativa em 4K e controle de câmera superior. O Veo 3.1 se destaca em física fotorrealista, sincronização de áudio nativa e integração ao ecossistema do Google, tornando-o ideal para projetos cinematográficos ou corporativos. Para a maioria dos usuários, o vencedor depende das prioridades: Kling 3.0 pela velocidade, consistência e custo; Veo 3.1 pelo realismo premium e áudio.

Apr 1, 2026

Até onde vai meu conhecimento (outubro de 2024), o Google Veo é o modelo de geração de vídeo por IA do Google, apresentado no Google I/O 2024, capaz de criar vídeos 1080p a partir de prompts de texto, com controles de estilo e cenas mais longas. Não há referência pública específica a “Veo 3.1 Lite” nesse período. Se você tiver um link ou mais contexto, posso ajudar a identificar do que se trata ou resumir as diferenças em relação ao Veo.

O que é o Veo 3.1 Lite? O Veo 3.1 Lite é o mais novo modelo de geração de vídeo econômico do Google para desenvolvedores, lançado em 31 de março de 2026. Ele suporta texto-para-vídeo e imagem-para-vídeo, gera vídeo com áudio e foi projetado para aplicações de alto volume. O Google afirma que ele custa menos da metade do Veo 3.1 Fast, mantendo a mesma velocidade, com formatos de saída 16:9 e 9:16 e suporte a 720p/1080p.

Mar 25, 2026

Como obter o Grok Imagine gratuitamente: acesso, preços e alternativas

O Grok Imagine Video não é gratuito nas plataformas oficiais xAI/Grok em março de 2026 (o nível gratuito foi removido devido à alta demanda e a preocupações com uso indevido), mas você pode acessá-lo de forma acessível — ou com créditos iniciais gratuitos — por meio de agregadores de terceiros, como o CometAPI. O CometAPI oferece o modelo por apenas US$ 0,04 por segundo (480p), e novos usuários geralmente recebem de US$ 1 a US$ 5 em créditos gratuitos ao se cadastrarem.

Mar 5, 2026

Como editar vídeos usando o Veo 3.1

O Google apresentou publicamente o Veo 3.1 (e uma variante Veo 3.1 Fast) em meados de outubro de 2025 como um modelo aprimorado de conversão de texto em vídeo que produz vídeos curtos com maior fidelidade.

Jan 31, 2026

O que é o vidu Q3? Talvez seja o melhor modelo de vídeo de IA em 2026.

Vidu Q3 entrou em cena no início de 2026 como um dos sinais mais claros até agora de que a geração de vídeo impulsionada por IA está migrando de clipes curtos, de novidade, para narrativas genuínas com múltiplas tomadas. Nos meses desde seu lançamento amplo, Vidu Q3 tornou-se um elemento básico nos fluxos de trabalho de criadores, em pilotos de pesquisa e comerciais — e com razão: ele leva a duração, a integração audiovisual e a coerência entre múltiplas tomadas mais longe do que a maioria dos modelos anteriores, ao mesmo tempo que oferece uma API voltada para desenvolvedores para uso programático.