Veo 3.1

Por Segundo:$0.05

Veo 3.1 es la actualización incremental pero significativa de Google para su familia Veo de texto e imagen → video, que añade audio nativo más rico, salidas de video más largas y más controlables, y una edición más precisa y controles a nivel de escena más detallados.

Nuevo

Uso comercial

Playground

Resumen

Características

Precios

API

Versiones

Características principales

Veo 3.1 se centra en funciones prácticas de creación de contenido:

Generación de audio nativa (diálogo, sonido ambiental, SFX) integrada en las salidas. Veo 3.1 genera audio nativo (diálogo + ambiente + SFX) alineado con la línea de tiempo visual; el modelo busca preservar la sincronización labial y la alineación audiovisual para el diálogo y las señales de escena.
Salidas más largas (compatibilidad de hasta ~60 segundos / 1080p frente a los clips muy cortos de Veo 3, 8 s) y secuencias multi-shot con múltiples prompts para continuidad narrativa.
Modos Scene Extension y First/Last Frame que amplían o interpolan metraje entre fotogramas clave.
Inserción de objetos y (próximamente) eliminación de objetos y primitivas de edición dentro de Flow.

Cada punto anterior está diseñado para reducir el trabajo manual de VFX: el audio y la continuidad de escena ahora son salidas de primera clase en lugar de añadidos posteriores.

Detalles técnicos (comportamiento del modelo y entradas)

Familia del modelo y variantes: Veo pertenece a la familia Veo-3 de Google; el ID del modelo de preview suele ser veo3.1-pro; veo3.1 (CometAPI doc). Acepta prompts de texto, referencias de imagen (fotograma único o secuencias) y diseños estructurados de múltiples prompts para generación multi-shot.

Resolución y duración: La documentación de preview describe salidas a 720p/1080p con opciones para duraciones más largas (hasta ~60 s en ciertas configuraciones de preview) y mayor fidelidad que variantes anteriores de Veo.

Relaciones de aspecto: 16:9 (compatible) y 9:16 (compatible excepto en algunos flujos con imagen de referencia).

Idioma del prompt: Inglés (preview).

Límites de API: los límites típicos de preview incluyen máx. 10 solicitudes de API/min por proyecto, máx. 4 videos por solicitud, y duraciones de video seleccionables entre 4, 6 o 8 segundos (los flujos con imagen de referencia admiten 8 s).

Rendimiento en benchmarks

Las evaluaciones internas de Google y los resúmenes públicos informan una fuerte preferencia por las salidas de Veo 3.1 en comparaciones con evaluadores humanos en métricas como alineación del texto, calidad visual y coherencia audiovisual (tareas de texto→video e imagen→video).

Veo 3.1 alcanzó resultados de última generación en comparaciones internas con evaluadores humanos a lo largo de varios ejes objetivos — preferencia general, alineación con el prompt (texto→video e imagen→video), calidad visual, alineación audiovisual y “física visualmente realista” en conjuntos de evaluación como MovieGenBench y VBench.

Limitaciones y consideraciones de seguridad

Limitaciones:

Artefactos e inconsistencias: pese a las mejoras, ciertas condiciones de iluminación, física detallada y oclusiones complejas aún pueden producir artefactos; la consistencia imagen→video (especialmente en duraciones largas) ha mejorado pero no es perfecta.
Riesgo de desinformación / deepfake: audio más rico + inserción/eliminación de objetos incrementa el riesgo de uso indebido (audio falso realista y clips extendidos). Google señala mitigaciones (política, salvaguardas) y lanzamientos anteriores de Veo mencionaron watermarking/SynthID para ayudar a la procedencia; sin embargo, las salvaguardas técnicas no eliminan el riesgo de uso indebido.
Restricciones de coste y rendimiento: los videos de alta resolución y larga duración son computacionalmente costosos y actualmente están limitados en un preview de pago: se esperan mayor latencia y coste en comparación con modelos de imagen. Publicaciones de la comunidad y hilos en foros de Google comentan ventanas de disponibilidad y estrategias de respaldo.

Controles de seguridad: Veo3.1 incluye políticas de contenido integradas, señalización de watermarking/synthID en lanzamientos anteriores de Veo y controles de acceso de preview; se recomienda a los clientes seguir la política de la plataforma e implementar revisión humana para salidas de alto riesgo.

Casos de uso prácticos

Prototipado rápido para creativos: guiones gráficos → clips multi-shot y animatics con diálogo nativo para revisión creativa temprana.
Marketing y contenido de formato corto: piezas de producto de 15–60 s, clips sociales y teasers de concepto donde la velocidad importa más que el fotorrealismo perfecto.
Adaptación imagen→video: convertir ilustraciones, personajes o dos fotogramas en transiciones fluidas o escenas animadas mediante First/Last Frame y Scene Extension.
Aumento de herramientas: integración en Flow para edición iterativa (inserción/eliminación de objetos, preajustes de iluminación) que reduce pasadas manuales de VFX.

Comparación con otros modelos líderes

Veo 3.1 vs Veo 3 (predecesor): Veo 3.1 se centra en mejor adhesión al prompt, calidad de audio y consistencia multi-shot — actualizaciones incrementales pero significativas orientadas a reducir artefactos y mejorar la editabilidad.

Veo 3.1 vs OpenAI Sora 2: compensaciones informadas en prensa: Veo 3.1 enfatiza el control narrativo de formato largo, audio integrado y la integración de edición en Flow; Sora 2 (cuando se compara en prensa) se centra en fortalezas diferentes (velocidad, distintos flujos de edición). TechRadar y otros medios presentan a Veo 3.1 como el competidor dirigido de Google frente a Sora 2 para narrativa y soporte de videos más largos. Las pruebas comparativas independientes lado a lado siguen siendo limitadas.

Precios para Veo 3.1

Explora precios competitivos para Veo 3.1, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo Veo 3.1 puede mejorar tus proyectos mientras mantienes los costos manejables.

veo3.1（videos）

Model name	Tags	Calculate price
veo3.1-all	videos	$0.20000
veo3.1	videos	$0.40000

Código de ejemplo y API para Veo 3.1

Accede a código de muestra completo y recursos de API para Veo 3.1 para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de Veo 3.1 en tus proyectos.

POST

/v1/videos

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Versiones de Veo 3.1

La razón por la cual Veo 3.1 tiene múltiples instantáneas puede incluir factores potenciales como variaciones en la salida tras actualizaciones que requieren instantáneas anteriores para mantener la coherencia, ofrecer a los desarrolladores un período de transición para adaptación y migración, y diferentes instantáneas que corresponden a endpoints globales o regionales para optimizar la experiencia del usuario. Para conocer las diferencias detalladas entre versiones, consulte la documentación oficial.

ID del modelo	descripción	Disponibilidad	Precio	Solicitud
veo3.1-all	La tecnología utilizada es no oficial y la generación es inestable, etc	✅	$0.2 / por	Chat formato
veo3.1	Recomendado, apunta al modelo más reciente	✅	$0.4/ por	Generación asíncrona

Más modelos

Blog relacionado

Apr 20, 2026

Kling 3.0 vs Veo 3.1: el duelo definitivo de generadores de video de IA en 2026

Kling 3.0 lidera actualmente con una narrativa de múltiples tomas nativa en 4K y un control de cámara superior. Veo 3.1 destaca en física fotorrealista, sincronización de audio nativa e integración con el ecosistema de Google, lo que lo hace ideal para proyectos cinematográficos o empresariales. Para la mayoría de los usuarios, el ganador depende de las prioridades: Kling 3.0 para velocidad, consistencia y coste; Veo 3.1 para realismo y audio de nivel premium.

Apr 1, 2026

¿Qué es Google Veo 3.1 Lite?

¿Qué es Veo 3.1 Lite? Veo 3.1 Lite es el modelo de generación de video rentable más reciente de Google para desarrolladores, lanzado el 31 de marzo de 2026. Admite de texto a video y de imagen a video, genera video con audio y está diseñado para aplicaciones de alto volumen. Google afirma que cuesta menos de la mitad que Veo 3.1 Fast, manteniendo la misma velocidad, y ofrece formatos de salida 16:9 y 9:16, con soporte para resolución 720p/1080p.

Mar 25, 2026

Cómo obtener Grok Imagine gratis: acceso, precios y alternativas

Grok Imagine Video no es gratuito en las plataformas oficiales de xAI/Grok a partir de marzo de 2026 (el nivel gratuito se retiró debido a la alta demanda y a preocupaciones sobre el uso indebido), pero puedes acceder a él de forma asequible — o con créditos iniciales gratuitos — a través de agregadores de terceros como CometAPI. CometAPI ofrece el modelo por solo $0.04 por segundo (480p), y los usuarios nuevos a menudo reciben $1–$5 en créditos gratuitos al registrarse.

Mar 5, 2026

Cómo editar vídeos a través de Veo 3.1

Google presentó públicamente Veo 3.1 (y una variante Veo 3.1 Fast) a mediados de octubre de 2025 como un modelo de texto a video mejorado que produce videos cortos de mayor fidelidad.

Jan 31, 2026

¿Qué es vidu Q3? Tal vez sea el mejor modelo de video de IA en 2026.

Vidu Q3 se sumó a la conversación a principios de 2026 como una de las señales más claras hasta ahora de que la generación de video impulsada por IA está pasando de clips breves de carácter novedoso hacia narrativas genuinas con múltiples tomas. En los meses desde su lanzamiento amplio, Vidu Q3 se ha convertido en un elemento habitual en los flujos de trabajo de creadores, en pilotos de investigación y en pilotos comerciales —y con razón—: lleva la duración, la integración audiovisual y la coherencia entre múltiples tomas más lejos que la mayoría de los modelos anteriores, a la vez que ofrece una API orientada a desarrolladores para su uso programático.