G

Veo 3.1

Por Solicitud:$0.40
Veo 3.1 es la actualización incremental pero significativa de Google para su familia Veo de texto e imagen → video, que añade audio nativo más rico, salidas de video más largas y más controlables, y una edición más precisa y controles a nivel de escena más detallados.
Nuevo
Uso comercial

Características principales

Veo 3.1 se centra en funciones prácticas de creación de contenido:

  • Generación de audio nativa (diálogo, sonido ambiental, SFX) integrada en las salidas. Veo 3.1 genera audio nativo (diálogo + ambiente + SFX) alineado con la línea de tiempo visual; el modelo busca preservar la sincronización labial y la alineación audiovisual para el diálogo y las señales de escena.
  • Salidas más largas (compatibilidad de hasta ~60 segundos / 1080p frente a los clips muy cortos de Veo 3, 8 s) y secuencias multi-shot con múltiples prompts para continuidad narrativa.
  • Modos Scene Extension y First/Last Frame que amplían o interpolan metraje entre fotogramas clave.
  • Inserción de objetos y (próximamente) eliminación de objetos y primitivas de edición dentro de Flow.

Cada punto anterior está diseñado para reducir el trabajo manual de VFX: el audio y la continuidad de escena ahora son salidas de primera clase en lugar de añadidos posteriores.

Detalles técnicos (comportamiento del modelo y entradas)

Familia del modelo y variantes: Veo pertenece a la familia Veo-3 de Google; el ID del modelo de preview suele ser veo3.1-pro; veo3.1 (CometAPI doc). Acepta prompts de texto, referencias de imagen (fotograma único o secuencias) y diseños estructurados de múltiples prompts para generación multi-shot.

Resolución y duración: La documentación de preview describe salidas a 720p/1080p con opciones para duraciones más largas (hasta ~60 s en ciertas configuraciones de preview) y mayor fidelidad que variantes anteriores de Veo.

Relaciones de aspecto: 16:9 (compatible) y 9:16 (compatible excepto en algunos flujos con imagen de referencia).

Idioma del prompt: Inglés (preview).

Límites de API: los límites típicos de preview incluyen máx. 10 solicitudes de API/min por proyecto, máx. 4 videos por solicitud, y duraciones de video seleccionables entre 4, 6 o 8 segundos (los flujos con imagen de referencia admiten 8 s).

Rendimiento en benchmarks

Las evaluaciones internas de Google y los resúmenes públicos informan una fuerte preferencia por las salidas de Veo 3.1 en comparaciones con evaluadores humanos en métricas como alineación del texto, calidad visual y coherencia audiovisual (tareas de texto→video e imagen→video).

Veo 3.1 alcanzó resultados de última generación en comparaciones internas con evaluadores humanos a lo largo de varios ejes objetivos — preferencia general, alineación con el prompt (texto→video e imagen→video), calidad visual, alineación audiovisual y “física visualmente realista” en conjuntos de evaluación como MovieGenBench y VBench.

Limitaciones y consideraciones de seguridad

Limitaciones:

  • Artefactos e inconsistencias: pese a las mejoras, ciertas condiciones de iluminación, física detallada y oclusiones complejas aún pueden producir artefactos; la consistencia imagen→video (especialmente en duraciones largas) ha mejorado pero no es perfecta.
  • Riesgo de desinformación / deepfake: audio más rico + inserción/eliminación de objetos incrementa el riesgo de uso indebido (audio falso realista y clips extendidos). Google señala mitigaciones (política, salvaguardas) y lanzamientos anteriores de Veo mencionaron watermarking/SynthID para ayudar a la procedencia; sin embargo, las salvaguardas técnicas no eliminan el riesgo de uso indebido.
  • Restricciones de coste y rendimiento: los videos de alta resolución y larga duración son computacionalmente costosos y actualmente están limitados en un preview de pago: se esperan mayor latencia y coste en comparación con modelos de imagen. Publicaciones de la comunidad y hilos en foros de Google comentan ventanas de disponibilidad y estrategias de respaldo.

Controles de seguridad: Veo3.1 incluye políticas de contenido integradas, señalización de watermarking/synthID en lanzamientos anteriores de Veo y controles de acceso de preview; se recomienda a los clientes seguir la política de la plataforma e implementar revisión humana para salidas de alto riesgo.

Casos de uso prácticos

  • Prototipado rápido para creativos: guiones gráficos → clips multi-shot y animatics con diálogo nativo para revisión creativa temprana.
  • Marketing y contenido de formato corto: piezas de producto de 15–60 s, clips sociales y teasers de concepto donde la velocidad importa más que el fotorrealismo perfecto.
  • Adaptación imagen→video: convertir ilustraciones, personajes o dos fotogramas en transiciones fluidas o escenas animadas mediante First/Last Frame y Scene Extension.
  • Aumento de herramientas: integración en Flow para edición iterativa (inserción/eliminación de objetos, preajustes de iluminación) que reduce pasadas manuales de VFX.

Comparación con otros modelos líderes

Veo 3.1 vs Veo 3 (predecesor): Veo 3.1 se centra en mejor adhesión al prompt, calidad de audio y consistencia multi-shot — actualizaciones incrementales pero significativas orientadas a reducir artefactos y mejorar la editabilidad.

Veo 3.1 vs OpenAI Sora 2: compensaciones informadas en prensa: Veo 3.1 enfatiza el control narrativo de formato largo, audio integrado y la integración de edición en Flow; Sora 2 (cuando se compara en prensa) se centra en fortalezas diferentes (velocidad, distintos flujos de edición). TechRadar y otros medios presentan a Veo 3.1 como el competidor dirigido de Google frente a Sora 2 para narrativa y soporte de videos más largos. Las pruebas comparativas independientes lado a lado siguen siendo limitadas.

Más modelos