Veo 3.1 es la última versión de la familia Veo de modelos de generación de vídeo de Google. Ofrece audio nativo más rico, mejor control narrativo y cinematográfico, guía multiimagen y nuevas primitivas de edición (transiciones de primer/último fotograma, "ingredientes"/imágenes de referencia y flujos de trabajo de extensión de escenas). Para los desarrolladores, la forma más rápida de acceder a Veo 3.1 es la API (para integraciones orientadas al consumidor) y Vertex AI (para cargas de trabajo empresariales y en la nube).
¿Qué es la API de Veo 3.1 y cuáles son sus características principales?
Veo 3.1 es un modelo generativo de texto e imagen → vídeo de Google, diseñado para producir clips cinematográficos cortos de alta calidad con audio generado de forma nativa (diálogos, pistas ambientales y efectos de sonido). Esta versión se centra en mejorar la adherencia a las indicaciones, la coherencia de los personajes, la generación de audio y controles de edición más granulares (por ejemplo: transiciones del primer al último fotograma y guía mediante hasta tres imágenes de referencia).
Capacidades clave (de un vistazo)
- Texto → Vídeo:Genere videos directamente a partir de indicaciones narrativas (diálogos y audio incluidos).
- Imagen → Vídeo: Transforma una imagen en una breve escena animada. ()
- Imágenes de referencia (“Ingredientes del vídeo”):Suministro hasta 3 imágenes (personajes, objetos, estilos) para mantener la coherencia visual en todos los resultados.
- Generación del primer y último cuadro:Crea transiciones que conectan dos imágenes (el modelo genera cuadros que se transforman suavemente entre ellas, con audio correspondiente).
- Flujos de trabajo de extensión de escenas:Herramientas para ampliar un clip existente generando nuevos clips vinculados al final de un video anterior (nota: las capacidades y el soporte difieren entre la API de Gemini y la vista previa de Vertex; consulte la sección “condiciones”).
- Audio nativo y efectos de sonido:El modelo puede sintetizar voz, sonido ambiental y efectos sincronizados que coincidan con las imágenes generadas.
¿Cómo uso la API de Veo 3.1? ¿Cuáles son los requisitos previos y las condiciones?
¿Qué necesitas antes de llamar a la API?
- Acceso y facturaciónVeo 3.1 está en versión preliminar de pago. Asegúrate de tener una clave API o un proyecto de Google Cloud con Vertex AI habilitado y la facturación configurada. Algunas funciones y variantes de modelo están limitadas por región en la versión preliminar.
- Cuotas y restricciones de vista previaLos modelos de vista previa suelen tener límites de solicitudes por proyecto (por ejemplo, 10 RPM para las variantes de vista previa) y límites de videos por solicitud. Consulta la página del modelo en la documentación de Vertex AI/Gemini para conocer las cifras exactas de tu cuenta.
- Activos de entrada y formatoPuede generar a partir de indicaciones de texto, de una o varias imágenes, o ampliar un vídeo generado por Veo haciendo referencia a su URI. Para flujos de trabajo de imagen a vídeo, proporcione las imágenes en los formatos compatibles (URL o bytes, según el punto de conexión).
- Seguridad y procedenciaEl contenido generado debe cumplir con las políticas de contenido de Google. En la vista previa, pueden aparecer marcas de agua o indicadores de uso; prepárese para gestionar la procedencia y la moderación de contenido en su aplicación.
¿Qué métodos de autenticación son compatibles?
- Clave APIPara los endpoints alojados en Gemini o la clave de la plataforma API de terceros, recomiendo CometAPI. CometAPI Ofrecemos un precio mucho más bajo que el precio oficial para ayudarle a integrar la API de Veo 3.1 (veo3.1-pro; veo3.1)
- Credenciales de Google Cloud/ADC:Para Vertex AI, use las credenciales predeterminadas de la aplicación (cuenta de servicio/gcloud auth) o una clave API adjunta a su proyecto de Google Cloud.
¿Cuáles son los puntos finales de la API de Veo 3.1 y qué parámetros son los más importantes?
Respuesta corta: Llamarás al API de CometAPI punto final de generación de vídeo (para acceso alojado en CometAPI,
v1/chat/completions). Ambos utilizan un cuerpo de solicitud JSON que describe el modelo, las indicaciones y unavideo/outputConfiguración; los trabajos de vídeo más grandes se devuelven como operaciones de ejecución prolongada.
Puntos finales comunes (ejemplos):
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "veo3.1-pro",
"stream": true,
"messages":
}'
Parámetros de solicitud típicos (desglose lógico)
- modelo — identificador del modelo de destino (veo3.1-pro; nombres de veo3.1 enumerados en referencia del modelo).
- solicitud/entrada — Texto humano que describe la escena; puede incluir múltiples indicaciones o instrucciones multitoma según las capacidades del modelo. Usa indicaciones estructuradas para controlar los movimientos de la cámara, la hora del día, el estado de ánimo y las señales de audio.
- referencias de imagen — 1–3 URI de imágenes o imágenes base64 para guiar objetos/caracteres/estilos (Veo 3.1 admite múltiples referencias de imágenes).
- video — se usa cuando extensión Una salida previa de Veo (pasar la URI del video inicial). Algunas funciones solo funcionan con videos generados por Veo.
- duración / fps / resolución / relación de aspecto — seleccione entre las duraciones y formatos admitidos (los modelos de vista previa enumeran las duraciones y velocidades de cuadros admitidas, por ejemplo, 4, 6, 8 s en algunos documentos de vista previa; las extensiones pueden permitir salidas más largas en Flow/Studio).
¿Qué son los patrones y técnicas de uso avanzados?
1) Mantener la coherencia de los caracteres con las imágenes de referencia.
Proporciona hasta tres imágenes de referencia (rostros, poses y vestuario) para mantener la apariencia de un personaje en las distintas tomas generadas. Flujo típico:
- Sube o codifica en línea tus imágenes de referencia.
- Pásalos
config.reference_imagesal generar cada disparo. - Utilice las mismas imágenes para llamadas de generación posteriores (o combínelas con valores semilla) para maximizar la consistencia visual.
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
2) Transiciones de primer y último fotograma (síntesis de tomas)
Use image (primer cuadro) + config.last_frame Para indicarle a Veo que sintetice el movimiento intermedio. Esto es ideal para transiciones cinematográficas: produce una interpolación visual natural y audio sincronizado.
Proporcionar una primer fotograma (image) Y un último fotograma (lastFrame) y Veo 3.1 interpolará el movimiento entre ellas para producir una transición fluida (con audio opcional). Ejemplo de cURL (REST): primera y última imagen:
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
3) Extensión de escena (encadenar múltiples generaciones)
Hay dos patrones:
- Enfoque API/Flujo (características de vista previa):Pasas un vídeo existente (un objeto de vídeo devuelto o URI) como
video=video_to_extendpara crear un clip de seguimiento coherente con la escena anterior. Utilice la respuesta de la operación para capturar lavideo.uriy añádelo a la siguiente llamada para ampliar la narrativa. Nota: La disponibilidad y el comportamiento pueden variar según la plataforma, así que valida en la plataforma que elijas. - Patrón de nubes de vérticeEl modelo de vista previa de Vertex tiene límites más estrictos en la lista de documentos (p. ej., la vista previa actual solo muestra segmentos de 4, 6 u 8 segundos). Por lo tanto, para generar resultados de un minuto, debe encadenar varias solicitudes y unirlas en su aplicación o usar las herramientas oficiales de extensión de escenas del motor, si están disponibles. Consulte la página "Veo 3.1 preview" de Vertex para ver la matriz de compatibilidad actual.
Toma una previamente generado por Veo Vídeo y extenderlo hacia adelante (añadir segundos) conservando el estilo y la continuidad. La API requiere que la entrada sea un vídeo generado por Veo (es posible que no se admitan extensiones de MP4 arbitrarias). Puedes extenderlo con saltos de 7 segundos hasta los límites documentados (se aplican los límites de vista previa de Veo).
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'
4) Control de audio y diálogo
Veo 3.1 genera audio nativo (voz y efectos) a partir de indicaciones. Trucos:
- Coloque cualquier línea hablada en su mensaje (encierre el diálogo entre comillas) para fomentar una sincronización de labios realista.
- Agregue descriptores de audio (“pasos suaves de izquierda a derecha”, “truenos amortiguados en crescendo”) para dar forma a los efectos de sonido y al estado de ánimo.
- Utilice valores semilla para reproducir el mismo resultado audiovisual en todas las ejecuciones de prueba.
5) Salidas deterministas para pruebas (semillas)
Si necesita resultados repetibles para pruebas CI o A/B, proporcione un seed Parámetro (uint32). Cambiar el indicador o las imágenes de referencia seguirá alterando el resultado; la semilla garantiza la repetibilidad. único cuando todo lo demás es idéntico.
6) Optimizaciones de costos y rendimiento
- Agrupar menos trabajos, pero de mayor tamaño:Donde esté permitido, establecer
sampleCountPara producir varios videos candidatos en una sola solicitud (1-4) para reducir la sobrecarga de configuración. () - Almacenar en caché imágenes de referencia y reutilizar semillas para reproducibilidad para evitar tener que volver a cargar archivos binarios grandes.
- Utilizar las salidas de almacenamiento en la nube (Vértice) para tamaños de salida grandes para evitar devolver bytes sin procesar en el cuerpo de la solicitud.
7) Tuberías de varios pasos con otros modelos de Gemini
Una canalización útil: utilice un generador de imágenes fijas (por ejemplo, el modelo de imagen Gemini) para crear activos → pase las mejores imágenes como image + referenceImages A Veo 3.1 → iterar indicaciones de audio/diálogo con el modelo de texto para la narración generada. La documentación de Gemini muestra ejemplos explícitos de encadenamiento de la generación de imágenes y llamadas de Veo.
Consejos prácticos, problemas y mejores prácticas
- Utilice semillas cuando desea resultados deterministas y repetibles entre ejecuciones (mismo mensaje + mismas referencias + misma semilla → misma generación).
- Mantenga las imágenes de referencia consistentesEl mismo recorte, el mismo ángulo del rostro y la consistencia en la ropa y el fondo ayudan a la modelo a mantener su identidad y estilo. Reutiliza las mismas tres imágenes en varias tomas para preservar la continuidad.
- Prefiera las URI de GCS para producción:Almacenar imágenes y salidas en Cloud Storage evita los límites de tamaño de transferencia base64 y simplifica el encadenamiento/extensión.
- Describe explícitamente las transiciones y el audio.:para las transiciones primera/última, agregue movimiento de cámara, tempo y señales de voz/efectos de sonido en el mensaje para lograr un audio mejor sincronizado.
- Pruebe primero los bucles cortos: iterar con duraciones cortas (4 a 8 s) mientras se ajustan las indicaciones, las semillas y las imágenes de referencia, luego encadenar extensiones para escenas más largas.
- Confirmar los nombres exactos de los campos:Los SDK pueden utilizar
reference_images(caso de serpiente),referenceImages(camelCase), o anidadoimageobjetos concontent/gcsUriConsulte la documentación del SDK o el esquema del modelo Vertex para conocer los nombres de propiedad exactos en la versión que utiliza.
¿Cuánto cuesta Veo 3.1 y cómo se factura?
Veo 3.1 se factura por segundo de vídeo generado, y Google expone múltiples variantes (por ejemplo Estándar y Rápido) con diferentes tarifas por segundo. Los precios para desarrolladores publicados muestran ejemplos de tarifas de pago de 0.40/segundo para Veo 3.1 Standard** y **0.15/segundo para Veo 3.1 FastLa página de precios de Gemini también indica que se le cobrará solo cuando se genere correctamente un video (es posible que no se facturen los intentos fallidos).
API de Veo 3.1 Precios en CometAPI
| veo3.1 | 0.4000 |
| veo3.1-pro | 2.0000 |
Conclusión: por qué Veo 3.1 es importante para los desarrolladores en este momento
Veo 3.1 supone un claro avance en la generación de vídeo con IA: audio nativo más completo, guía de imágenes de referencia y nuevas primitivas de edición lo convierten en una opción más sólida para la narración, la previsualización y las aplicaciones creativas. Las capacidades exactas del modelo difieren ligeramente entre los puntos finales y las versiones preliminares (por ejemplo, la diferencia de versión entre CometAPI y Gemini); por lo tanto, pruebe y valide la variante del modelo que desee utilizar. Los ejemplos de esta guía ofrecen un punto de partida práctico para el prototipado y la producción.
Cómo acceder API de Veo 3.1 API
CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.
Los desarrolladores pueden acceder API de Veo 3.1 a través de CometAPI, la última versión del modelo Se actualiza constantemente con el sitio web oficial. Para empezar, explora las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.
¿Listo para ir?→ Regístrate en CometAPI hoy !
Si quieres conocer más consejos, guías y novedades sobre IA síguenos en VK, X y Discord!


