Hasta donde llega la información pública, Veo 3.1 genera video sin pista de audio integrada. Si necesitas sonido, compón música, voz y efectos en posproducción con herramientas de edición o TTS/sound design y sincronízalos con el metraje.
Para usarlo profesionalmente:
- Define un brief claro (objetivo, audiencia, duración, relación de aspecto, estilo, restricciones de marca).
- Escribe prompts específicos con estructura de plano: encuadre, movimiento de cámara, iluminación, atmósfera, ritmo, acciones clave; añade “negative prompts” para evitar elementos no deseados.
- Aporta referencias (imágenes, fotogramas, paletas, storyboards) cuando la herramienta lo permita, y mantén coherencia de estilo entre tomas.
- Itera en baja resolución/costo para validar composición y ritmo; renderiza en alta calidad solo las versiones finales.
- Controla parámetros si están disponibles (semilla, duración, fps, proporción, intensidad de movimiento) para reproducibilidad y consistencia entre clips.
- Divide en planos cortos, luego ensambla y ajusta transiciones en edición; corrige color y estabiliza si es necesario.
- Añade audio en posproducción: diseña la pista (música, foley, VO), ajusta niveles y sincronía; considera stems separados para mezclas.
- Cumple licencias, políticas de contenido, derechos de imagen y privacidad; documenta permisos y fuentes.
- Implementa QA técnico (resolución, fps, artefactos, parpadeo, continuidad), control de versiones y nomenclatura consistente; exporta en códecs y contenedores adecuados al destino.
Veo 3.1 genera de forma nativa audio sincronizado junto con el video cuando llamas a los endpoints de Gemini/Vertex (Veo) — controlas el audio mediante el prompt de texto (señales de audio, líneas de diálogo, SFX, ambiente) y el mismo proceso de generación devuelve un MP4 que puedes descargar. Si prefieres una API unificada que agrupe a muchos proveedores, CometAPI también ofrece acceso a Veo 3.1 (llamas a CometAPI con tu clave de Comet y solicitas veo3.1/veo3.1-pro). Esta versión se posiciona como un competidor directo de otros modelos de medios (por ejemplo, Sora 2 de OpenAI), con mejoras centradas en el realismo del audio, el control narrativo y la continuidad entre múltiples tomas.