Comment utiliser l'API Veo 3.1

Veo 3.1 est la dernière version de la gamme Veo de modèles de génération vidéo de Google. Elle offre un son natif plus riche, un meilleur contrôle narratif et cinématique, un guidage multi-images et de nouvelles primitives de montage (transitions première/dernière image, images de référence et workflows d'extension de scène). Pour les développeurs, le moyen le plus rapide d'accéder à Veo 3.1 est l'API (pour les intégrations grand public) et Vertex AI (pour les applications d'entreprise et cloud).

Qu'est-ce que l'API Veo 3.1 et quelles sont ses principales fonctionnalités ?

Veo 3.1 est un modèle génératif texte-image → vidéo de Google, conçu pour produire des clips cinématographiques courts et de haute qualité avec un son généré nativement (dialogues, signaux d'ambiance, effets sonores). Cette version se concentre sur l'amélioration de la fidélité des invites, la cohérence des personnages, la génération audio et des contrôles de montage plus précis (par exemple : transitions première-dernière image et guidage via jusqu'à trois images de référence).

Fonctionnalités clés (en un coup d'œil)

Texte → Vidéo: Générez des vidéos directement à partir d'invites narratives (dialogue et audio inclus).
Image → Vidéo: Transformez une image en une courte scène animée. ()
Images de référence (« Ingrédients de la vidéo »): Fournir jusqu'à 3 images (personnages, objets, styles) pour maintenir la cohérence visuelle entre les sorties.
Génération de la première et de la dernière image: Créez des transitions reliant deux images (le modèle génère des images qui se transforment en douceur entre elles, avec un son correspondant).
Workflows d'extension de scène: Outils permettant d'étendre un clip existant en générant de nouveaux clips liés à la fin d'une vidéo précédente (Remarque : les capacités et la prise en charge diffèrent entre l'API Gemini et l'aperçu Vertex — voir la section « conditions »).
Audio et effets sonores natifs:Le modèle peut synthétiser la parole, le son ambiant et les effets synchronisés qui correspondent aux visuels générés.

Comment utiliser l’API Veo 3.1 — quels sont les prérequis et les conditions ?

De quoi avez-vous besoin avant d’appeler l’API ?

Accès et facturationVeo 3.1 est disponible en version préliminaire payante. Assurez-vous de disposer d'une clé API ou d'un projet Google Cloud avec Vertex AI activé et la facturation configurée. Certaines fonctionnalités et variantes de modèles sont limitées géographiquement en version préliminaire.
Quotas et contraintes d'aperçuLes modèles d'aperçu sont souvent soumis à des limites de débit de requêtes par projet (par exemple, 10 tr/min pour les variantes d'aperçu) et à des limites de vidéos par requête. Consultez la page du modèle dans la documentation Vertex AI/Gemini pour connaître les valeurs exactes pour votre compte.
Ressources et format d'entréeVous pouvez générer des vidéos à partir d'invites textuelles, d'une ou plusieurs images, ou étendre une vidéo existante générée par Veo en référençant son URI. Pour les workflows de conversion d'images en vidéos, fournissez les images aux formats pris en charge (URL ou octets selon le point de terminaison).
Sécurité et provenanceLe contenu généré doit être conforme aux règles de contenu de Google. Des filigranes ou des indicateurs d'utilisation peuvent apparaître dans l'aperçu ; préparez-vous à gérer les étapes de provenance et de modération du contenu dans votre application.

Quelles méthodes d’authentification sont prises en charge ?

Clé API:Pour les points de terminaison hébergés par Gemini ou la clé de la plateforme API tierce. Je recommande CometAPI. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à intégrer l'API Veo 3.1 (veo3.1-pro; veo3.1)
Informations d'identification Google Cloud / ADC: Pour Vertex AI, utilisez les informations d'identification par défaut de l'application (compte de service / authentification gcloud) ou une clé API associée à votre projet Google Cloud.

Quels sont les points de terminaison de l’API Veo 3.1 et quels paramètres sont les plus importants ?

Réponse courte : Vous appellerez soit le API CometAPI point de terminaison de génération vidéo (pour l'accès hébergé par CometAPI, v1/chat/completions) . Les deux utilisent un corps de requête JSON décrivant le modèle, les invites et un video/output configuration ; les tâches vidéo plus volumineuses sont renvoyées sous forme d'opérations de longue durée.

Points finaux communs (exemples) :

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

Paramètres de requête typiques (décomposition logique)

modèle — identifiant du modèle à cibler (veo3.1-pro ; noms veo3.1 répertoriés dans référence du modèle).
invite / entrée — Texte décrivant la scène ; peut inclure plusieurs invites ou instructions pour plusieurs prises de vue selon les capacités du modèle. Utilisez des invites structurées pour contrôler les mouvements de caméra, l'heure, l'ambiance et les signaux audio.
références_d'image — 1 à 3 URI d’image ou images base64 pour guider les objets/caractères/styles (Veo 3.1 prend en charge plusieurs références d’image).
face — utilisé lorsque extension une sortie Veo précédente (transmettant l'URI de la vidéo initiale). Certaines fonctionnalités ne fonctionnent que sur les vidéos générées par Veo.
durée / fps / résolution / rapport hauteur/largeur — sélectionnez parmi les longueurs et les formats pris en charge (les modèles d'aperçu répertorient les durées et les fréquences d'images prises en charge, par exemple 4, 6, 8 s dans certains documents d'aperçu ; les extensions peuvent autoriser des sorties plus longues dans Flow/Studio).

Quels sont les modèles et techniques d’utilisation avancés ?

1) Maintenir la cohérence des caractères avec les images de référence

Fournissez jusqu'à trois images de référence (visages, poses, costumes) pour conserver l'apparence d'un personnage sur plusieurs plans générés. Déroulement typique :

Téléchargez ou encodez en ligne vos images de référence.
Passez-les config.reference_images lors de la génération de chaque prise de vue.
Utilisez les mêmes images pour les appels de génération suivants (ou combinez-les avec des valeurs de départ) pour maximiser la cohérence visuelle.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) Transitions de première et dernière image (synthèse de plan)

Utilisez le image (première image) + config.last_frame Pour demander à Veo de synthétiser le mouvement intermédiaire. Idéal pour les transitions cinématographiques, ce système produit une interpolation visuelle naturelle et un son synchronisé.

Fournir un première image (image) Et un dernière image (lastFrame) et Veo 3.1 interpoleront le mouvement entre eux pour produire une transition fluide (avec audio en option). Exemple cURL (REST) — première + dernière images :

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) Extension de scène (chaîner plusieurs générations)

Il existe deux modèles :

Approche API/Flow (fonctionnalités préliminaires): Vous passez une vidéo existante (un objet vidéo renvoyé ou un URI) en tant que video=video_to_extend pour créer un clip complémentaire cohérent avec la scène précédente. Utilisez la réponse opérationnelle pour capturer video.uri et intégrez-le à l'appel suivant pour prolonger le récit. Remarque : la disponibilité et le comportement peuvent varier selon la plateforme. Validez donc sur la plateforme choisie.
Modèle de nuage de sommetsLe modèle d'aperçu de Vertex impose des limites plus strictes en termes de listes de documents (par exemple, l'aperçu actuel ne renvoie que des segments de 4, 6 ou 8 secondes). Pour produire des sorties d'une minute, vous devez donc enchaîner plusieurs requêtes et les assembler dans votre application, ou utiliser les outils d'extension de scène officiels du moteur, le cas échéant. Consultez la page « Aperçu de Veo 3.1 » de Vertex pour connaître la matrice de prise en charge actuelle.

Prenez un précédemment généré par Veo Vidéo et prolongez-la (ajoutez des secondes) tout en préservant le style et la continuité. L'API requiert que l'entrée soit une vidéo générée par Veo (les extensions de fichiers MP4 arbitraires peuvent ne pas être prises en charge). Vous pouvez prolonger par sauts de 7 secondes jusqu'aux limites documentées (les limites de prévisualisation Veo s'appliquent) :

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) Contrôle audio et dialogue

Veo 3.1 génère un son natif (paroles et effets) à partir des invites. Astuces :

Insérez toutes les lignes parlées dans votre invite (entourez les dialogues de guillemets) pour encourager une synchronisation labiale réaliste.
Ajoutez des descripteurs audio (« pas doux de gauche à droite », « crescendo de tonnerre étouffé ») pour façonner les effets sonores et l’ambiance.
Utilisez des valeurs de départ pour reproduire le même résultat audio/visuel entre les tests.

5) Sorties déterministes pour les tests (graines)

Si vous avez besoin de sorties répétables pour les tests CI ou A/B, fournissez un seed Paramètre (uint32). La modification de l'invite ou des images de référence modifiera toujours le résultat ; la valeur de départ garantit la répétabilité. uniquement quand tout le reste est identique.

6) Optimisations des coûts et des performances

Lot moins nombreux, tâches plus importantes:Là où cela est autorisé, définissez sampleCount Générer plusieurs vidéos candidates en une seule requête (1 à 4) pour réduire les frais de configuration. ()
Mettre en cache les images de référence et réutiliser les graines pour la reproductibilité afin d'éviter de télécharger à nouveau des binaires volumineux.
Utiliser les sorties Cloud Storage (Vertex) pour les grandes tailles de sortie pour éviter de renvoyer des octets bruts dans le corps de la requête.

7) Pipelines multi-étapes avec d'autres modèles Gemini

Un pipeline utile : utiliser un générateur d'images fixes (par exemple, le modèle d'image Gemini) pour créer des ressources → transmettre les meilleures images en tant que image + referenceImages Vers Veo 3.1 → itérer les invites audio/dialogues avec le modèle textuel pour la narration générée. La documentation Gemini présente explicitement des exemples d'enchaînement de génération d'images et d'appels Veo.

Conseils pratiques, pièges et bonnes pratiques

Utiliser des graines lorsque vous souhaitez des sorties déterministes et répétables entre les exécutions (même invite + mêmes références + même graine → même génération).
Maintenir la cohérence des images de référenceMême recadrage, même angle de vue et tenue/arrière-plan cohérents pour préserver l'identité et le style du modèle. Réutilisez les trois mêmes images sur plusieurs prises de vue pour préserver la continuité.
Préférer les URI GCS pour la production: le stockage des images et des sorties dans Cloud Storage évite les limites de taille de transfert base64 et simplifie le chaînage/l'extension.
Décrivez explicitement les transitions et l'audio: pour les première/dernière transitions, ajoutez le mouvement de la caméra, le tempo et les signaux SFX/vocaux dans l'invite pour un son mieux synchronisé.
Testez d'abord les boucles courtes: itérez avec de courtes durées (4 à 8 s) pendant que vous réglez les invites, les graines et les images de référence, puis enchaînez les extensions pour des scènes plus longues.
Confirmer les noms de champs exacts: Les SDK peuvent utiliser reference_images (snake_case), referenceImages (camelCase), ou imbriqué image objets avec content / gcsUriConsultez la documentation du SDK ou le schéma du modèle Vertex pour connaître les noms de propriétés exacts dans la version que vous utilisez.

Combien coûte Veo 3.1 et comment est-il facturé ?

Veo 3.1 est facturé par seconde de vidéo générée, et Google expose plusieurs variantes (par exemple Standard et Rapide) avec différents taux par seconde. Les tarifs publiés pour les développeurs présentent des exemples de tarifs payants de 0.40 $/seconde pour Veo 3.1 Standard et 0.15 $/seconde pour Veo 3.1 FastLa page de tarification de Gemini indique également que vous n'êtes facturé que lorsqu'une vidéo est générée avec succès (les tentatives infructueuses peuvent ne pas être facturées).

API Veo 3.1 Tarification dans CometAPI


veo3.1	0.4000
veo3.1-pro	2.0000

Conclusion : pourquoi Veo 3.1 est important pour les développeurs en ce moment

Veo 3.1 représente une avancée majeure pour la génération vidéo IA : un son natif plus riche, un guidage par image de référence et de nouvelles primitives de montage en font une option plus performante pour la narration, la prévisualisation et les applications créatives. Les fonctionnalités exactes du modèle diffèrent légèrement entre les points de terminaison et les versions préliminaires (par exemple, la différence de version entre CometAPI et Gemini). Il est donc important de tester et de valider la variante de modèle que vous souhaitez utiliser. Les exemples de ce guide constituent un point de départ pratique pour le prototypage et la production.

Comment accéder API Veo 3.1 API

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Les développeurs peuvent accéder API Veo 3.1 via CometAPI, la dernière version du modèle est constamment mis à jour avec le site officiel. Pour commencer, explorez les capacités du modèle dans la section cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Prêt à partir ?→ Inscrivez-vous à CometAPI dès aujourd'hui !

Si vous souhaitez connaître plus de conseils, de guides et d'actualités sur l'IA, suivez-nous sur VK, X et Discord!