Jak korzystać z API Veo 3.1

Veo 3.1 to najnowsza wersja rodziny modeli Veo do generowania wideo firmy Google. Oferuje bogatszy dźwięk natywny, lepszą kontrolę narracji i kinematografii, wskazówki dotyczące wielu obrazów oraz nowe prymitywy edycyjne (przejścia między pierwszą a ostatnią klatką, „składniki” / obrazy referencyjne oraz przepływy pracy z rozszerzeniem sceny). Dla programistów najszybszym sposobem dostępu do Veo 3.1 jest API (w przypadku integracji z aplikacjami konsumenckimi) oraz Vertex AI (dla obciążeń korporacyjnych i chmurowych).

Czym jest API Veo 3.1 i jakie są jego najważniejsze funkcje?

Veo 3.1 to generatywny model tekstowo-obrazowo-wideo od Google, zaprojektowany do tworzenia krótkich, wysokiej jakości, kinowych klipów z natywnie generowanym dźwiękiem (dialogi, dźwięki otoczenia, efekty dźwiękowe). Wersja koncentruje się na poprawie szybkości, spójności postaci, generowaniu dźwięku i bardziej precyzyjnej kontroli edycji (na przykład: przejścia między pierwszą a ostatnią klatką i wskazówki za pomocą maksymalnie trzech obrazów referencyjnych).

Najważniejsze możliwości (w skrócie)

Tekst → Wideo:Tworzenie filmów bezpośrednio na podstawie podpowiedzi narracyjnych (wraz z dialogami i ścieżką dźwiękową).
Obraz → Wideo:Przekształć obraz w krótką animowaną scenę. ()
Obrazy referencyjne („Składniki do wideo”):Dostarczamy do 3 obrazy (znaki, obiekty, style) w celu zachowania spójności wizualnej wszystkich wyników.
Generowanie pierwszej i ostatniej klatki:Tworzenie przejść łączących dwa obrazy (model generuje klatki, które płynnie przechodzą między nimi, z dopasowanym dźwiękiem).
Przepływy pracy związane z rozszerzaniem scen: Narzędzia umożliwiające rozszerzanie istniejącego klipu poprzez generowanie nowych klipów powiązanych z końcówką poprzedniego filmu (uwaga: możliwości i obsługa różnią się w przypadku interfejsu Gemini API i podglądu Vertex — patrz sekcja „warunki”).
Natywny dźwięk i efekty specjalne:Model może syntetyzować mowę, dźwięki otoczenia i zsynchronizowane efekty, które pasują do generowanych wizualizacji.

Jak korzystać z API Veo 3.1 — jakie są wymagania wstępne i warunki?

Czego potrzebujesz przed wywołaniem API?

Dostęp i rozliczeniaVeo 3.1 jest w płatnej wersji zapoznawczej — upewnij się, że masz klucz API lub projekt Google Cloud z włączoną funkcją Vertex AI i skonfigurowanym systemem rozliczeń. Niektóre funkcje i warianty modeli są dostępne w wersji zapoznawczej tylko w wybranych regionach.
Limity i ograniczenia podgląduModele w wersji zapoznawczej często mają limity liczby żądań dla każdego projektu (na przykład 10 RPM dla wersji zapoznawczych) oraz limity liczby filmów na żądanie. Sprawdź stronę modelu w dokumentacji Vertex AI/Gemini, aby poznać dokładne liczby dla swojego konta.
Zasoby wejściowe i format:Możesz generować na podstawie monitów tekstowych, z jednego lub wielu obrazów, a także rozszerzać istniejący film wygenerowany przez Veo, odwołując się do jego URI. W przypadku przepływów pracy z obrazem do wideo, dostarczaj obrazy w obsługiwanych formatach (adresy URL lub bajty, w zależności od punktu końcowego).
Bezpieczeństwo i pochodzenie:Wygenerowana treść musi być zgodna z polityką Google dotyczącą treści. W podglądzie mogą pojawić się znaki wodne lub flagi dotyczące użycia; przygotuj się na obsługę procedur dotyczących pochodzenia i moderacji treści w swojej aplikacji.

Jakie metody uwierzytelniania są obsługiwane?

Klucz API:W przypadku hostowanych punktów końcowych Gemini lub klucza platformy API innej firmy polecam CometAPI, Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby pomóc Ci zintegrować API Veo 3.1 (veo3.1-pro; veo3.1)
Dane uwierzytelniające Google Cloud / ADC:W przypadku Vertex AI użyj domyślnych poświadczeń aplikacji (konto usługi/gcloud auth) lub klucza API dołączonego do projektu Google Cloud.

Jakie są punkty końcowe API Veo 3.1 i które parametry mają największe znaczenie?

Krótka odpowiedź: Albo zadzwonisz do Interfejs API CometAPI punkt końcowy generowania wideo (w przypadku dostępu hostowanego przez CometAPI, v1/chat/completions) Oba korzystają z treści żądania JSON opisującej model, monity i video/output konfiguracja; większe zadania wideo są zwracane jako operacje długotrwałe.

Typowe punkty końcowe (przykłady):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

Typowe parametry żądania (podział logiczny)

model — identyfikator modelu docelowego (veo3.1-pro; nazwy veo3.1 wymienione w odniesienie do modelu).
monit / dane wejściowe — tekst opisujący scenę; może zawierać wiele podpowiedzi lub instrukcje obejmujące wiele ujęć, w zależności od możliwości modelu. Użyj ustrukturyzowanych podpowiedzi, aby sterować ruchami kamery, porą dnia, nastrojem i sygnałami dźwiękowymi.
odniesienia do obrazów — 1–3 identyfikatory URI obrazów lub obrazy base64 służące do obsługi obiektów/znaków/stylów (Veo 3.1 obsługuje wiele odniesień do obrazów).
wideo — używane, gdy rozsuwalny poprzednie wyjście Veo (przekaż początkowy URI wideo). Niektóre funkcje działają tylko na filmach wygenerowanych przez Veo.
czas trwania / fps / rozdzielczość / współczynnik proporcji — wybierz spośród obsługiwanych długości i formatów (modele podglądu zawierają listę obsługiwanych czasów trwania i liczby klatek na sekundę — np. 4, 6, 8 s w niektórych dokumentach podglądu; rozszerzenia mogą umożliwiać dłuższe wyniki w Flow/Studio).

Czym są zaawansowane wzorce i techniki użytkowania?

1) Zachowaj spójność postaci z obrazami referencyjnymi

Dostarcz maksymalnie trzy obrazy referencyjne (twarze/pozy/kostium), aby zachować wygląd postaci na wielu generowanych ujęciach. Typowy schemat:

Prześlij lub zakoduj w tekście swoje obrazy referencyjne.
Przekaż je config.reference_images podczas generowania każdego ujęcia.
Użyj tych samych obrazów w kolejnych wywołaniach generacji (lub połącz je z wartościami początkowymi), aby uzyskać maksymalną spójność wizualną.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) Przejścia pierwszej i ostatniej klatki (synteza ujęć)

Zastosowanie image (pierwsza klatka) + config.last_frame aby poinstruować Veo o syntezie ruchu pośredniego. Jest to idealne rozwiązanie do przejść filmowych — zapewnia naturalną interpolację wizualną i zsynchronizowany dźwięk.

Zapewnij pierwsza klatka (image) I ostatnia klatka (lastFrame) i Veo 3.1 będą interpolować ruch między nimi, aby zapewnić płynne przejście (z opcjonalnym dźwiękiem). Przykład cURL (REST) — pierwszy i ostatni obraz:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) Rozszerzenie sceny (łańcuch wielu generacji)

Istnieją dwa wzorce:

Podejście API/Flow (funkcje w wersji zapoznawczej):Przekazujesz istniejące wideo (zwrócony obiekt wideo lub URI) jako video=video_to_extend Aby utworzyć klip kontynuacyjny, który jest spójny z poprzednią sceną. Użyj odpowiedzi operacji, aby uchwycić video.uri i przekaż je do następnego wywołania, aby rozszerzyć narrację. Uwaga: dostępność i działanie mogą się różnić w zależności od platformy, dlatego należy to sprawdzić na wybranej platformie.
Wzór chmury wierzchołkowejModel podglądu Vertex ma bardziej rygorystyczne ograniczenia na liście dokumentów (np. bieżący podgląd zwraca tylko segmenty 4/6/8 sekundowe), więc aby uzyskać dane wyjściowe trwające minutę, należy połączyć wiele żądań i połączyć je w aplikacji lub skorzystać z oficjalnych narzędzi rozszerzeń scen silnika, jeśli są dostępne. Aktualną macierz wsparcia można znaleźć na stronie Vertex „Veo 3.1 preview”.

Wybierz się na wcześniej wygenerowane przez Veo wideo i wydłużyć je do przodu (dodając sekundy), zachowując styl i ciągłość. API wymaga, aby dane wejściowe były wideo wygenerowanym przez Veo (rozszerzenia dowolnych plików MP4 mogą nie być obsługiwane). Można wydłużyć je o 7 sekund do udokumentowanych limitów (obowiązują limity podglądu Veo):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) Kontrola dźwięku i dialogów

Veo 3.1 generuje natywny dźwięk (mowa i efekty) z komunikatów. Sztuczki:

Umieść wszystkie kwestie mówione w swoim zleceniu (wpisz je w cudzysłów), aby zachęcić do realistycznej synchronizacji ruchu warg.
Dodaj opisy audio („ciche kroki od lewej do prawej”, „stłumiony grzmot narastający”), aby nadać kształt efektom specjalnym i nastrojowi.
Użyj wartości początkowych, aby odtworzyć ten sam wynik audiowizualny we wszystkich przebiegach testów.

5) Deterministyczne wyniki do testowania (ziarna)

Jeśli potrzebujesz powtarzalnych wyników dla testów CI lub A/B, dostarcz seed Parametr (uint32). Zmiana monitu lub obrazów referencyjnych nadal zmieni wynik; seed gwarantuje powtarzalność. tylko gdy wszystko inne jest identyczne.

6) Optymalizacja kosztów i wydajności

Wykonuj mniej zadań w partiach, ale za to większe: Tam, gdzie to dozwolone, ustaw sampleCount aby wyprodukować wiele filmów kandydackich w ramach jednego żądania (1–4), aby zmniejszyć obciążenie związane z konfiguracją. ()
Buforuj obrazy referencyjne i ponownie wykorzystuj nasiona w celu zapewnienia powtarzalności i uniknięcia ponownego przesyłania dużych plików binarnych.
Użyj wyników z magazynu w chmurze (Wierzchołek) w przypadku dużych rozmiarów wyjściowych, aby uniknąć zwracania surowych bajtów w treści żądania.

7) Wieloetapowe rurociągi z innymi modelami Gemini

Przydatny kanał: użyj generatora nieruchomych obrazów (np. modelu obrazu Gemini) do tworzenia zasobów → przekaż najlepsze obrazy jako image + referenceImages do Veo 3.1 → iteruj podpowiedzi audio/dialogowe z modelem tekstowym dla generowanej narracji. Dokumentacja Gemini wyraźnie pokazuje przykłady łączenia generowania obrazów i wywołań Veo.

Praktyczne wskazówki, pułapki i najlepsze praktyki

Użyj nasion gdy chcesz uzyskać deterministyczne, powtarzalne wyniki pomiędzy przebiegami (ten sam monit + te same odwołania + to samo ziarno → to samo generowanie).
Zachowaj spójność obrazów referencyjnych: ten sam kadr, ten sam kąt twarzy, spójny ubiór/tło pomagają modelce zachować tożsamość i styl. Użyj tych samych trzech zdjęć w różnych ujęciach, aby zachować spójność.
Preferuj identyfikatory URI GCS do produkcji:przechowywanie obrazów i wyników w usłudze Cloud Storage pozwala uniknąć ograniczeń rozmiaru transferu base64 i upraszcza łączenie łańcuchowe/rozszerzanie.
Dokładnie opisz przejścia i dźwięk:w przypadku przejść od pierwszego do ostatniego dodaj ruch kamery, tempo oraz efekty dźwiękowe/głos w monicie, aby uzyskać lepszą synchronizację dźwięku.
Najpierw przetestuj krótkie pętle:iteruj z krótkimi czasami trwania (4–8 s), dostosowując podpowiedzi, ziarna i obrazy referencyjne, a następnie stosuj rozszerzenia, aby uzyskać dłuższe sceny.
Potwierdź dokładne nazwy pól:Zestawy SDK mogą używać reference_images (przypadek_węża), referenceImages (camelCase) lub zagnieżdżone image obiekty z content / gcsUriSprawdź dokumentację zestawu SDK lub schemat modelu Vertex, aby uzyskać dokładne nazwy właściwości w używanej wersji.

Ile kosztuje Veo 3.1 i jak jest rozliczane?

Veo 3.1 jest rozliczony na sekundę wygenerowanego wideo, a Google ujawnia wiele wariantów (na przykład Standardowa oraz pompatyczność) z różnymi stawkami za sekundę. Opublikowane ceny dla deweloperów pokazują przykładowe stawki w ramach płatnego poziomu 0.40 USD/sekundę za Veo 3.1 Standard oraz 0.15 USD/sekundę za Veo 3.1 FastNa stronie z cennikiem Gemini znajduje się informacja, że opłata zostanie naliczona dopiero po pomyślnym wygenerowaniu filmu (nieudane próby mogą nie zostać rozliczone).

Interfejs API Veo 3.1 Cennik w CometAPI


veo3.1	0.4000
veo3.1-pro	2.0000

Podsumowanie — dlaczego Veo 3.1 jest teraz ważne dla programistów

Veo 3.1 to wyraźny krok naprzód w dziedzinie generowania wideo z wykorzystaniem sztucznej inteligencji: bogatszy natywny dźwięk, wskazówki dotyczące obrazów referencyjnych i nowe prymitywy edycyjne czynią go lepszym wyborem do opowiadania historii, wstępnej wizualizacji i aplikacji kreatywnych. Dokładne możliwości modelu różnią się nieznacznie między punktami końcowymi a kompilacjami podglądowymi (na przykład różnica między wersją CometAPI a Gemini) — dlatego przetestuj i zweryfikuj wariant modelu, którego zamierzasz użyć. Przykłady w tym przewodniku stanowią praktyczny punkt wyjścia do prototypowania i produkcji.

Jak uzyskać dostęp Interfejs API Veo 3.1 API

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Deweloperzy mogą uzyskać dostęp Interfejs API Veo 3.1 poprzez CometAPI, najnowsza wersja modelu jest zawsze aktualizowany na oficjalnej stronie internetowej. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.

Gotowy do drogi?→ Zarejestruj się w CometAPI już dziś !

Jeśli chcesz poznać więcej wskazówek, poradników i nowości na temat sztucznej inteligencji, obserwuj nas na VK, X oraz Discord!