Veo 3.1 natywnie generuje zsynchronizowany dźwięk wraz z wideo podczas wywoływania endpointów Gemini/Vertex (Veo) — sterujesz dźwiękiem poprzez tekstowy prompt (wskazówki dźwiękowe, kwestie dialogowe, SFX, ambiencja), a ten sam proces generowania zwraca plik MP4 do pobrania. Jeśli wolisz pojedyncze, zunifikowane API obejmujące wielu dostawców, CometAPI udostępnia również Veo 3.1 (wywołujesz CometAPI z kluczem Comet i prosisz o veo3.1/veo3.1-pro). Wydanie pozycjonowane jest jako bezpośredni konkurent innych modeli medialnych (np. Sora 2 od OpenAI), z usprawnieniami skupionymi na realizmie audio, kontroli narracji i ciągłości wieloujęciowej.
Czym jest Veo 3.1?
Veo 3.1 to najnowsza wersja z rodziny modeli Veo do generowania wideo z tekstu i obrazu. W porównaniu z wcześniejszymi wersjami, Veo 3.1 szczególnie podkreśla natywną generację dźwięku — oznacza to, że model tworzy zsynchronizowane kwestie dialogowe, ambiencję, efekty dźwiękowe i muzyczne sygnały jako część wyjścia wideo, zamiast wymagać oddzielnego TTS lub etapu postprodukcji. Wprowadza również nowe sterowanie narracją (obrazy referencyjne, przejścia między pierwszą a ostatnią klatką oraz funkcje wydłużania scen), z myślą o większej spójności wieloujęciowych historii.
Dlaczego to ważne: dźwięk kształtuje sposób, w jaki widzowie postrzegają przestrzeń, emocje, timing i przyczynowość. Natywna generacja dźwięku (dialog dopasowany do ruchu warg, SFX zsynchronizowane z widocznymi zdarzeniami, tła dźwiękowe pasujące do geografii sceny) ogranicza ręczną pracę wymaganą, aby klip “brzmiał” realistycznie, i pozwala twórcom szybciej iterować nad opowieścią i nastrojem.
Czy Veo 3.1 potrafi tworzyć audio — i jakie rodzaje dźwięku generuje?
Jak dźwięk powstaje wewnątrz modelu?
Veo 3.1 traktuje dźwięk jako zintegrowaną modalność wyjściową w procesie generowania wideo. Zamiast wysyłać klatki wideo do oddzielnego silnika TTS lub Foley, proces generowania w Veo wspólnie modeluje strumienie audio i wideo, tak aby timing, wskazówki akustyczne i zdarzenia wizualne były spójne. To wspólne modelowanie umożliwia naturalne pojawianie się wymian dialogowych, pejzaży dźwiękowych i zsynchronizowanych SFX z obrazem. „Bogatszy natywny dźwięk” oraz zsynchronizowana generacja audio to kluczowe ulepszenia w 3.1.
Dlaczego możliwości audio to duża rzecz
Historycznie, wiele systemów tekst→wideo tworzyło nieme filmy, pozostawiając audio do późniejszego etapu. Veo 3.1 to zmienia, generując dźwięk w tym samym przebiegu — co ogranicza pracę mikserską, zapewnia ciaśniejszą synchronizację ruchu warg dla krótkich kwestii i pozwala promptom sterować zdarzeniami dźwiękowymi (np. „szklanka się tłucze, gdy kamera tnie w lewo”). Ma to duże znaczenie dla szybkości produkcji, iteracyjnego projektowania i kreatywnego prototypowania.
Jakie rodzaje audio może tworzyć Veo 3.1?
- Dialog/mowa — dialog wielomówców z timingiem odpowiadającym ruchom warg i akcjom.
- Ambiencja — dźwięki środowiskowe (wiatr, ruch uliczny, “room tone”) dopasowane do geografii sceny.
- Efekty dźwiękowe (SFX) — uderzenia, impakty, drzwi, kroki itp., zgrane z wydarzeniami wizualnymi.
- Zapowiedzi muzyczne — krótkie motywy muzyczne lub podkłady nastrojowe dopasowane do tempa sceny.
Te typy audio są generowane natywnie i kierowane głównie treścią promptu, zamiast oddzielnych parametrów audio.
Ograniczenia techniczne i długość
Domyślnie Veo 3.1 jest zoptymalizowane pod kątem krótkich klipów wysokiej jakości (dla niektórych ścieżek — 8 sekund), ale model obsługuje też rozszerzanie scen i “mostkowanie” (pierwsza→ostatnia klatka, przedłużanie od ostatniej sekundy), co umożliwia sekwencje trwające kilkadziesiąt sekund do minuty lub więcej po sklejeniu poprzez Scene Extension.
Jak generować audio w Veo 3.1 (bezpośrednio, przez Google Gemini / Vertex)
Krok 1: Wymagania wstępne
- Konto Google z dostępem do Gemini API / Vertex AI oraz ważny klucz API/poświadczenia (Veo 3.1 jest w płatnym preview dla wielu ścieżek dostępu).
- Skonfigurowany klient
genai/Gemini lub endpoint REST w środowisku (lub klient Vertex, jeśli wolisz konsolę chmurową).
Krok 2: Wybierz odpowiedni model i dostęp
Użyj veo-3.1-generate-preview (lub veo-3.1-fast, gdy priorytetem są szybkość/koszt). Te nazwy modeli pojawiają się w przykładach Google dla dostępu preview. Potrzebny jest płatny klucz Gemini API/Google AI (lub dostęp przez AI Studio/Vertex AI).
Krok 3: Przykład w Pythonie — klient Gemini genai (zalecany, do skopiowania)
Ten przykład pokazuje kształt wywołania programistycznego (Python, klient google.genai). Demonstruje dostarczenie promptu tekstowego zawierającego instrukcje audio.
# pip install google-genai (postępuj zgodnie z oficjalną instalacją SDK)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scena: Deszczowa śródmiejska ulica nocą. Neonowe odbicia na mokrym bruku.
Ambiencja: ciągły odległy deszcz i przejeżdżające samochody.
SFX: hamowanie autobusu i syk o 2.3 s; trzask parasola o 0.6 s.
Muzyka: subtelny pad syntezatorowy wchodzi o 0.5 s (wolny atak).
Dialog:
ALICE (cicho, zmęczona): "Nie sądziłam, że wciąż tu będziemy."
BOB (westchnienie): "Ja też nie. Chodźmy."
Obraz: średnie zbliżenie na ALICE, najazd kamery do przodu.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Odpytywanie do zakończenia (SDK zwraca obiekt operacji, który można odpytywać)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # sprawdź dokumentację SDK dla dokładnej struktury
video_url = result.generated_videos[0].video # URL lub base64 w zależności od SDK
print("Download result:", video_url)
Uwagi: Zwrócony plik to zazwyczaj MP4 zawierający wygenerowaną ścieżkę audio. Kluczowym elementem kontroli audio powyżej są opisowe instrukcje dźwiękowe w promptcie. Veo 3.1 reaguje na polecenia audio w języku naturalnym, generując zsynchronizowane ścieżki dźwiękowe.
Krok 3 — Obrazy referencyjne i „Ingredients to Video”
Aby utrzymać spójność wyglądu postaci i wskazówek akustycznych, możesz przekazać do trzech obrazów referencyjnych, które Veo wykorzysta do zachowania stylu wizualnego i ciągłości. Ta sama operacja generowania wspiera reference_images=[...]. Zalecane, gdy oczekujesz spójnych głosów lub stałych dźwięków postaci (np. skrzypienie powracających drzwi).
Krok 4 — Rozszerzanie scen (Scene Extension) z ciągłością audio
Veo 3.1 wspiera „rozszerzanie scen”, gdzie nowe klipy są generowane na bazie ostatniej sekundy poprzedniego klipu, aby tworzyć dłuższe sekwencje — a audio jest przedłużane w sposób zachowujący ciągłość (tła dźwiękowe, trwająca muzyka itd.). Użyj parametru video=video_to_extend w wywołaniu generate_videos.
# Pseudokod: przedłuż poprzedni klip, zachowując ciągłość audio
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Kontynuuj scenę: poranne światło się rozjaśnia, mewy zbliżają się; audio: swell przechodzi w lekkie smyczki",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Krok 5 — Mostkowanie pierwszej i ostatniej klatki (z audio)
Jeśli chcesz płynnego przejścia między dwiema klatkami (np. transformacja ujęcia dziennego w zmierzch), podaj image=first_frame i last_frame=last_frame oraz uwzględnij kierunek audio w promptcie. Veo wygeneruje klatki przejściowe plus dźwięk odzwierciedlający progresję wizualną. Zwykle zwracany jest pojedynczy zmiksowany kanał audio w pliku MP4.
Jak korzystać z narzędzi audio w Veo 3.1?
1) Czym jest CometAPI i dlaczego warto
CometAPI udostępnia pojedynczy, REST-owy endpoint w stylu OpenAI do dostępu do wielu modeli (w tym Google Veo). To przydatne, jeśli chcesz jeden punkt integracji (rozliczenia, limity, spójne SDK) i nie chcesz zarządzać wieloma kluczami dostawców. Comet dokumentuje, że Veo 3.1 jest dostępne wśród ich modeli wideo.
2) Podstawowy przepływ wywołania Veo 3.1 przez CometAPI
- Zarejestruj się w CometAPI i utwórz klucz API.
- Potwierdź dokładny identyfikator modelu w katalogu Comet („Veo 3.1”/„veo3.1-pro”).
- Użyj endpointu CometAPI w stylu OpenAI (lub ich SDK) i ustaw pole
modelna nazwę modelu Veo. Comet przekaże twoje żądanie do Google.
Veo3.1 Async Generation, To API jest zaimplementowane przez naszą własną technologię z następującymi ograniczeniami: Długość wideo jest stała i wynosi 8 sekund, nie można jej dostosować
Skontaktuj się z pomocą techniczną, jeśli napotkasz problemy
Przykładowe żądanie
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=Zwariowany latający słoń szybujący nad tętniącym życiem miastem w cukierkowych kolorach" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Najlepsze praktyki w promptowaniu pod audio w Veo 3.1
Projektowanie promptów dla dobrego dźwięku (co uwzględnić)
Używaj struktury „ścieżek audio” w promptcie. Minimalne zalecane bloki:
Scena: krótki opis (lokacja, oświetlenie, kamera)
Ambiencja: np. "odległy deszcz, stłumiony ruch uliczny"
SFX: "trzaśnięcie drzwi o 1.6 s; kroki L→R od 0.8 s"
Muzyka: "miękki pad fortepianowy, wolny atak, wchodzi o 0.5 s"
Dialog:
ALICE (cicho, znużona): "Nie sądziłam, że damy radę."
BOB (pauza, potem): "Udało się."
Akcja: ruch kamery, działania postaci do zgrania z SFX
Kluczowe wskazówki: oznaczaj ścieżki, dodawaj krótkie znaczniki czasu (np. o 1.6 s), opisuj ekspresję i charakter brzmienia (np. „lekka przestrzeń, wolny atak”), a jeśli potrzebujesz panoramowania stereo, używaj oznaczeń L/R lub L→R. Iteracja jest typowa — wygeneruj krótki klip (4–8 s), potem wydłuż.
Struktura i ton promptu
- Używaj nazwanych ścieżek: bloki „Ambiencja:”, „SFX:”, „Muzyka:” i „Dialog:”. Generatory lepiej działają z przewidywalnymi wzorcami.
- Bądź konkretny w kwestii timingu: krótkie znaczniki czasu (np. „SFX: trzask drzwi o 1.6 s”) pomagają w ciasnej synchronizacji. Jeśli wymagana jest dokładność klatkowa, iteruj i doprecyzuj.
- Opisuj cechy dźwięku: zamiast „syntezator”, użyj „miękki pad o wolnym ataku, w feelingu 80 BPM”, aby ukierunkować nastrój muzyczny.
Spójność wizualno-dźwiękowa
Jeśli podajesz obraz referencyjny lub klatkę startową, wspomnij, skąd ma pochodzić dźwięk (np. „Ambiencja: stłumione miasto z lewej, bliżej kamery; przejazd auta powinien panoramować L→R”). Daje to bardziej wiarygodne wskazówki stereo i postrzeganą lokalizację źródeł.
Przepływ iteracyjny
- Wygeneruj krótki klip (4–8 s) i oceń synchronizację audio.
- Jeśli potrzebujesz dłuższej narracji, użyj Scene Extension, aby wydłużyć klip, zachowując ostatnią sekundę jako nasiono ciągłości.
- Dla spójności postaci (barwa głosu, akcent) używaj obrazów referencyjnych i powtarzaj deskryptory głosu między klipami. Rozważ krótkie, powtarzane tekstowe „kotwice głosu” (np. „ALICE — miękki akcent mid-Atlantic”), aby głos pozostał stabilny.
Uwaga dotycząca postprodukcji
Veo daje wyjściowy MP4 z osadzonym audio. Do zaawansowanego miksu (ścieżki wielokanałowe, oddzielne stemsy dialogu/muzyki) nadal możesz potrzebować wyodrębnienia i rekonstrukcji audio w DAW — Veo służy głównie do zintegrowanej generacji pojedynczego pliku. Zewnętrzne przepływy często łączą Veo do bazowej generacji i edycję w DAW dla miksów dystrybucyjnych.
Przykładowe prompty (gotowe do wklejenia)
1 — Naturalnie brzmiąca ambiencja + efekt + krótki dialog
Prompt: Szerokie ujęcie pustego baru śniadaniowego o 6:00 rano. Audio: buczenie lodówki, odległy ruch uliczny, pojedyncze stuknięcie filiżanki. Miękki akustyczny podkład gitarowy. Dialog (kobieta, zmęczona): "Poranek nigdy nie był tak cichy." Zsynchronizuj stuknięcie z panoramą kamery o 2.5 s.
2 — Scena akcyjna z bogatym Foley
Prompt: Średnie zbliżenie kuriera biegnącego przez targ. Audio: pospieszne kroki na kocich łbach, szelest materiału, sprzedawcy krzyczący w tle. O 0.8 s dodaj metaliczny brzęk kluczy. Szybka, rytmiczna muzyka perkusyjna zanika w górę od 3 s.
3 — Filmowa ambiencja + głos postaci
Prompt: Gabinet oświetlony światłem świec. Audio: trzaskający kominek, przewracane strony, delikatny kwartet smyczkowy w tle. Dialog (starszy mężczyzna): "Niektóre opowieści niosą własne ciepło." Utrzymaj motyw smyczków subtelny i ciepły.
4 — Precyzyjny dialog + SFX (krótki klip, jawne timingi)
"Prompt: Wnętrze: zagracona księgarnia o 19:00. Kamera panoramuje w prawo na mężczyznę upuszczającego książkę.
Instrukcje audio:
- Ambiencja: cicha księgarnia z deszczem uderzającym w okna.
- Dialog: Osoba A (delikatnie): 'Lo siento...' o 1.2 s. Osoba B (stanowczo): 'No te preocupes.' o 2.1 s.
- SFX: Uderzenie książki o 1.15 s. Intensywność deszczu wzrasta o 3.5 s.
Styl: intymny, filmowy. Synchronizacja ruchu warg i SFX musi odpowiadać timingom."
5 — Scena skupiona na ambiencji (nastrój, mniej wymagających SFX)
"Prompt: Nadmorska promenada o zachodzie słońca. Stwórz oniryczny pejzaż dźwiękowy z mewami, odległą muzyką z radia i falami. Bez mówionych kwestii. Preferuj powolny, narastający muzyczny podkład pod ambiencję. Styl: nostalgiczny dokument."
6 — Rozmowa wielu mówców (stagowana)
"Prompt: Dwie osoby na ruchliwym targu, mówiące po angielsku i okazjonalnie po japońsku — krótkie kwestie. Wyraźnie oznacz mówców. Dodaj okresowe okrzyki sprzedawców (ambiencja targu) oraz SFX przejeżdżającego motocykla o 2.4 s."
Jak audio w Veo 3.1 wypada w porównaniu z Sora 2?
Oba — Veo 3.1 i Sora 2 od OpenAI — wspierają zsynchronizowane audio powiązane z generowanym wideo. Są pozycjonowane jako flagowe modele generacji mediów swoich dostawców i podkreślają realistyczną spójność audio-wideo. Oba publikują API.
Kluczowe różnice
- Skupienie modelu i długość: Veo 3.1 kładzie nacisk na sterowalność dzięki funkcjom takim jak pierwsza/ostatnia klatka, rozszerzanie scen dla dłuższych sekwencji oraz jawne warunkowanie obrazami referencyjnymi, aby zachować spójność postaci i audio w ujęciach. Sora 2 jest flagowym modelem generującym wideo ze zsynchronizowanym audio; Sora 2 Pro podkreśla wysoką wierność i dostrojone kompromisy jakości/kosztu (wariant Pro dla wyższej wierności). Veo 3.1 jawnie wyróżnia rozszerzanie scen i sekwencje wielopromptowe.
- Integracja platformowa: Veo 3.1 jest zintegrowane w ekosystemie Google Gemini (aplikacja Gemini, Flow, Gemini API, Vertex AI), natomiast Sora 2 jest prezentowana jako model platformowy OpenAI z endpointami API i aplikacją Sora na iOS; różnią się cenniki i struktury endpointów (dokumentacja Sora 2 pokazuje stawki per sekunda). Wybieraj w zależności od istniejącej infrastruktury chmurowej i wymogów zgodności.
- Drobnoziarnowe sterowanie wideo: Veo 3.1 wyróżnia kilka konkretnych narzędzi kreatywnych („Ingredients to Video”, Scene Extension, First/Last Frame), które skracają czas iteracji w przepływach narracyjnych. Sora 2 skupia się na zsynchronizowanym audio i fizycznej dokładności ruchu; oba oferują sterowanie, ale różnią się idiomami i SDK.
Praktyczne konsekwencje dla projektów z naciskiem na audio
Jeśli priorytetem jest gotowe, wysokiej jakości jedno ujęcie ze zsynchronizowanym audio i prosty cennik per sekunda → Sora 2 to silny konkurent; testuj oba pod kątem docelowych zasobów i budżetów.
Jeśli potrzebujesz długiej, ciągłej narracji ze spójnymi motywami audio w ujęciach → funkcje Scene Extension i warunkowanie obrazami referencyjnymi w Veo 3.1 są atrakcyjne.
Ostateczna rekomendacja: kiedy używać Veo 3.1 (audio-centrycznie)
Używaj Veo 3.1, gdy potrzebujesz kontrolowanych sekwencji wieloujęciowych ze spójnymi postaciami i zintegrowanym audio wspierającym ciągłość narracji. Wyraźne zalety Veo 3.1 to rozszerzanie scen, kontrola pierwszej/ostatniej klatki oraz warunkowanie obrazami referencyjnymi — wszystko to czyni model doskonałym do serializowanych lub epizodycznych treści krótkiej formy z ciągłością audio.
Deweloperzy mogą uzyskać dostęp do Veo 3.1 i Sora 2 przez CometAPI. Aby zacząć, poznaj możliwości modeli CometAPI w Playground i skorzystaj z przewodnika API po szczegóły. Przed dostępem upewnij się, że zalogowałeś się w CometAPI i uzyskałeś klucz API. CometAPI oferuje cenę znacznie niższą niż oficjalna, aby pomóc w integracji.
Gotowy do działania?→ Darmowy okres próbny Veo 3.1!
