Can Veo 3.1 API generate videos from images as well as text prompts?

Tak. Veo 3.1 obsługuje zarówno przepływy pracy tekst-na-wideo, jak i obraz-na-wideo, umożliwiając twórcom rozpoczęcie od promptów, obrazów lub przepływów pracy z prowadzeniem klatkowym.

When should I use Veo 3.1 instead of Sora 2?

Wybierz Veo 3.1, gdy kluczowa jest synchronizacja dźwięku, przepływy pracy oparte na obrazach, tworzenie treści pionowych lub integracja z ekosystemem narzędzi Google.

Can Veo 3.1 create vertical videos for TikTok or Shorts?

Tak. Veo 3.1 obsługuje natywne proporcje 9:16.

What should I do if Veo 3.1 generation fails or produces poor results?

Zredukuj złożoność promptów, uprość instrukcje dotyczące kamery i iteruj prompty.

Is Veo 3.1 suitable for commercial marketing videos and ads?

Tak. Dobrze sprawdza się w przypadku treści markowych, filmów produktowych i kampanii w mediach społecznościowych.

Is there a free trial for Veo 3.1 API in CometAPI?

Nowi użytkownicy otrzymają bezpłatny klucz, a cena API nadal będzie stanowić 20% oficjalnej ceny.

Przystępne cenowo API Veo 3.1 | image-to-video

Specyfikacja techniczna Veo 3.1

Element	Veo 3.1 (specyfikacja publiczna)
Official model ID	veo-3.1-generate-001
Provider	Google DeepMind / Google Cloud
Model type	Generowanie tekstu do wideo i obrazu do wideo
Input types	Prompty tekstowe, wejścia obrazowe, sterowanie pierwszą i ostatnią klatką
Output type	Wideo generowane przez AI
Supported resolutions	720p i 1080p, 4K
Supported aspect ratios	16:9 i 9:16
Supported framerate	24 FPS
Video duration	Klipy 4s, 6s lub 8s (zależnie od trybu)
Prompt language	English
Videos per request	Do 4
API rate limit	Do 50 żądań/min/projekt
Supported deployment	Vertex AI, integracje z ekosystemem Gemini, Flow
Unsupported features (official docs)	Dynamiczny współdzielony limit, niektóre przepływy z obrazem referencyjnym, natywne wydłużanie wideo w standardowym przepływie API

Czym jest Veo 3.1?

Veo 3.1 to flagowa rodzina generatywnych modeli wideo Google, skoncentrowana na filmowej jakości syntezy wideo, lepszym dopasowaniu do promptów, spójności scen oraz multimodalnych przepływach tworzenia wideo. Wykracza poza standardowe generowanie tekst→wideo, obsługując generowanie prowadzone obrazem i opowiadanie historii z kontrolą klatek. Oficjalne wsparcie obejmuje tekst→wideo, obraz→wideo, przepisywanie promptów oraz generowanie pierwszej/ostatniej klatki.

Kluczowe funkcje

Veo 3.1 koncentruje się na praktycznych funkcjach tworzenia treści:

Natywne generowanie audio (dialog, dźwięk otoczenia, SFX) zintegrowane w wynikach. Veo 3.1 generuje natywne audio (dialog + ambience + SFX) dopasowane do osi czasu obrazu; model dąży do zachowania synchronizacji ust i zgodności audio–wideo dla dialogu i sygnałów sceny.
Dłuższe wyniki (obsługa do ~60 sekund / 1080p w porównaniu z bardzo krótkimi klipami Veo 3, 8s) oraz wielopromptowe sekwencje wieloujęciowe dla ciągłości narracyjnej.
Tryby Scene Extension i First/Last Frame, które wydłużają lub interpolują ujęcia między kluczowymi klatkami.
Wstawianie obiektów i (w przygotowaniu) usuwanie obiektów oraz podstawowe operacje edycyjne w Flow.

Każdy z powyższych punktów ma na celu ograniczenie ręcznej pracy VFX: audio i ciągłość scen są teraz pierwszoplanowymi wynikami, a nie dodatkami.

Szczegóły techniczne (zachowanie modelu i wejścia)

Model family & variants: Veo należy do rodziny Veo-3 Google; identyfikator modelu wersji zapoznawczej to zazwyczaj veo3.1-pro; veo3.1 (dokumentacja CometAPI). Akceptuje prompty tekstowe, referencje obrazów (pojedyncza klatka lub sekwencje) oraz strukturyzowane układy wielu promptów do generowania sekwencji wieloujęciowych.

Resolution & duration: Dokumentacja wersji zapoznawczej opisuje wyniki w 720p/1080p z opcjami dłuższych czasów trwania (do ~60s w niektórych ustawieniach wersji zapoznawczej) i wyższą wiernością niż wcześniejsze warianty Veo.

Aspect ratios: 16:9 (obsługiwane) i 9:16 (obsługiwane, z wyjątkiem niektórych przepływów z obrazem referencyjnym).

Prompt language: English (wersja zapoznawcza).

API limits: typowe limity wersji zapoznawczej obejmują maks. 10 żądań API/min na projekt, maks. 4 wideo na żądanie oraz długości wideo wybierane spośród 4, 6 lub 8 sekund (przepływy z obrazem referencyjnym obsługują 8s).

Wydajność w benchmarkach

Wewnętrzne i publicznie podsumowane oceny Google raportują wyraźną preferencję dla wyników Veo 3.1 w porównaniach z udziałem ludzkich oceniających pod kątem takich mierników jak dopasowanie do tekstu, jakość wizualna i spójność audio–wideo (zadania tekst→wideo i obraz→wideo).

Veo 3.1 osiągnął stan najwyższego poziomu na wewnętrznych porównaniach ocenianych przez ludzi w kilku obiektywnych osiach — ogólna preferencja, dopasowanie do promptów (tekst→wideo i obraz→wideo), jakość wizualna, zgodność audio–wideo oraz „wizualnie realistyczna fizyka” na benchmarkach takich jak MovieGenBench i VBench.

Ograniczenia i kwestie bezpieczeństwa

Ograniczenia:

Artefakty i niespójności: mimo ulepszeń, niektóre oświetlenie, drobna fizyka i złożone zasłonięcia wciąż mogą powodować artefakty; spójność obraz→wideo (zwłaszcza przy dłuższych czasach) jest poprawiona, ale nie idealna.
Ryzyko dezinformacji/deepfake: bogatsze audio + wstawianie/usuwanie obiektów zwiększa ryzyko niewłaściwego użycia (realistyczne fałszywe audio i wydłużone klipy). Google wskazuje na środki zaradcze (polityki, zabezpieczenia), a wcześniejsze premiery Veo odnosiły się do znakowania wodnego/SynthID dla wspomagania pochodzenia; jednak zabezpieczenia techniczne nie eliminują ryzyka nadużyć.
Koszt i ograniczenia przepustowości: wideo o wysokiej rozdzielczości i długim czasie trwania jest kosztowne obliczeniowo i obecnie dostępne w płatnej wersji zapoznawczej — należy oczekiwać wyższych opóźnień i kosztów w porównaniu z modelami obrazowymi. Posty społeczności i wątki na forach Google omawiają okna dostępności i strategie awaryjne.

Safety controls: Veo3.1 ma zintegrowane polityki dotyczące treści, sygnalizowanie watermarking/synthID we wcześniejszych wydaniach Veo oraz kontrolę dostępu w wersji zapoznawczej; klientom zaleca się przestrzeganie polityki platformy i wdrożenie weryfikacji ludzkiej dla wyników wysokiego ryzyka.

Praktyczne zastosowania

Szybkie prototypowanie dla twórców: storyboardy → klipy wieloujęciowe i animatiki z natywnym dialogiem do wczesnych przeglądów kreatywnych.
Marketing i krótkie formy: 15–60s spoty produktowe, klipy społecznościowe i teasery koncepcji, gdzie liczy się szybkość bardziej niż idealny fotorealizm.
Adaptacja obraz→wideo: zamiana ilustracji, postaci lub dwóch klatek w płynne przejścia lub animowane sceny dzięki First/Last Frame i Scene Extension.
Wspomaganie narzędziowe: integracja z Flow do iteracyjnej edycji (wstawianie/usuwanie obiektów, presety oświetlenia), która ogranicza ręczne poprawki VFX.

Porównanie z innymi wiodącymi modelami

Veo 3.1 vs Veo 3 (poprzednik): Veo 3.1 kładzie nacisk na ulepszone dopasowanie do promptów, jakość audio i spójność ujęć — to inkrementalne, ale istotne aktualizacje zmierzające do redukcji artefaktów i poprawy edytowalności.

Veo 3.1 vs OpenAI Sora 2: kompromisy raportowane w prasie: Veo 3.1 akcentuje kontrolę narracji w dłuższej formie, zintegrowane audio i integrację edycji w Flow; Sora 2 (w porównaniach prasowych) skupia się na innych mocnych stronach (szybkość, odmienne pipeline’y edycyjne). TechRadar i inne serwisy przedstawiają Veo 3.1 jako ukierunkowanego konkurenta Google dla Sora 2 w zakresie narracji i dłuższych wideo. Niezależne testy porównawcze side-by-side pozostają ograniczone.

Możliwość	Veo 3.1	Sora 2	Runway Gen-4 / Gen-4.5
Natywny format pionowy	Tak	Ograniczone wsparcie w przepływach pracy	Tak
Obraz do wideo	Tak	Tak	Tak
Nacisk na integrację audio	Silny	Umiarkowany	Umiarkowany
Kondycjonowanie na klatkach	Tak	Tak	Częściowe
Optymalizacja pod wideo społecznościowe	Silna	Umiarkowana	Silna
Integracja z ekosystemem API	Ekosystem Google	Ekosystem OpenAI	Ekosystem narzędzi dla twórców

Jak korzystać z API Veo 3.1 z CometAPI?

Utwórz klucz API CometAPI
Wybierz veo-3.1-generate-001 jako punkt końcowy modelu
Wyślij prompty lub wejścia obrazowe przez API generowania wideo
Odpytuj wyniki i pobieraj wygenerowane filmy
Iteruj prompty w celu sterowania ruchem kamery, ciągłością scen i poprawy spójności

Cennik dla Veo 3.1

Poznaj konkurencyjne ceny dla Veo 3.1, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak Veo 3.1 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.

Veo Video Generation Pricing

Pricing (Per Second)

Model	720p	1080p	4K
`veo3`	$0.32	$0.32	$0.48
`veo3-fast`	$0.08	$0.096	$0.24
`veo3.1`	$0.32	$0.32	$0.48
`veo3.1-fast`	$0.08	$0.096	$0.24

💡 Billed per second. Total cost = price per second × video duration (seconds).

Przykładowy kod i API dla Veo 3.1

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla Veo 3.1, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał Veo 3.1 w Twoich projektach.

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Wersje modelu Veo 3.1

Powody, dla których Veo 3.1 posiada wiele migawek, mogą obejmować takie czynniki jak: różnice w wynikach po aktualizacjach wymagające starszych migawek dla zachowania spójności, zapewnienie programistom okresu przejściowego na adaptację i migrację, oraz różne migawki odpowiadające globalnym lub regionalnym punktom końcowym w celu optymalizacji doświadczenia użytkownika. Aby poznać szczegółowe różnice między wersjami, zapoznaj się z oficjalną dokumentacją.

Identyfikator modelu	Opis	Dostępność	Żądanie
veo3.1-all	Wykorzystywana technologia jest nieoficjalna, a generowanie jest niestabilne itp.	✅	Czat format
veo3.1	Rekomendowany, wskazuje na najnowszy model	✅	Asynchroniczne generowanie