Google diperkenalkan secara terbuka Veo 3.1 (dan a Veo 3.1 Fast varian) pada pertengahan Oktober 2025 sebagai model teks-ke-video yang dipertingkatkan yang menghasilkan klip pendek ketepatan yang lebih tinggi dengan audio asli, pematuhan segera yang lebih baik, dan keupayaan penyuntingan baharu seperti sambungan adegan/klip, interpolasi bingkai-ke-bingkai, dan berpandukan imej generasi (gunakan sehingga tiga imej rujukan). Veo 3.1 boleh didapati melalui API, muncul dalam Gemini aplikasi dan Aliran alat kreatif, dan didedahkan kepada pembangun perusahaan melalui Verteks AI dan Google AI Studio (ketersediaan berbeza mengikut platform dan pelan). Penyepaduan Flow membawa lebih banyak kawalan pengeditan UI (pencahayaan/bayangan, sisipan/alih keluar objek akan datang tidak lama lagi), manakala API mendedahkan ciri penjanaan dan sambungan program untuk pembangun.
Saya akan memberikan panduan tentang cara mengedit video melalui Veo 3.1 (Flow, CometAPI/Gemini API — langkah demi langkah).
Apakah yang dilakukan oleh Veo 3.1 dan dari mana ia datang?
Veo 3.1 ialah lelaran terbaharu bagi keluarga model video generatif (Veo) Google, dibina untuk menukar gesaan teks — dan secara pilihan imej atau bingkai video sedia ada — menjadi klip video pendek, koheren, fotoreal atau digayakan dengan audio tersintesis (dialog, bunyi ambien, SFX). Kemas kini 3.1 menekankan realisme yang lebih baik, audio asli yang lebih kaya, dan alat untuk kesinambungan (sambungan adegan dan interpolasi bingkai), meletakkan Veo sebagai rakan sejawat bertumpu video kepada model teks dan imej Google.
Peningkatan utama dalam 3.1 termasuk:
- Sintesis audio dan dialog asli untuk klip yang dijana (tiada saluran paip suara berasingan diperlukan).
- Interpolasi bingkai-ke-bingkai (bingkai pertama & terakhir memacu klip yang dijana).
- Penjanaan berpandukan imej (gunakan sehingga tiga imej rujukan untuk mengekalkan konsistensi watak/gaya).
- Sambungan adegan (memelihara kesinambungan dengan menjana klip penyambung yang disemai dari saat akhir klip sebelumnya).
- Pematuhan segera yang lebih baik dan kawalan sinematik yang lebih baik.
Di manakah Veo 3.1 dijalankan?
Veo 3.1 tersedia dalam Google API (pratonton berbayar), Vertex AI / Taman Model, Apl mudah alih/web Gemini, dan disepadukan ke dalam tunjuk cara Flow dan Veo Studio. CometAPI telah mula menyepadukan Veo juga.
Bagaimanakah saya boleh mengedit video melalui Veo 3.1 dalam Flow? langkah demi langkah
Di bawah ini saya menelusuri aliran kerja pengaturcaraan dan UI yang paling biasa: mengedit dalam Flow (UI pencipta), menggunakan apl Gemini (penjanaan cepat) dan menggunakan API Gemini / Vertex AI secara pengaturcaraan (untuk pengeluaran dan automasi).
Bagaimanakah cara saya mengedit video menggunakan Flow (UI pencipta)?
Aliran ialah UI kreatif Google untuk pembuat filem/pencipta yang menyepadukan model Veo untuk penjanaan and satu set kawalan pengeditan (pencahayaan, pembayang, komposisi pemandangan, alat pemasukan/penyingkiran objek). Dengan Veo 3.1 dalam Aliran anda boleh:
- Jana atau jana semula tangkapan dengan audio yang lebih kaya.
- Gunakan "Ramuan untuk Video" (muat naik imej rujukan untuk watak/gaya yang konsisten).
- Panjangkan adegan atau rantai berbilang tangkapan bersama-sama dengan Sambungan Adegan (menghubungkan klip baharu ke penghujung klip sebelumnya).
- Gunakan sisipan objek asas dan (tidak lama lagi) pengalihan keluar di dalam UI.
Bagaimanakah cara saya melaksanakan pengeditan asas dalam Aliran (langkah praktikal)?
- Cipta/jana klip benih anda (gesaan teks atau gesaan imej).
- Gunakan garis masa untuk memilih penghujung klip dan pilih Panjangkan (Sambungan Adegan) dengan gesaan baharu untuk meneruskan tindakan atau menambah gerakan. Setiap sambungan menambah lompatan kecil yang digabungkan oleh sistem untuk mengekalkan kesinambungan.
- Untuk perubahan objek, gunakan alat Sisipkan (terangkan item untuk ditambah dan di mana). Untuk pengalihan keluar, ikuti alat Alih Keluar Aliran apabila tersedia dan sahkan artifak penggubahan.
- Eksport dan, jika perlu, gilap dalam NLE tradisional (Premiere, DaVinci Resolve) untuk penggredan warna, sari kata atau potongan yang tepat.
Aliran direka untuk membuat pengeditan kreatif berulang dengan cepat; anggap ia seperti hibrid antara penyuntingan garis masa dan penggantian generatif.
Bagaimanakah cara saya mengedit atau menjana video secara pengaturcaraan melalui API Veo 3.1
Terdapat dua laluan pemrograman utama:
- Gemini API (generativelanguage / Gemini SDK) — digunakan untuk memanggil model Veo terus untuk penjanaan dan sambungan (contoh yang disediakan dalam dokumen API Gemini Google).
- CometAPI (Format OpenAI/ sembang)— CometAPI menawarkan akses kepada Imej Gemini 3 Pro( Nano Banana Pro),Gemini 3 Pro , dan lebih 100 model AI untuk sembang, imej, muzik dan penjanaan video, anda boleh akses Veo 3.1 melalui titik sembang gaya OpenAI.
Mengedit dengan Veo 3.1 boleh dianggap sebagai beberapa aliran yang berbeza. Setiap aliran menggabungkan input model (teks / imej / video) dan langkah pasca pemprosesan untuk mendapatkan hasil sedia pengeluaran.
Veo 3.1 didedahkan melalui API. Corak tipikal adalah jangka panjang generateVideos operasi — anda menyiarkan kerja, tinjauan operasi dan memuat turun fail output setelah selesai.
Di bawah ialah contoh ringkas dan boleh dijalankan — sesuaikan dengan kunci dan persekitaran API anda. ; rujuk SDK persekitaran anda dan panduan pengesahan.
Contoh JavaScript (Nod) — jana dan tinjauan pendapat
Contohnya adalah berdasarkan penggunaan gaya API Gemini.
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
Corak ini (serahkan → tinjauan pendapat → muat turun) ialah kaedah kanonik dalam dokumen Gemini.
Bolehkah saya menggunakan curl / REST dan bukannya Python SDK?
Ya — SDK rancangan web rasmi , tetapi veo 3.1 yang mendasari boleh digunakan melalui REST. Pelaksanaan berbeza merentas persekitaran (API Gemini vs CometAPI REST). Jika anda lebih suka curl, pastikan anda mengikut pengesahan yang betul (Token pembawa daripada Google Cloud atau kunci cometAPIAPI) dan gunakan titik akhir untuk penjanaan video khusus untuk produk anda. Contoh pseudo-curl bagi CometAPI (menyesuaikan diri dengan pengesahan dan titik akhir anda):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
penting: URL REST yang tepat dan struktur muatan bergantung pada sama ada anda menggunakan API Gemini or CometAPI titik akhir—rujuk dokumen produk sebelum menghantar permintaan. SDK mengendalikan banyak butiran pengesahan dan tinjauan pendapat untuk anda.
Cara Menggunakan Veo 3.1 — apakah aliran kerja yang disokong?
Di bawah ini saya akan melihat aliran praktikal yang akan anda gunakan semasa mengedit dengan Veo 3.1: aliran UX (studio Aliran/Gemini) dan aliran pengaturcaraan (API Gemini / API Vertex). Untuk setiap aliran saya akan menunjukkan contoh, kaveat dan coretan kod kecil yang boleh anda salin.
Mengedit dengan Veo 3.1 boleh dianggap sebagai beberapa aliran yang berbeza. Setiap aliran menggabungkan input model (teks / imej / video) dan langkah pasca pemprosesan untuk mendapatkan hasil sedia pengeluaran.
Aliran kerja penyuntingan utama
Terdapat tiga aliran pengeditan praktikal yang akan anda gunakan dengan kerap:
- Suntingan dipacu teks dan penjanaan semula — menukar syot dengan menulis semula gesaan atau menggunakan arahan baharu pada adegan yang sama.
- Penyuntingan berpandukan imej rujukan (“Ramuan kepada video”) — anda membekalkan sehingga 3 imej untuk mengekalkan aksara atau objek merentasi bingkai yang dijana.
- Interpolasi bingkai (bingkai Pertama & Terakhir) — berikan imej mula dan akhir dan Veo menjana jujukan peralihan antara mereka (dengan audio jika diminta).
- Sambungan adegan — memanjangkan klip yang dijana Veo sedia ada (atau lain-lain) dengan menjana klip penyambung yang diteruskan dari saat terakhir klip sebelumnya.
- Sisipan/alih keluar objek dan alatan penyuntingan Aliran yang lain — beberapa ciri UI Aliran (penyisipan/pembuangan objek, gesaan doodle, penggambaran semula sudut kamera) sedang ditambah di atas keupayaan Veo dan boleh membantu dengan ubah suai tahap bingkai dalam GUI.
Nota & petua: gunakan pengesahan yang sesuai (kunci API Gemini / kunci API CometAPI). Contoh menggunakan veo-3.1-generate-preview—model ID dan nama parameter mungkin berbeza sedikit merentas versi dan wilayah SDK; Id model veo 3.1 CometAPI ialah veo3.1-pro dan veo3.1.
1) Teks → Video (generasi baharu)
Kes penggunaan: Buat klip pendek baharu daripada skrip atau gesaan kreatif.
aliran:
- Sediakan gesaan teks yang jelas termasuk penerangan pemandangan, arah kamera dan isyarat audio (dialog atau kesan bunyi).
- Panggil Gemini generateVideos titik akhir menggunakan model Veo 3.1.
- Tinjau operasi yang berjalan lama sehingga penjanaan selesai, muat turun MP4 yang terhasil, kemudian semak dan ulangi.
Contoh Python mudah (teks → video):
Gunakan Google rasmi genai pelanggan untuk Python. Coretan ini menunjukkan penjanaan video pendek daripada gesaan dengan Veo 3.1.
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) Imej → Video (menghidupkan imej sumber)
Kes penggunaan: Animasikan tangkapan produk, potret watak atau foto tunggal ke dalam klip pendek.
aliran:
- Hasilkan atau pilih imej awal (boleh dihasilkan oleh model imej seperti Banana Nano).
- Muat naik imej sebagai
imageparameter dan panggilangenerate_videos, membekalkan secara pilihanreferenceImagesataulastFrameuntuk interpolasi. - Dapatkan dan semak semula; lelaran gesaan atau aset imej.
Imej Python → coretan video (imej dijana secara berasingan):
Salah satu ciri Veo 3.1 yang paling praktikal ialah imej rujukan: membekalkan sehingga 3 imej (seseorang, produk, objek) supaya video yang dihasilkan mengekalkan penampilan itu merentas bingkai.
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
Petua praktikal:
- Lebih suka imej rujukan yang jelas dan terang yang menangkap subjek dari sudut yang berguna.
- Gunakan rujukan untuk mengekalkan identiti produk, pakaian atau wajah watak merentas jujukan berbilang syot.
- Elakkan imej berhak cipta atau peribadi tanpa kebenaran.
3) Video-ke-Video / Sambungan (teruskan atau rakam semula)
Kes penggunaan: Panjangkan klip yang dijana sedia ada atau teruskan tindakan melebihi penghujungnya, atau gunakan video yang dijana sebelum ini sebagai asas untuk mengedit semula.
aliran:
- Sediakan video yang dihasilkan sebagai
videomasukkan dan buat gesaan yang menerangkan cara video itu harus diteruskan (cth, "Perluaskan: protagonis membuka pintu dan berjalan ke arah cahaya"). - Gunakan mod sambungan — Veo 3.1 memuktamadkan detik terakhir dan meneruskan gerakan. Nota: sambungan suara kurang dipercayai melainkan audio wujud pada saat akhir.
Contoh Python (panjangkan video sedia ada):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
Nota aliran kerja: memanjangkan klip berulang kali (mencantum setiap klip terjana baharu ke penghujung klip sebelumnya) untuk membina jujukan yang lebih panjang. Perlu diingat pengumpulan artifak—sandarkan semula secara berkala pada bingkai rujukan berkualiti tinggi atau hasilkan semula bahagian untuk mengekalkan kesetiaan.
4) Pengeditan khusus bingkai (bingkai pertama & terakhir, imej rujukan)
Anda boleh menghasilkan video yang beralih daripada bingkai permulaan kepada bingkai akhir. menjana imej dahulu (cth, dengan model imej Gemini), kemudian hantar imej itu sebagai imej dan tetapkan last_frame dalam konfigurasi untuk memacu interpolasi.
Kes penggunaan: Anda mahukan kesinambungan visual yang ketat atau menghidupkan antara dua bingkai yang ditentukan.
aliran:
- Hasilkan atau muat naik bingkai pertama dan bingkai terakhir.
- Panggil Veo 3.1 dengan
image=first_frameandconfig.last_frame=last_frame. - Model menginterpolasi antara bingkai tersebut, menghasilkan gerakan dan audio yang munasabah untuk dipadankan dengan gesaan anda.
Kenapa ini penting: Untuk kawalan kreatif, bingkai pertama/terakhir membolehkan anda menentukan pembingkaian dan gubahan kamera tepat untuk permulaan/akhir, yang penting untuk VFX, kesinambungan atau rentak naratif.
Python (imej → video)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
Ini memberi anda interpolasi yang lancar antara dua penambat visual yang ditentukan.
Apakah strategi segera dan input yang paling sesuai dengan Veo 3.1?
Veo 3.1 bertindak balas terbaik kepada gesaan berstruktur yang menerangkan dengan jelas komposisi visual, gerakan, bunyi dan nada emosi. "Panduan menggesa" Google untuk Veo 3.1 mengesyorkan bahan-bahan tertentu; berikut senarai semak ringkas:
Anatomi segera (disyorkan)
- Adegan utama — ayat ringkas: siapa/apa, tindakan utama.
- Penerangan kamera — jarak dekat / lebar / dolly / mantap / pegang tangan, gerakan kamera dan pembingkaian.
- Masa & pacing — isyarat pendek seperti "perlahan", "rasa 24fps sinematik", atau kiraan bingkai jika anda memerlukan ketepatan.
- Petunjuk audio — nyatakan suasana latar belakang, kesan bunyi tertentu atau dialog (dalam petikan). Veo 3.1 boleh mensintesis audio asli.
- Gaya & rujukan - termasuk
referenceImagesatau sebutkan gaya fotografi/filem: "filem noir, kontras tinggi, rasa Kodak 500". - Gesaan negatif — nyatakan apa yang anda jangan mahu (cth, “tiada logo, tiada teks, tiada gaya kartun”) untuk mengurangkan hasil yang tidak diingini.
Menggunakan imej rujukan
Panduan imej dan interpolasi bingkai pertama/terakhir ialah ciri Veo 3.1. Saluran paip yang biasa dan berkualiti tinggi ialah:
- Jana atau perhalusi aset pegun dengan 1–3 imej rujukan melalui model imej (model imej Pisang Nano atau Gemini) yang mentakrifkan penampilan/gaya untuk subjek berterusan (orang, produk). Veo mengekalkan penampilan subjek dengan baik apabila dipandu oleh aset rujukan.
- Karang aset tersebut ke dalam imej rujukan (atau bingkai pertama/terakhir).
- Panggil Veo 3.1 untuk penjanaan / interpolasi / sambungan video.
- Secara pilihan selepas proses (penggredan warna, mampatan, suntingan manual) dengan alatan video standard (Premiere, DaVinci Resolve).
Token, pertimbangan panjang dan resolusi
- Input teks Veo 3.1 mempunyai had token (cth, ~1,024 token untuk varian pratonton tertentu) dan output biasanya satu video pendek (contoh kerap menunjukkan 8s); ringkas dan berulang. Rancang untuk menjahit berbilang klip yang dijana untuk kandungan yang lebih panjang.
Kesimpulan — apa yang diubah oleh Veo 3.1 untuk pencipta dan editor
Veo 3.1 mewakili lompatan praktikal dalam bentuk pendek, penjanaan video AI asli audio. Ia bukan sahaja penjana: ia menjadi penjana pembantu penyuntingan alat dalam seperti Flow dan Gemini Studio yang membenarkan pencipta membuat suntingan pembedahan (sisipan/alih objek, penggambaran semula kamera) sambil menggunakan semula primitif generatif yang sama. Untuk pembangun dan pasukan pos, pendekatan yang disyorkan adalah berulang: gunakan API untuk menjana dan memanjangkan masa singkat, menggunakan bingkai rujukan untuk kesinambungan, dan melakukan penggubahan akhir dan pencampuran audio dengan alatan tradisional.
Pembangun boleh mengakses API Veo 3.1 and Imej Gemini 3 Pro( Nano Banana Pro) melalui CometAPI. Untuk bermula, terokai keupayaan model CometAPI dalam Taman Permainan dan berunding Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. cometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
Bersedia untuk Pergi?→ Daftar untuk CometAPI hari ini !
Jika anda ingin mengetahui lebih banyak petua, panduan dan berita tentang AI, ikuti kami VK, X and Perpecahan!
