Veo 3.1, Gemini/Vertex (Veo) uç noktalarını çağırdığınızda videoyla birlikte yerel olarak eşzamanlı ses üretir — sesi metin istemiyle kontrol edersiniz (ses ipuçları, diyalog replikleri, SFX, ambiyans) ve aynı üretim işlemi indirilebilir bir MP4 döndürür. Birden fazla sağlayıcıyı bir araya getiren tek bir birleşik API tercih ederseniz, CometAPI de Veo 3.1’e erişim sunar (Comet anahtarınızla CometAPI’yi çağırır ve veo3.1/veo3.1-pro talep edersiniz). Bu sürüm, diğer medya modellerinin (örneğin OpenAI’nin Sora 2’si) doğrudan rakibi olarak konumlandırılıyor; geliştirmeler ses gerçekçiliği, anlatı kontrolü ve çok çekimli süreklilik üzerine odaklanıyor.
Veo 3.1 nedir?
Veo 3.1, Google’ın metin ve görselden videoya giden Veo ailesinin en yeni sürümüdür. Önceki Veo sürümleriyle kıyaslandığında, Veo 3.1 özellikle yerel ses üretimini vurgular — yani model, videoya eşlik eden diyalog, ambiyans, ses efektleri ve müzikal ipuçlarını ayrı bir metinden sese veya post prodüksiyon adımı gerektirmeden senkronize biçimde üretir. Ayrıca çok çekimli hikayeleri daha tutarlı kılmayı amaçlayan yeni anlatı denetimleri (referans görseller, ilk ve son kare geçişleri ve sahne uzatma özellikleri) getirir.
Neden önemli: Ses, izleyicilerin mekânı, duyguyu, zamanlamayı ve nedenselliği yorumlama biçimidir. Yerel ses üretimi (dudak hareketleriyle hizalanan diyalog, görünür olaylara zamanlanmış SFX ve sahne coğrafyasıyla uyumlu arka plan atmosferleri), bir klibin “gerçek” hissettirmesi için gereken manuel işi azaltır ve yaratıcıların hikâye ve ruh haline daha hızlı iterasyon yapmasını sağlar.
Veo 3.1 ses üretebilir mi — ve ne tür sesler üretebilir?
Model içinde ses nasıl üretilir?
Veo 3.1, sesi video üretim hattının entegre bir çıktı modalitesi olarak ele alır. Video karelerini ayrı bir TTS veya Foley motoruna göndermek yerine, Veo’nun üretim süreci ses ve görsel akışları birlikte modelleyerek zamanlama, akustik ipuçları ve görsel olayların uyumlu olmasını sağlar. Bu ortak modelleme; doğal olarak hizalanmış konuşma alışverişleri, ambiyans ses manzaraları ve senkronize SFX gibi öğelerin üretilen görüntülerle birlikte ortaya çıkmasını mümkün kılar. 3.1’de “daha zengin yerel ses” ve senkronize ses üretimi başlık düzeyinde iyileştirmeler olarak vurgulanır.
Ses yeteneğinin neden büyük bir fark yarattığı
Geçmişte birçok metinden videoya sistem sessiz video üretir ve sesi sonraki bir hat üzerinde bırakırdı. Veo 3.1 bunu, sesi aynı üretim geçişinde üreterek değiştiriyor — bu da manuel miksaj çabasını azaltır, kısa repliklerde daha sıkı dudak senkronu sağlar ve istemlerin nedensel ses olaylarını (ör. “kamera sola keserken bir bardak kırılır”) kontrol etmesine olanak tanır. Bu durum üretim hızına, yinelemeli tasarıma ve yaratıcı prototiplemeye önemli etkiler yapar.
Veo 3.1 hangi tür sesler oluşturabilir?
- Diyalog / konuşma — dudak ve hareketlerle uyumlu zamanlamaya sahip çok konuşmacılı diyalog.
- Ambiyans ses manzaraları — sahne coğrafyasına uyan çevresel sesler (rüzgâr, trafik, oda tonu).
- Ses efektleri (SFX) — darbeler, çarpışmalar, kapılar, ayak sesleri vb., görsel olaylara zamanlanmış.
- Müzik ipuçları — sahne temposuna uyan kısa müzikal motifler veya duygu vurguları.
Bu ses türleri yerel olarak üretilir ve ayrı ses parametreleri yerine ağırlıklı olarak istem içeriği tarafından yönlendirilir.
Teknik sınırlar ve uzunluk
Kutudan çıktığı haliyle Veo 3.1, yüksek kaliteli kısa klipler için tasarlanmıştır (bazı akışlarda 8 saniyelik yüksek kaliteli çıktılar), ancak model ayrıca sahne uzatma ve üretim köprüleri (ilk→son kare, son saniyeden uzatma) destekler; bunlar Sahne Uzatma yoluyla birleştirildiğinde onlarca saniyeden bir dakikaya veya daha fazlasına uzanan çoklu klip dizilerini mümkün kılar.
Veo 3.1 ile ses nasıl üretilir (doğrudan, Google Gemini / Vertex üzerinden)
Adım 1: Önkoşullar
- Gemini API / Vertex AI erişimine sahip bir Google hesabı ve geçerli bir API anahtarı / kimlik bilgileri (Veo 3.1 birçok erişim yolunda ücretli önizlemede).
- Ortamınızda kurulmuş Google
genai/ Gemini istemcisi veya REST uç noktası (ya da tercihen bulut konsolu için Vertex istemcisi).
Adım 2: Doğru modeli ve erişimi seçin
veo-3.1-generate-preview (veya hız/maliyet önceliğiniz varsa veo-3.1-fast) kullanın. Bu model dizeleri Google’ın önizleme erişimi örneklerinde görünür. Ücretli bir Gemini API / Google AI anahtarı gerekir (veya AI Studio / Vertex AI üzerinden erişim).
Adım 3: Python örneği — Gemini genai istemcisi (önerilir, kopyala/yapıştır)
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
Notlar: Döndürülen dosya tipik olarak oluşturulmuş ses parçasını içeren bir MP4’tür. Yukarıda ses kontrolü için kilit unsur, isteme gömülü betimleyici ses yönergeleridir. Veo 3.1, senkronize ses parçaları üretmek için doğal dildeki ses talimatlarına yanıt verir.
Adım 3 — Referans görseller ve “Ingredients to video” kullanımı
Karakter görünümünü ve akustik ipuçlarını tutarlı tutmak için, Veo’nun görsel stil ve sürekliliği korumak üzere kullandığı en fazla üç referans görsel iletebilirsiniz. Aynı üretim çağrısı reference_images=[...] desteğini sunar. Bir karakter için tutarlı sesler veya alışılmış sesler beklediğinizde (ör. tekrarlayan bir kapının gıcırtısı) önerilir.
Adım 4 — Ses sürekliliğiyle sahneleri uzatma (Scene Extension)
Veo 3.1, önceki bir klibin son saniyesini temel alarak yeni kliplerin üretildiği “sahne uzatma”yı destekler; böylece daha uzun diziler oluşturulurken ses de sürekliliği koruyacak şekilde uzatılır (arka plan ambiyansları, süren müzikler vb.). generate_videos çağrısında video=video_to_extend parametresini kullanın.
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Adım 5 — İlk ve son kare köprüleme (sesle birlikte)
İki kare arasında yumuşak bir geçiş istiyorsanız (örneğin bir gündüz çekiminin alacakaranlığa dönüşmesi), image=first_frame ve last_frame=last_frame sağlayın ve isteme ses yönlerini ekleyin. Veo, görsel ilerlemeyi yansıtan geçiş karelerini ve sesi birlikte üretir. Veo tipik olarak MP4 içinde tek bir karışık ses parçası döndürür.
Veo 3.1’de ses araçları nasıl kullanılır?
1) CometAPI ne yapar ve neden kullanılır?
CometAPI size birçok modele erişim için tek, OpenAI tarzı REST uç noktası sunar (Google’ın Veo’su dahil). Birden fazla satıcı anahtarını yönetmek istemiyor, tek bir entegrasyon noktası (faturalama, kotalar, SDK uyumu) istiyorsanız faydalıdır. Comet, Veo 3.1’in video modelleri arasında sunulduğunu belgeliyor.
2) CometAPI üzerinden Veo 3.1’i çağırmanın temel akışı
- CometAPI’ye kaydolun ve bir API anahtarı oluşturun.
- Comet’in kataloğundaki tam model tanımlayıcısını onaylayın ("Veo 3.1"/"veo3.1-pro").
- CometAPI’nin OpenAI tarzı uç noktasını (veya SDK’sını) kullanın ve
modelalanını Veo model adına ayarlayın. Comet, isteğinizi sizin adınıza Google’a yönlendirir.
Veo3.1 Async Generation, Bu API kendi geliştirdiğimiz teknolojiyle uygulanmıştır ve şu sınırlamalara sahiptir: Video süresi sabit 8 saniyedir ve özelleştirilemez. Herhangi bir sorunla karşılaşırsanız lütfen teknik destekle iletişime geçin.
Örnek İstek
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Veo 3.1 ile sese duyarlı istem yazımı için en iyi uygulamalar nelerdir?
İyi ses için istem tasarımı (neleri dahil etmeli)
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
Ana ipuçları: istemde “ses bölümleri”ni etiketleyin; kısa zaman sabitlemeleri ekleyin (ör. at 1.6s); duygusal sunumu ve ses karakterini tarif edin (ör. “hafif reverb, yavaş attack”) ve stereo panlama gerekiyorsa L / R veya L→R belirtin. Yineleme tipiktir — kısa bir klip (4–8 sn) üretin, sonra uzatın.
İstem yapısı ve tonu
- Yapısal bölümler kullanın: “Ambience:”, “SFX:”, “Music:” ve “Dialogue:” bloklarını etiketleyin. Üreteçler, öngörülebilir kalıplarla daha iyi çalışır.
- Zamanlamayı spesifikleştirin: kısa zaman sabitlemeleri (ör. “sfx: kapı çarpması 1.6s’de”) sıkı senkronu destekler. Tam kare düzeyinde doğruluk kritikse yineleme ve ince ayar yapın.
- Ses özelliklerini tarif edin: “synth” demek yerine “yavaş attack’lı yumuşak pad, 80 BPM hissi” gibi ifadelerle müzikal havayı yönlendirin.
Görsel → ses tutarlılığı
Bir referans görsel veya başlangıç karesi sağlarsanız, sesin nereden gelmesi gerektiğinden bahsedin (ör. “Ambiyans: soldan boğuk şehir, kameraya daha yakın; geçen araba L→R panlamalı”). Bu, daha makul stereo ipuçları ve algılanan kaynak konumlandırması sağlar.
Yineleme iş akışı
- Kısa bir klip (4–8 sn) üretin ve ses senkronunu değerlendirin.
- Daha uzun bir anlatı gerekiyorsa, Sahne Uzatma ile klibi büyütün; son saniye süreklilik tohumu olarak korunur.
- Karakter tutarlılığı (ses rengi, aksan) için referans görseller kullanın ve klipler arasında ses tanımlayıcılarını tekrarlayın. Sesi stabil tutmak için kısa, tekrarlanan metinsel “ses çapa” satırları (ör. “ALICE — yumuşak orta Atlantik aksanı”) düşünün.
Post prodüksiyon notları
Veo size gömülü sesli bir başlangıç MP4’ü verir. Gelişmiş miksaj (çok kanallı stem’ler, ayrı diyalog/müzik stem’leri) için sesi bir DAW’da çıkarmak ve yeniden düzenlemek gerekebilir — Veo öncelikle entegre tek dosya üretimi içindir. Üçüncü taraf iş akışları genellikle dağıtım kalitesinde miksler için taban üretimde Veo’yu ve DAW düzenlemelerini birleştirir.
Örnek istemler (kopyala-yapıştır hazır)
1 — Doğal ambiyans + efekt + kısa diyalog
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Foley ağırlıklı aksiyon vuruşu
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — Sinematik ambiyans + karakter sesi
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— Sıkı diyalog + SFX (kısa klip, açık zamanlama)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — Ambiyans öncelikli sahne (ruh hali, daha az sıkı SFX)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — Çok konuşmacılı konuşma (kademeli)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Veo 3.1’in sesi Sora 2’nin sesiyle nasıl kıyaslanır?
Veo 3.1 ve OpenAI’nin Sora 2’si, oluşturulan videoya bağlı eşzamanlı ses çıktısını destekler. Her ikisi de kendi satıcılarının amiral gemisi medya üretim modelleri olarak konumlandırılır ve gerçekçi ses-görüntü uyumuna vurgu yapar. Her ikisi de API’ler yayınlar.
Temel farklılıklar
- Model odağı ve uzunluk: Veo 3.1, karakter ve ses sürekliliğini çok çekimli dizilerde korumak için ilk/son kare, sahne uzatma ve açık referans görüntü koşullandırma gibi özelliklerle denetlenebilirliğe vurgu yapar. Sora 2, senkronize ses ve harekette fiziksel doğruluğa odaklanan bir amiral gemisi model olarak sunulur; Sora 2 Pro, kalite ve maliyet arasındaki ayarları yüksek sadakat için öne çıkarır. Veo 3.1, sahne uzatma ve çoklu istem dizilerini açıkça vurgular.
- Platform entegrasyonu: Veo 3.1, Google’ın Gemini ekosistemi (Gemini uygulaması, Flow, Gemini API, Vertex AI) genelinde entegredir; Sora 2 ise OpenAI’nin platform modeli olarak API uç noktaları ve iOS için Sora uygulamasıyla sunulur; fiyatlandırma ve uç nokta yapıları farklıdır (Sora 2 belgelerinde saniye başına fiyatlandırma katmanları gösterilir). Mevcut bulut yapınız ve uyumluluk ihtiyaçlarınıza göre seçin.
- İnce ayarlı video denetimleri: Veo 3.1, anlatı iş akışlarında yineleme süresini azaltan birkaç spesifik yaratıcı denetimi (Ingredients to Video, Scene Extension, First/Last Frame) vurgular. Sora 2, senkronize ses ve hareketin fiziksel doğruluğuna odaklanır; her ikisi de denetimler sağlar, ancak deyimleri ve SDK’ları farklıdır.
Ses ağırlıklı projeler için pratik sonuçlar
Eğer kutudan çıktığı haliyle yüksek sadakatli tek çekim video, senkronize ses ve basit saniye başına fiyatlandırma önceliğinizse → Sora 2 güçlü bir rakiptir; hedef varlıklarınız ve bütçeleriniz üzerinde her ikisini de test edin.
Eğer çok çekim boyunca tutarlı ses motifleriyle uzun soluklu anlatı istiyorsanız → Veo 3.1’in Sahne Uzatma ve referans görüntü koşullandırması cazip kılar.
Nihai değerlendirme: Ne zaman Veo 3.1 kullanılmalı (ses odaklı öneriler)
Veo 3.1’i, tutarlı karakterlerle denetimli çok çekimli diziler ve anlatı sürekliliğini destekleyen entegre ses gerektiğinde kullanın. Veo 3.1’in belirgin güçlü yanları; sahne uzatma, ilk/son kare denetimi ve referans görüntü koşullandırmasıdır — bunların tümü, ses sürekliliği olan bölümlü veya epizodik kısa biçimli içerikler için onu mükemmel kılar.
Geliştiriciler, CometAPI üzerinden Veo 3.1 ve Sora 2 erişimi sağlayabilir. Başlamak için CometAPI’nin Playground bölümünde model yeteneklerini keşfedin ve ayrıntılı talimatlar için API kılavuzuna başvurun. Erişmeden önce CometAPI’ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI entegrasyonu kolaylaştırmak için resmi fiyattan çok daha düşük bir fiyat sunar.
Hazır mısınız?→ Veo 3.1’i ücretsiz deneyin!
