Veo 3.1 có hỗ trợ âm thanh không? và nên sử dụng nó một cách chuyên nghiệp như thế nào?

CometAPI
AnnaDec 26, 2025
Veo 3.1 có hỗ trợ âm thanh không? và nên sử dụng nó một cách chuyên nghiệp như thế nào?

Veo 3.1 tạo âm thanh đồng bộ một cách bản địa cùng với video khi bạn gọi các endpoint Gemini/Vertex (Veo) — bạn điều khiển âm thanh qua prompt văn bản (gợi ý âm thanh, câu thoại, SFX, ambience) và cùng một tác vụ sinh sẽ trả về một tệp MP4 để tải xuống. Nếu bạn muốn một API hợp nhất bao gồm nhiều nhà cung cấp, CometAPI cũng cung cấp quyền truy cập Veo 3.1 (bạn gọi CometAPI bằng khóa Comet của mình và yêu cầu veo3.1/veo3.1-pro). Bản phát hành này được định vị là đối thủ trực tiếp của các mô hình media khác (ví dụ Sora 2 của OpenAI), với cải tiến tập trung vào tính chân thực của âm thanh, khả năng kiểm soát tự sự và tính liên tục đa cảnh (multi-shot).

Veo 3.1 là gì?

Veo 3.1 là thế hệ mới nhất thuộc dòng mô hình văn bản-và-hình ảnh→video Veo của Google. So với các bản Veo trước, Veo 3.1 đặc biệt nhấn mạnh khả năng tạo âm thanh bản địa — nghĩa là mô hình tạo ra lời thoại đồng bộ, âm thanh môi trường, hiệu ứng âm thanh và gợi ý nhạc như một phần của đầu ra video thay vì cần bước text-to-speech hoặc hậu kỳ riêng. Nó cũng mang đến các điều khiển tự sự mới (ảnh tham chiếu, chuyển tiếp khung đầu-và-cuối, và tính năng mở rộng cảnh) nhằm giúp các câu chuyện đa cảnh mạch lạc hơn.

Vì sao điều đó quan trọng: âm thanh là cách người xem diễn giải không gian, cảm xúc, nhịp điệu và quan hệ nhân-quả. Tạo âm thanh bản địa (lời thoại khớp chuyển động môi, SFX căn theo sự kiện hiển thị, và bầu không khí nền khớp địa lý cảnh) giúp giảm công việc thủ công để khiến đoạn phim “thật” hơn và cho phép nhà sáng tạo lặp nhanh hơn về câu chuyện và tâm trạng.

Veo 3.1 có thể tạo âm thanh không — và có thể tạo những loại âm thanh nào?

Âm thanh được tạo trong mô hình như thế nào?

Veo 3.1 coi âm thanh là một phương thức đầu ra tích hợp của quy trình sinh video. Thay vì gửi khung hình video đến một công cụ TTS hay Foley riêng, quy trình sinh của Veo mô hình hóa chung luồng âm thanh và hình ảnh để thời gian, tín hiệu âm học và sự kiện thị giác trở nên mạch lạc. Mô hình hóa chung đó cho phép các cuộc đối thoại, bầu không khí nền và SFX đồng bộ xuất hiện một cách tự nhiên ăn khớp với hình ảnh sinh ra. “richer native audio” và tạo âm thanh đồng bộ là những cải tiến tiêu đề trong 3.1.

Vì sao khả năng âm thanh là một bước tiến lớn

Trong lịch sử, nhiều hệ thống text-to-video tạo video không tiếng và để âm thanh cho pipeline sau. Veo 3.1 thay đổi điều đó bằng cách tạo âm thanh trong cùng một lượt sinh — giúp giảm công sức mix thủ công, đảm bảo khớp môi chặt chẽ hơn với các câu ngắn, và cho phép prompt kiểm soát các sự kiện âm thanh có tính nhân-quả (ví dụ, “một chiếc ly vỡ đúng lúc máy quay lia sang trái”). Điều này tác động đáng kể đến tốc độ sản xuất, thiết kế lặp và dựng thử sáng tạo.

Veo 3.1 có thể tạo những loại âm thanh nào?

  • Dialogue / speech — đối thoại nhiều người với thời gian tương ứng với cử động môi và hành động.
  • Ambient soundscapes — âm thanh môi trường (gió, xe cộ, tiếng phòng) phù hợp với địa lý cảnh.
  • Sound effects (SFX) — va chạm, tác động, cửa, bước chân, v.v., căn theo sự kiện thị giác.
  • Music cues — đoạn nhạc ngắn hoặc nhạc nền theo tâm trạng phù hợp nhịp cảnh.

Các loại âm thanh này được tạo bản địa và chủ yếu được dẫn dắt bởi nội dung trong prompt hơn là các tham số âm thanh riêng.

Giới hạn kỹ thuật và độ dài

Mặc định, Veo 3.1 được thiết kế cho clip ngắn chất lượng cao (đầu ra 8 giây chất lượng cao với một số luồng), nhưng mô hình cũng hỗ trợ Scene Extension và cầu nối sinh (từ khung đầu→khung cuối, mở rộng từ giây cuối cùng) cho phép chuỗi đa clip kéo dài hàng chục giây đến hơn một phút khi ghép nối qua Scene Extension.

Cách tạo âm thanh với Veo 3.1 (trực tiếp, qua Google Gemini / Vertex)

Bước 1: Điều kiện tiên quyết

  1. Tài khoản Google có quyền truy cập Gemini API / Vertex AI và khóa API / thông tin xác thực hợp lệ (Veo 3.1 ở giai đoạn trả phí xem trước qua nhiều lộ trình truy cập).
  2. Đã thiết lập client Google genai / Gemini hoặc REST endpoint trong môi trường của bạn (hoặc client Vertex nếu bạn thích cloud console).

Bước 2: Chọn đúng mô hình và quyền truy cập

Sử dụng veo-3.1-generate-preview (hoặc veo-3.1-fast khi ưu tiên tốc độ/chi phí). Các chuỗi tên mô hình này xuất hiện trong ví dụ của Google cho quyền truy cập xem trước. Bạn cần khóa Gemini API / Google AI trả phí (hoặc truy cập qua AI Studio / Vertex AI).


Bước 3: Ví dụ Python — client Gemini genai (khuyến nghị, copy/paste)

Ví dụ này cho thấy hình thức gọi lập trình (Python, client google.genai). Nó minh họa cách cung cấp một prompt văn bản chứa hướng dẫn âm thanh.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Ghi chú: Tệp trả về thường là MP4 có kèm track âm thanh đã tạo. Yếu tố then chốt để điều khiển âm thanh ở trên là hướng dẫn âm thanh mô tả được nhúng trong prompt. Veo 3.1 phản hồi các chỉ dẫn âm thanh bằng ngôn ngữ tự nhiên để tạo các track âm thanh đồng bộ.

Bước 3 — Sử dụng ảnh tham chiếu và “Ingredients to video”

Để giữ diện mạo nhân vật và tín hiệu âm thanh nhất quán, bạn có thể truyền tối đa ba ảnh tham chiếu mà Veo dùng để duy trì phong cách và tính liên tục. Cùng lời gọi sinh hỗ trợ reference_images=[...]. Điều này được khuyến nghị khi bạn kỳ vọng giọng nói nhất quán hoặc các âm thanh quen thuộc cho một nhân vật (ví dụ, tiếng cót két của một cánh cửa lặp lại).

Bước 4 — Mở rộng cảnh (Scene extension) với tính liên tục âm thanh

Veo 3.1 hỗ trợ “mở rộng cảnh”, nơi các clip mới được tạo dựa trên giây cuối của clip trước để tạo chuỗi dài hơn — và âm thanh được mở rộng theo cách giữ tính liên tục (âm nền, nhạc đang phát, v.v.). Sử dụng tham số video=video_to_extend trong lời gọi generate_videos.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Bước 5 — Cầu nối khung đầu & khung cuối (kèm âm thanh)

Nếu bạn muốn chuyển tiếp mượt giữa hai khung (ví dụ, chuyển dần từ cảnh ban ngày sang hoàng hôn), hãy cung cấp image=first_framelast_frame=last_frame và đưa hướng dẫn âm thanh vào prompt. Veo sẽ tạo các khung chuyển tiếp cùng âm thanh phản ánh tiến trình thị giác. Veo thường trả về một track âm thanh trộn sẵn bên trong MP4.

Bạn sử dụng các công cụ âm thanh trong Veo 3.1 như thế nào?

1) CometAPI làm gì và tại sao nên dùng

CometAPI cung cấp cho bạn một REST endpoint kiểu OpenAI thống nhất để truy cập nhiều mô hình (bao gồm Veo của Google). Điều này hữu ích nếu bạn muốn một điểm tích hợp duy nhất (thanh toán, hạn mức, tương đồng SDK) và không muốn quản lý nhiều khóa nhà cung cấp. Comet ghi nhận rằng Veo 3.1 có trong danh mục mô hình video của họ.

2) Quy trình cơ bản gọi Veo 3.1 qua CometAPI

  1. Đăng ký tại CometAPI và tạo khóa API.
  2. Xác nhận chính xác định danh mô hình trong danh mục của Comet ("Veo 3.1"/"veo3.1-pro").
  3. Sử dụng endpoint kiểu OpenAI của CometAPI (hoặc SDK của họ) và đặt trường model thành tên mô hình Veo. Comet sẽ định tuyến yêu cầu của bạn đến Google thay cho bạn.

Veo3.1 Async Generation, API này được triển khai bằng công nghệ tự phát triển của chúng tôi với các giới hạn sau: Thời lượng video cố định 8 giây và không thể tùy chỉnh
Vui lòng liên hệ hỗ trợ kỹ thuật nếu bạn gặp bất kỳ vấn đề nào

Ví dụ yêu cầu

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Thực hành tốt nhất cho prompting nhận thức âm thanh với Veo 3.1?

Thiết kế prompt cho âm thanh tốt (nên bao gồm gì)

Sử dụng các “làn âm thanh” có cấu trúc trong prompt. Khối khuyến nghị tối thiểu:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Mẹo chính: gắn nhãn làn, thêm neo thời gian ngắn (ví dụ, at 1.6s), mô tả sắc thái thể hiện và đặc tính âm thanh (ví dụ, “reverb nhẹ, attack chậm”), và nếu cần pan stereo hãy chú thích L / R hoặc L→R. Lặp là thường lệ — tạo một clip ngắn (4–8s), rồi mở rộng.

Cấu trúc và giọng điệu prompt

  • Sử dụng các làn có cấu trúc: gắn nhãn “Ambience:”, “SFX:”, “Music:” và “Dialogue:”. Trình sinh hoạt động tốt hơn với mẫu có thể dự đoán.
  • Cụ thể về thời gian: các neo thời gian ngắn (ví dụ, “sfx: door slam at 1.6s”) giúp đồng bộ chặt chẽ. Nếu cần độ chính xác tới khung, hãy lặp và tinh chỉnh.
  • Mô tả đặc tính âm: thay vì “synth”, hãy nói “soft pad với attack chậm, cảm giác 80 BPM” để định hướng tâm trạng âm nhạc.

Nhất quán hình ảnh → âm thanh

Nếu bạn cung cấp ảnh tham chiếu hoặc khung bắt đầu, hãy nói rõ âm thanh nên xuất phát từ đâu (ví dụ, “Ambience: thành phố bịt tiếng từ bên trái, gần máy quay; xe chạy ngang nên pan L→R”). Điều này tạo ra các tín hiệu stereo hợp lý và cảm nhận định vị nguồn âm tốt hơn.

Quy trình lặp

  1. Tạo một clip ngắn (4–8s) và đánh giá độ đồng bộ âm thanh.
  2. Nếu cần tự sự dài hơn, dùng Scene Extension để kéo dài clip trong khi giữ giây cuối làm hạt giống liên tục.
  3. Với tính nhất quán nhân vật (timbre giọng, accent), dùng ảnh tham chiếu và lặp lại mô tả giọng giữa các clip. Cân nhắc dùng các “voice anchor” văn bản ngắn lặp lại (ví dụ, “ALICE — accent mid-Atlantic mềm”) để giữ giọng ổn định.

Ghi chú hậu kỳ

Veo cung cấp tệp MP4 ban đầu có nhúng âm thanh. Với nhu cầu mix nâng cao (stems đa kênh, tách stems thoại/nhạc), bạn vẫn có thể cần trích xuất và phối lại trong DAW — Veo chủ yếu phục vụ việc tạo file tích hợp một kênh. Quy trình của bên thứ ba thường kết hợp Veo để tạo nền tảng rồi chỉnh sửa trong DAW cho bản phối chất lượng phát hành.

Ví dụ prompt (sẵn sàng copy-paste)

1 — Âm nền tự nhiên + hiệu ứng + thoại ngắn

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Nhịp hành động nặng Foley

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Âm nền điện ảnh + giọng nhân vật

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Đoạn thoại chặt + SFX (clip ngắn, thời gian rõ ràng)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Cảnh ưu tiên âm nền (tâm trạng, ít SFX nghiêm ngặt)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Cuộc trò chuyện nhiều người (xen kẽ)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


So sánh âm thanh của Veo 3.1 với Sora 2

Cả Veo 3.1 và Sora 2 của OpenAI đều hỗ trợ đầu ra âm thanh đồng bộ gắn với video được tạo. Chúng được định vị là các mô hình tạo phương tiện hàng đầu của từng nhà cung cấp và nhấn mạnh sự gắn kết thực tế giữa âm thanh-hình ảnh. Cả hai đều công bố API.

Khác biệt chính

  • Trọng tâm mô hình & độ dài: Veo 3.1 nhấn mạnh khả năng điều khiển với các tính năng như khung đầu/cuối, mở rộng cảnh cho chuỗi dài hơn, và điều kiện hóa bằng ảnh tham chiếu để duy trì tính liên tục nhân vật và âm thanh qua nhiều cảnh. Sora 2 được định vị là mô hình hàng đầu tạo video kèm âm thanh đồng bộ; Sora 2 Pro nhấn mạnh độ trung thực cao và tối ưu giữa chất lượng và chi phí (bậc Sora 2 Pro cho độ trung thực cao hơn). Veo 3.1 nêu bật rõ ràng Scene Extension và các chuỗi đa-prompt.
  • Tích hợp nền tảng: Veo 3.1 tích hợp trong hệ sinh thái Gemini của Google (ứng dụng Gemini, Flow, Gemini API, Vertex AI) trong khi Sora 2 được giới thiệu như mô hình nền tảng của OpenAI với API và ứng dụng Sora cho iOS; cấu trúc giá và endpoint khác nhau (tài liệu Sora 2 hiển thị các bậc giá theo giây). Hãy chọn theo hạ tầng đám mây hiện có và yêu cầu tuân thủ của bạn.
  • Điều khiển video tinh vi: Veo 3.1 nêu ra nhiều điều khiển sáng tạo cụ thể (Ingredients to Video, Scene Extension, First/Last Frame) giúp giảm thời gian lặp trong quy trình tự sự. Sora 2 tập trung vào âm thanh đồng bộ và độ chính xác vật lý trong chuyển động; cả hai đều có điều khiển, nhưng cách thức và SDK khác nhau.

Hệ quả thực tiễn cho dự án nặng về âm thanh

Nếu bạn ưu tiên video một cảnh chất lượng cao kèm âm thanh đồng bộ và mô hình giá theo giây đơn giản → Sora 2 là đối thủ mạnh; hãy thử cả hai trên tài sản mục tiêu và ngân sách của bạn.

Nếu bạn cần tự sự liên tục dài với mô-típ âm thanh nhất quán qua nhiều cảnh → Scene Extension và điều kiện hóa bằng ảnh tham chiếu của Veo 3.1 rất đáng cân nhắc.

Kết luận: Khi nào nên dùng Veo 3.1 (khuyến nghị trọng tâm âm thanh)

Hãy dùng Veo 3.1 khi bạn cần chuỗi đa cảnh có kiểm soát với nhân vật nhất quán, âm thanh tích hợp hỗ trợ tính liên tục tự sự. Thế mạnh khác biệt của Veo 3.1 là Scene Extension, điều khiển khung đầu/cuối và điều kiện hóa bằng ảnh tham chiếu — tất cả khiến nó xuất sắc cho nội dung ngắn theo chuỗi hoặc nhiều tập với tính liên tục âm thanh.

Nhà phát triển có thể truy cập Veo 3.1Sora 2 qua CometAPI. Để bắt đầu, hãy khám phá năng lực mô hình của CometAPI trong Playground và tham khảo hướng dẫn API để biết chỉ dẫn chi tiết. Trước khi truy cập, hãy đảm bảo bạn đã đăng nhập CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí Veo 3.1!

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm