Veo 3.1 รองรับเสียงไหม? และควรใช้งานอย่างมืออาชีพอย่างไร?

Veo 3.1 สร้างเสียงแบบซิงโครไนซ์ควบคู่กับวิดีโอโดยเนทีฟเมื่อคุณเรียกเอ็นด์พอยต์ Gemini/Vertex (Veo) — คุณควบคุมเสียงผ่านพรอมป์ต์ข้อความ (สัญญาณเสียง บทสนทนา SFX บรรยากาศ) และงานเจเนอเรชันเดียวกันจะส่งคืนไฟล์ MP4 ให้ดาวน์โหลด หากคุณต้องการ API เดียวที่รวมผู้ให้บริการหลายราย CometAPI ก็มีการเข้าถึง Veo 3.1 (คุณเรียก CometAPI ด้วย Comet key ของคุณและระบุ veo3.1/veo3.1-pro) รุ่นนี้ถูกวางตำแหน่งให้เป็นคู่แข่งโดยตรงกับโมเดลมีเดียอื่นๆ (เช่น Sora 2 ของ OpenAI) โดยเน้นปรับปรุงความสมจริงของเสียง การควบคุมเชิงเรื่องเล่า และความต่อเนื่องแบบหลายช็อต

Veo 3.1 คืออะไร?

Veo 3.1 คือรุ่นล่าสุดของตระกูลโมเดล Veo ของ Google สำหรับการสร้างวิดีโอจากข้อความและภาพ เทียบกับรุ่นก่อนๆ Veo 3.1 เน้น “การสร้างเสียงแบบเนทีฟ” เป็นพิเศษ — หมายความว่าโมเดลจะสร้างบทสนทนาที่ซิงก์กับปาก บรรยากาศเอฟเฟกต์เสียง และคิวดนตรีเป็นส่วนหนึ่งของผลลัพธ์วิดีโอ โดยไม่ต้องพึ่ง TTS แยกต่างหากหรือขั้นตอนโพสต์โปรดักชัน นอกจากนี้ยังมาพร้อมการควบคุมเชิงเรื่องเล่าแบบใหม่ (ภาพอ้างอิง การทรานซิชันระหว่างเฟรมแรกและเฟรมสุดท้าย และฟีเจอร์ขยายฉาก) เพื่อทำให้เรื่องเล่าแบบหลายช็อตมีความสอดคล้องมากขึ้น

ทำไมสิ่งนี้จึงสำคัญ: เสียงคือวิธีที่ผู้ชมตีความพื้นที่ อารมณ์ จังหวะเวลา และความเป็นเหตุเป็นผล การสร้างเสียงแบบเนทีฟ (บทสนทนาที่ตรงกับการขยับปาก SFX ที่ตรงกับเหตุการณ์ที่เห็น และบรรยากาศเสียงพื้นหลังที่สอดคล้องกับภูมิศาสตร์ของฉาก) ช่วยลดงานแมนนวลที่ต้องใช้ในการทำให้คลิป “สมจริง” และช่วยให้ครีเอเตอร์ปรับแต่งเรื่องราวและอารมณ์ได้เร็วขึ้น

Veo 3.1 สร้างเสียงได้หรือไม่ — และทำเสียงแบบใดได้บ้าง?

สร้างเสียงภายในโมเดลอย่างไร?

Veo 3.1 มองว่าเสียงเป็นโหมดเอาต์พุตที่บูรณาการอยู่ในไปป์ไลน์การสร้างวิดีโอ แทนที่จะส่งเฟรมวิดีโอไปยังเอนจิน TTS หรือ Foley แยกต่างหาก กระบวนการสร้างของ Veo จะจำลองสตรีมภาพและเสียงร่วมกัน เพื่อให้จังหวะเวลา สัญญาณอะคูสติก และเหตุการณ์เชิงภาพสอดคล้องกัน การจำลองร่วมกันนี้ทำให้เกิดสิ่งต่างๆ เช่น บทสนทนาระหว่างตัวละคร ซาวด์สเคปบรรยากาศ และ SFX ที่ซิงก์กับภาพที่สร้างขึ้นได้อย่างเป็นธรรมชาติ “richer native audio” และการสร้างเสียงแบบซิงโครไนซ์ถูกชูเป็นไฮไลต์สำคัญใน 3.1

ทำไมความสามารถด้านเสียงจึงสำคัญ

ในอดีต ระบบ text-to-video หลายตัวสร้างวิดีโอเงียบและปล่อยให้เสียงเป็นไปป์ไลน์ภายหลัง Veo 3.1 เปลี่ยนสิ่งนี้ด้วยการสร้างเสียงในพาสเดียวกับวิดีโอ — ลดภาระมิกซ์เสียงด้วยมือ บังคับความตรงของการลิปซิงก์สำหรับประโยคสั้นๆ และทำให้พรอมป์ต์ควบคุมเหตุการณ์เชิงสาเหตุของเสียงได้ (เช่น “แก้วแตกในจังหวะที่กล้องแพนซ้าย”) ซึ่งมีนัยสำคัญต่อความเร็วการผลิต การออกแบบเชิงวนรอบ และการโปรโตไทป์เชิงสร้างสรรค์

Veo 3.1 สร้างเสียงแบบใดได้บ้าง?

บทสนทนา / คำพูด — บทสนทนาหลายผู้พูดที่จังหวะตรงกับริมฝีปากและการกระทำ
ซาวด์สเคปบรรยากาศ — เสียงสภาพแวดล้อม (ลม รถผ่าน โทนเสียงห้อง) ที่เข้ากับภูมิศาสตร์ของฉาก
เอฟเฟกต์เสียง (SFX) — แรงปะทะ การกระแทก ประตู ฝีเท้า ฯลฯ ที่จับจังหวะกับเหตุการณ์ในภาพ
คิวดนตรี — ท่อนมอทิฟสั้นๆ หรือการขับเน้นอารมณ์ที่เข้ากับจังหวะของฉาก

เสียงเหล่านี้ถูกสร้างแบบเนทีฟและถูกกำหนดทิศทางหลักๆ ด้วยเนื้อหาในพรอมป์ต์ แทนที่จะต้องกำหนดพารามิเตอร์เสียงแยกต่างหาก

ข้อจำกัดทางเทคนิคและความยาว

โดยเริ่มต้น Veo 3.1 ถูกออกแบบมาสำหรับคลิปสั้นคุณภาพสูง (เอาต์พุต 8 วินาทีคุณภาพสูงสำหรับบางโฟลว์) แต่โมเดลยังรองรับ scene extension และสะพานการสร้าง (เฟรมแรก→เฟรมสุดท้าย การขยายจากวินาทีสุดท้าย) ที่ช่วยให้สร้างลำดับหลายคลิปยาวหลายสิบวินาทีจนถึง 1 นาทีขึ้นไปเมื่อเย็บต่อกันด้วย Scene Extension

วิธีสร้างเสียงด้วย Veo 3.1 (โดยตรง ผ่าน Google Gemini / Vertex)

ขั้นตอนที่ 1: ข้อกำหนดเบื้องต้น

บัญชี Google ที่มีสิทธิ์เข้าถึง Gemini API / Vertex AI และมี API key / หลักฐานยืนยันตัวตนที่ถูกต้อง (Veo 3.1 อยู่ในช่วง paid preview สำหรับหลายช่องทางการเข้าถึง)
ติดตั้งและตั้งค่าไคลเอนต์ Google genai / Gemini หรือ REST endpoint ในสภาพแวดล้อมของคุณ (หรือใช้ไคลเอนต์ Vertex หากต้องการคอนโซลคลาวด์)

ขั้นตอนที่ 2: เลือกโมเดลและวิธีเข้าถึงที่ถูกต้อง

ใช้ veo-3.1-generate-preview (หรือ veo-3.1-fast หากให้ความสำคัญกับความเร็ว/ต้นทุน) สตริงโมเดลเหล่านี้ปรากฏในตัวอย่างของ Google สำหรับการเข้าถึงแบบพรีวิว คุณต้องมี Gemini API / Google AI แบบชำระเงิน (หรือเข้าถึงผ่าน AI Studio / Vertex AI)

ขั้นตอนที่ 3: ตัวอย่าง Python — ไคลเอนต์ Gemini `genai` (แนะนำ คัดลอก/วางได้)

ตัวอย่างนี้แสดงโครงของการเรียกแบบโปรแกรม (Python, ไคลเอนต์ google.genai) โดยสาธิตการให้พรอมป์ต์ข้อความที่มีคำสั่งเกี่ยวกับเสียง

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

หมายเหตุ: ไฟล์ที่ส่งคืนโดยทั่วไปคือ MP4 ที่มีแทร็กเสียงที่สร้างไว้ภายใน องค์ประกอบสำคัญในการควบคุมเสียงคือคำสั่งเสียงเชิงบรรยายที่ฝังอยู่ในพรอมป์ต์ Veo 3.1 ตอบสนองต่อคำสั่งเสียงด้วยภาษาธรรมชาติ เพื่อสร้างแทร็กเสียงที่ซิงก์กัน

ขั้นตอนที่ 3 — การใช้ภาพอ้างอิงและ “Ingredients to video”

เพื่อคงรูปลักษณ์ของตัวละครและคิวเสียงให้สม่ำเสมอ คุณสามารถส่งภาพอ้างอิงได้สูงสุดสามภาพที่ Veo ใช้เพื่อคงสไตล์ภาพและความต่อเนื่อง การเรียกสร้างเดียวกันรองรับ reference_images=[...] แนะนำเมื่อคุณต้องการเสียงหรือเอกลักษณ์เชิงเสียงของตัวละครที่คงที่ (เช่น เสียงบานประตูเดิมที่เอี๊ยดทุกครั้ง)

ขั้นตอนที่ 4 — ขยายฉาก (Scene extension) พร้อมความต่อเนื่องของเสียง

Veo 3.1 รองรับ “scene extension” ซึ่งจะสร้างคลิปใหม่จากวินาทีสุดท้ายของคลิปก่อนหน้าเพื่อสร้างลำดับที่ยาวขึ้น — และเสียงจะถูกขยายโดยคงความต่อเนื่อง (บรรยากาศพื้นหลัง ดนตรีที่กำลังเล่น ฯลฯ) ใช้พารามิเตอร์ video=video_to_extend ในการเรียก generate_videos

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

ขั้นตอนที่ 5 — สะพานเชื่อมเฟรมแรกและเฟรมสุดท้าย (พร้อมเสียง)

หากต้องการทรานซิชันที่ลื่นไหลระหว่างสองเฟรม (เช่น การมอร์ฟจากกลางวันเป็นพลบค่ำ) ให้ระบุ image=first_frame และ last_frame=last_frame และใส่คำสั่งเสียงในพรอมป์ต์ Veo จะสร้างเฟรมทรานซิชันพร้อมเสียงที่สะท้อนความเปลี่ยนแปลงของภาพ โดยปกติ Veo จะส่งคืนไฟล์ MP4 ที่มิกซ์เสียงเป็นแทร็กเดียว

ใช้เครื่องมือเสียงใน Veo 3.1 อย่างไร?

1) CometAPI ทำอะไรและทำไมถึงควรใช้

CometAPI ให้คุณเข้าถึงหลายโมเดลผ่าน “REST endpoint แบบสไตล์ OpenAI เดียว” (รวมถึง Veo ของ Google) ซึ่งมีประโยชน์หากคุณต้องการจุดบูรณาการเดียว (บิลลิง โควตา ความสอดคล้องของ SDK) และไม่อยากจัดการคีย์จากหลายผู้ให้บริการ Comet ระบุว่า Veo 3.1 มีให้บริการในหมวดโมเดลวิดีโอของตน

2) โฟลว์พื้นฐานในการเรียก Veo 3.1 ผ่าน CometAPI

สมัคร CometAPI และสร้าง API key
ยืนยันตัวระบุโมเดลในแค็ตตาล็อกของ Comet ("Veo 3.1"/"veo3.1-pro")
ใช้ endpoint แบบสไตล์ OpenAI ของ CometAPI (หรือ SDK ของพวกเขา) และตั้งค่า model เป็นชื่อโมเดล Veo Comet จะส่งคำขอของคุณต่อไปยัง Google ให้

Veo3.1 การสร้างแบบอะซิงโครนัส API นี้พัฒนาด้วยเทคโนโลยีของเราเองและมีข้อจำกัดดังต่อไปนี้: ความยาววิดีโอตายตัวที่ 8 วินาทีและไม่สามารถปรับแต่งได้
หากพบปัญหา โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิค

ตัวอย่างคำขอ

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

แนวทางปฏิบัติที่ดีที่สุดสำหรับการเขียนพรอมป์ต์ที่คำนึงถึงเสียงใน Veo 3.1

ออกแบบพรอมป์ต์เพื่อเสียงที่ดี (ควรใส่อะไรบ้าง)

ใช้ “เลนเสียง” ที่มีโครงสร้างในพรอมป์ต์ กลุ่มขั้นต่ำที่แนะนำ:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

เคล็ดลับสำคัญ: ใส่ป้ายกำกับเลน เพิ่มจุดยึดเวลาแบบสั้น (เช่น ที่ 1.6s) อธิบายลักษณะของเสียงและคาแรกเตอร์ (เช่น “รีเวิร์บอ่อน การขึ้นเสียงช้า”) และหากต้องการแพนสเตอริโอให้ใส่คำกำกับ L / R หรือ L→R การทำงานแบบวนรอบเป็นเรื่องปกติ — สร้างคลิปสั้น (4–8 วินาที) แล้วค่อยขยายต่อ

โครงสร้างและโทนของพรอมป์ต์

ใช้เลนที่มีโครงสร้าง: ใส่ป้ายกำกับ “Ambience:”, “SFX:”, “Music:”, และ “Dialogue:” ให้ชัดเจน เจเนอเรเตอร์ทำงานได้ดีขึ้นเมื่อเจอแพทเทิร์นที่คาดเดาได้
ระบุจังหวะเวลาให้ชัด: จุดยึดเวลาแบบสั้น (เช่น “sfx: ประตูปังที่ 1.6s”) ช่วยเรื่องการซิงก์ หากต้องการความแม่นระดับเฟรม ให้ลอง–ปรับหลายรอบ
บรรยายลักษณะเสียง: แทนที่จะบอกว่า “ซินธ์” ให้บอกว่า “แพดนุ่ม การขึ้นช้า อารมณ์ 80 BPM” เพื่อกำหนดทิศทางมู้ดดนตรี

ความสอดคล้องจากภาพ → เสียง

หากคุณให้ภาพอ้างอิงหรือเฟรมเริ่มต้น ให้บอกด้วยว่าเสียงควรมาจากทิศใด (เช่น “Ambience: เมืองที่ถูกอับเสียงจากด้านซ้าย ใกล้กล้อง; รถผ่านควรแพน L→R”) จะช่วยให้ได้คิวสเตอริโอที่สมจริงและการระบุตำแหน่งแหล่งเสียงที่น่าเชื่อถือ

เวิร์กโฟลว์แบบวนรอบ

สร้างคลิปสั้น (4–8 วินาที) แล้วประเมินการซิงก์เสียง
หากต้องการเรื่องเล่าที่ยาวขึ้น ใช้ Scene Extension เพื่อขยายคลิป โดยรักษาวินาทีสุดท้ายเป็นเมล็ดความต่อเนื่อง
เพื่อความสม่ำเสมอของตัวละคร (โทนเสียง สำเนียง) ใช้ภาพอ้างอิงและทวนคำบรรยายเสียงของตัวละครเดิมระหว่างคลิป อาจใช้ “voice anchor” แบบสั้นๆ ซ้ำๆ (เช่น “ALICE — สำเนียง mid-Atlantic นุ่ม”) เพื่อคงเสถียรภาพของเสียง

บันทึกด้านโพสต์โปรดักชัน

Veo ให้ไฟล์ MP4 พร้อมเสียงฝังเป็นจุดเริ่มต้น สำหรับงานมิกซ์ขั้นสูง (แยกแชนเนล แยกสเต็มบทสนทนา/ดนตรี) คุณอาจยังต้องดึงเสียงไปทำใน DAW — Veo ถูกออกแบบหลักๆ สำหรับการสร้างแบบไฟล์เดียวแบบบูรณาการ เวิร์กโฟลว์ของบุคคลที่สามมักใช้ Veo เพื่อสร้างฐาน แล้วค่อยแก้เสียงใน DAW เพื่อมิกซ์ระดับเผยแพร่

ตัวอย่างพรอมป์ต์ (คัดลอก-วางได้ทันที)

1 — บรรยากาศ + เอฟเฟกต์ + บทสนทนาสั้นที่ฟังเป็นธรรมชาติ

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — จังหวะหนักด้าน Foley และแอ็กชัน

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — บรรยากาศภาพยนตร์ + เสียงตัวละคร

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— บทสนทนาแน่น + SFX (คลิปสั้น ระบุเวลาอย่างชัดเจน)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — ฉากเน้นบรรยากาศ (โทนนุ่ม ไม่เคร่ง SFX)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — การสนทนาแบบหลายผู้พูด (stagged)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."

เสียงของ Veo 3.1 เปรียบเทียบกับเสียงของ Sora 2 อย่างไร?

ทั้งสอง Veo 3.1 และ Sora 2 ของ OpenAI รองรับการสร้างเสียงที่ซิงก์กับวิดีโอที่สร้างขึ้น ทั้งคู่ถูกวางเป็นโมเดลสร้างมีเดียระดับเรือธงของแต่ละค่ายและเน้นความสอดคล้องระหว่างภาพ–เสียงที่สมจริง ทั้งสองมี API เผยแพร่

ความแตกต่างสำคัญ

โฟกัสของโมเดลและความยาว: Veo 3.1 เน้นความสามารถในการควบคุมด้วยฟีเจอร์อย่างเฟรมแรก/สุดท้าย การขยายฉากสำหรับลำดับที่ยาวขึ้น และการคอนดิชันด้วยภาพอ้างอิงเพื่อรักษาความสม่ำเสมอของตัวละครและเสียงข้ามหลายช็อต Sora 2 ถูกวางเป็นโมเดลเรือธงที่สร้างวิดีโอพร้อมเสียงซิงก์; Sora 2 Pro เน้นความคมชัดสูงและการจูนสมดุลคุณภาพ/ต้นทุน (ระดับ Pro เพื่อความเที่ยงตรงสูงกว่า) Veo 3.1 ชูจุดเด่นด้าน scene extension และลำดับหลายพรอมป์ต์อย่างชัดเจน
การบูรณาการแพลตฟอร์ม: Veo 3.1 บูรณาการในระบบนิเวศ Gemini ของ Google (แอป Gemini, Flow, Gemini API, Vertex AI) ขณะที่ Sora 2 เป็นโมเดลแพลตฟอร์มของ OpenAI พร้อม API และแอป Sora บน iOS; โครงสร้างราคาและเอ็นด์พอยต์แตกต่างกัน (เอกสาร Sora 2 แสดงราคาแบบคิดตามวินาที) เลือกตามโครงสร้างคลาวด์และข้อกำกับดูแลที่คุณต้องการ
การควบคุมวิดีโอแบบละเอียด: Veo 3.1 ระบุเครื่องมือสร้างสรรค์หลายอย่าง (Ingredients to Video, Scene Extension, First/Last Frame) ที่ช่วยลดเวลาวนรอบสำหรับงานเล่าเรื่อง Sora 2 เน้นเสียงซิงก์และความแม่นยำทางฟิสิกส์ของการเคลื่อนไหว; ทั้งคู่มีเครื่องมือควบคุม แต่กระบวนทัศน์และ SDK แตกต่างกัน

ผลเชิงปฏิบัติสำหรับโปรเจกต์ที่เน้นเสียง

หากคุณให้ความสำคัญกับวิดีโอช็อตเดียวคุณภาพสูงพร้อมเสียงซิงก์และโมเดลราคาต่อวินาทีที่เรียบง่าย → Sora 2 เป็นคู่แข่งที่แข็งแกร่ง; ทดสอบทั้งสองบนแอสเซ็ตและงบของคุณ

หากคุณต้องการเรื่องเล่าต่อเนื่องยาวที่มีมอทิฟเสียงคงที่ข้ามหลายช็อต → Scene Extension และการคอนดิชันด้วยภาพอ้างอิงของ Veo 3.1 ทำให้เป็นตัวเลือกที่น่าสนใจ

บทสรุปเชิงใช้งานจริง: ควรใช้ Veo 3.1 เมื่อใด (คำแนะนำที่เน้นเสียง)

ใช้ Veo 3.1 เมื่อ คุณต้องการลำดับหลายช็อตที่ควบคุมได้ซึ่งมีตัวละครสม่ำเสมอ และเสียงแบบบูรณาการที่สนับสนุนความต่อเนื่องของเรื่องเล่า จุดเด่นของ Veo 3.1 ได้แก่ การขยายฉาก เฟรมแรก/สุดท้าย และการคอนดิชันด้วยภาพอ้างอิง — เหมาะอย่างยิ่งสำหรับคอนเทนต์สั้นแบบตอนต่อที่ต้องการความต่อเนื่องด้านเสียง

นักพัฒนาสามารถเข้าถึง Veo 3.1 และ Sora 2 ผ่าน CometAPI เพื่อเริ่มต้น สำรวจความสามารถของโมเดลบน CometAPI ใน Playground และดูคู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้ล็อกอิน CometAPI และได้รับ API key แล้ว CometAPI มีราคาเสนอที่ต่ำกว่าราคาอย่างเป็นทางการเพื่อช่วยให้คุณบูรณาการได้สะดวก

พร้อมเริ่มหรือยัง?→ ทดลองใช้ฟรี Veo 3.1!

Veo 3.1 คืออะไร?

Veo 3.1 สร้างเสียงได้หรือไม่ — และทำเสียงแบบใดได้บ้าง?

สร้างเสียงภายในโมเดลอย่างไร?

ทำไมความสามารถด้านเสียงจึงสำคัญ

Veo 3.1 สร้างเสียงแบบใดได้บ้าง?

ข้อจำกัดทางเทคนิคและความยาว

วิธีสร้างเสียงด้วย Veo 3.1 (โดยตรง ผ่าน Google Gemini / Vertex)

ขั้นตอนที่ 1: ข้อกำหนดเบื้องต้น

ขั้นตอนที่ 2: เลือกโมเดลและวิธีเข้าถึงที่ถูกต้อง

ขั้นตอนที่ 3: ตัวอย่าง Python — ไคลเอนต์ Gemini `genai` (แนะนำ คัดลอก/วางได้)

ขั้นตอนที่ 3 — การใช้ภาพอ้างอิงและ “Ingredients to video”

ขั้นตอนที่ 4 — ขยายฉาก (Scene extension) พร้อมความต่อเนื่องของเสียง

ขั้นตอนที่ 5 — สะพานเชื่อมเฟรมแรกและเฟรมสุดท้าย (พร้อมเสียง)

ใช้เครื่องมือเสียงใน Veo 3.1 อย่างไร?

1) CometAPI ทำอะไรและทำไมถึงควรใช้

2) โฟลว์พื้นฐานในการเรียก Veo 3.1 ผ่าน CometAPI

ตัวอย่างคำขอ

แนวทางปฏิบัติที่ดีที่สุดสำหรับการเขียนพรอมป์ต์ที่คำนึงถึงเสียงใน Veo 3.1

ออกแบบพรอมป์ต์เพื่อเสียงที่ดี (ควรใส่อะไรบ้าง)

โครงสร้างและโทนของพรอมป์ต์

ความสอดคล้องจากภาพ → เสียง

เวิร์กโฟลว์แบบวนรอบ

บันทึกด้านโพสต์โปรดักชัน

ตัวอย่างพรอมป์ต์ (คัดลอก-วางได้ทันที)

1 — บรรยากาศ + เอฟเฟกต์ + บทสนทนาสั้นที่ฟังเป็นธรรมชาติ

2 — จังหวะหนักด้าน Foley และแอ็กชัน

3 — บรรยากาศภาพยนตร์ + เสียงตัวละคร

4— บทสนทนาแน่น + SFX (คลิปสั้น ระบุเวลาอย่างชัดเจน)

5 — ฉากเน้นบรรยากาศ (โทนนุ่ม ไม่เคร่ง SFX)

6 — การสนทนาแบบหลายผู้พูด (stagged)

เสียงของ Veo 3.1 เปรียบเทียบกับเสียงของ Sora 2 อย่างไร?

ความแตกต่างสำคัญ

ผลเชิงปฏิบัติสำหรับโปรเจกต์ที่เน้นเสียง

บทสรุปเชิงใช้งานจริง: ควรใช้ Veo 3.1 เมื่อใด (คำแนะนำที่เน้นเสียง)

เข้าถึงโมเดลชั้นนำ ด้วยต้นทุนต่ำ

อ่านเพิ่มเติม

Veo 3.1 รองรับเสียงไหม? และควรใช้งานอย่างมืออาชีพอย่างไร?

Veo 3.1 คืออะไร?

Veo 3.1 สร้างเสียงได้หรือไม่ — และทำเสียงแบบใดได้บ้าง?

สร้างเสียงภายในโมเดลอย่างไร?

ทำไมความสามารถด้านเสียงจึงสำคัญ

Veo 3.1 สร้างเสียงแบบใดได้บ้าง?

ข้อจำกัดทางเทคนิคและความยาว

วิธีสร้างเสียงด้วย Veo 3.1 (โดยตรง ผ่าน Google Gemini / Vertex)

ขั้นตอนที่ 1: ข้อกำหนดเบื้องต้น

ขั้นตอนที่ 2: เลือกโมเดลและวิธีเข้าถึงที่ถูกต้อง

ขั้นตอนที่ 3: ตัวอย่าง Python — ไคลเอนต์ Gemini genai (แนะนำ คัดลอก/วางได้)

ขั้นตอนที่ 3 — การใช้ภาพอ้างอิงและ “Ingredients to video”

ขั้นตอนที่ 4 — ขยายฉาก (Scene extension) พร้อมความต่อเนื่องของเสียง

ขั้นตอนที่ 5 — สะพานเชื่อมเฟรมแรกและเฟรมสุดท้าย (พร้อมเสียง)

ใช้เครื่องมือเสียงใน Veo 3.1 อย่างไร?

1) CometAPI ทำอะไรและทำไมถึงควรใช้

2) โฟลว์พื้นฐานในการเรียก Veo 3.1 ผ่าน CometAPI

ตัวอย่างคำขอ

แนวทางปฏิบัติที่ดีที่สุดสำหรับการเขียนพรอมป์ต์ที่คำนึงถึงเสียงใน Veo 3.1

ออกแบบพรอมป์ต์เพื่อเสียงที่ดี (ควรใส่อะไรบ้าง)

โครงสร้างและโทนของพรอมป์ต์

ความสอดคล้องจากภาพ → เสียง

เวิร์กโฟลว์แบบวนรอบ

บันทึกด้านโพสต์โปรดักชัน

ตัวอย่างพรอมป์ต์ (คัดลอก-วางได้ทันที)

1 — บรรยากาศ + เอฟเฟกต์ + บทสนทนาสั้นที่ฟังเป็นธรรมชาติ

2 — จังหวะหนักด้าน Foley และแอ็กชัน

3 — บรรยากาศภาพยนตร์ + เสียงตัวละคร

4— บทสนทนาแน่น + SFX (คลิปสั้น ระบุเวลาอย่างชัดเจน)

5 — ฉากเน้นบรรยากาศ (โทนนุ่ม ไม่เคร่ง SFX)

6 — การสนทนาแบบหลายผู้พูด (stagged)

เสียงของ Veo 3.1 เปรียบเทียบกับเสียงของ Sora 2 อย่างไร?

ความแตกต่างสำคัญ

ผลเชิงปฏิบัติสำหรับโปรเจกต์ที่เน้นเสียง

บทสรุปเชิงใช้งานจริง: ควรใช้ Veo 3.1 เมื่อใด (คำแนะนำที่เน้นเสียง)

เข้าถึงโมเดลชั้นนำ ด้วยต้นทุนต่ำ

อ่านเพิ่มเติม

ขั้นตอนที่ 3: ตัวอย่าง Python — ไคลเอนต์ Gemini `genai` (แนะนำ คัดลอก/วางได้)