هل يدعم Veo 3.1 الصوت؟ وكيف ينبغي استخدامه بشكل احترافي؟

CometAPI
AnnaDec 26, 2025
هل يدعم Veo 3.1 الصوت؟ وكيف ينبغي استخدامه بشكل احترافي؟

Veo 3.1 تُولِّد صوتًا متزامنًا أصليًا مع الفيديو عند استدعاء نقاط نهاية Gemini/Vertex (Veo) — تتحكم في الصوت عبر نص الحثّ (إشارات صوتية، سطور حوار، مؤثرات SFX، أجواء)، ويُعيد نفس إجراء التوليد ملف MP4 يمكن تنزيله. إذا فضّلت واجهة برمجة واحدة موحّدة تجمع مزوّدين عدة، فإن CometAPI تتيح أيضًا الوصول إلى Veo 3.1 (تستدعي CometAPI بمفتاح Comet وتطلب veo3.1/veo3.1-pro). الإصدار مُوضع كمنافس مباشر لنماذج الوسائط الأخرى (مثل Sora 2 من OpenAI)، مع تحسينات تركّز على واقعية الصوت، التحكّم السردي واستمرارية لقطات متعددة.

ما هو Veo 3.1؟

Veo 3.1 هو أحدث إصدار من عائلة Veo لنماذج النص والصورة إلى الفيديو من Google. مقارنة بإصدارات Veo السابقة، يبرز Veo 3.1 تحديدًا التوليد الصوتي الأصلي — أي أن النموذج ينتج حوارًا متزامنًا، وأجواء، ومؤثرات صوتية وموسيقى كجزء من مخرجات الفيديو بدلاً من الحاجة إلى خطوة تحويل نص إلى كلام أو ما بعد الإنتاج بشكل منفصل. كما يجلب أدوات سرد جديدة (صور مرجعية، انتقالات الإطار الأول والأخير، وميزات إطالة المشهد) تهدف إلى جعل القصص متعددة اللقطات أكثر اتساقًا.

لماذا هذا مهم: الصوت هو كيف يفسّر المشاهدون المكان، والعاطفة، والتوقيت والسببية. التوليد الصوتي الأصلي (حوار يتطابق مع حركة الشفاه، ومؤثرات SFX مضبوطة وفق الأحداث المرئية، وأجواء خلفية تتوافق مع جغرافيا المشهد) يقلّل العمل اليدوي المطلوب لجعل المقطع يبدو “حقيقيًا” ويسمح للمبدعين بالتكرار بشكل أسرع على القصة والمزاج.

هل يمكن لـ Veo 3.1 إنتاج الصوت — وما أنواع الصوت التي يستطيع إنتاجها؟

كيف يُنتج الصوت داخل النموذج؟

يتعامل Veo 3.1 مع الصوت كوسيط إخراج مدمج ضمن خط توليد الفيديو. بدلًا من إرسال إطارات الفيديو إلى محرك TTS أو Foley منفصل، يُنمذج Veo العملية بشكل مشترك لتيارات الصوت والصورة بحيث يكون التوقيت، الإشارات الصوتية والأحداث المرئية متّسقة. هذا النمذجة المشتركة هي ما يُمكّن أمورًا مثل المحادثات، مناظر الصوت المحيطي، والمؤثرات الصوتية المتزامنة لتظهر متوافقة طبيعيًا مع الصور المُنتَجة. ويبرز “richer native audio” وتوليد الصوت المتزامن كتحسينات رئيسية في 3.1.

لماذا تُعد القدرة الصوتية أمرًا كبيرًا

تاريخيًا، العديد من أنظمة النص إلى فيديو كانت تنتج فيديو صامت وتترك الصوت لخط لاحق. يغيّر Veo 3.1 ذلك عبر إنتاج الصوت في نفس تمريرة التوليد — مما يقلّل جهد المزج اليدوي، يفرض مزامنة شفوية أكثر إحكامًا للجُمل القصيرة، ويسمح لنص الحثّ بالتحكم في الأحداث الصوتية السببية (مثل: “زجاج يتحطّم بينما تتحرك الكاميرا يسارًا”). لهذا آثار كبيرة على سرعة الإنتاج، التصميم التكراري، والنمذجة الإبداعية الأولية.

ما أنواع الصوت التي يمكن لـ Veo 3.1 إنشاؤها؟

  • الحوار / الكلام — حوار متعدد المتحدثين بتوقيت يتوافق مع حركة الشفاه والأفعال.
  • مناظر صوت محيطية — صوت بيئي (رياح، حركة مرور، نبرة غرفة) يناسب جغرافيا المشهد.
  • مؤثرات صوتية (SFX) — ضربات، اصطدامات، أبواب، خطوات، إلخ، مضبوطة على الأحداث المرئية.
  • إشارات موسيقية — موتيفات موسيقية قصيرة أو تظليل مزاجي يتوافق مع إيقاع المشهد.

تُولَّد هذه الأنواع صوتيًا بشكل أصلي وتُوجَّه أساسًا بمحتوى نص الحثّ بدلًا من معلمات صوتية منفصلة.

الحدود التقنية والطول

افتراضيًا، تم هندسة Veo 3.1 لمقاطع قصيرة عالية الجودة (مخرجات 8 ثوانٍ عالية الجودة لبعض التدفقات)، لكن النموذج يدعم أيضًا Scene Extension وجسور التوليد (الإطار الأول → الأخير، التمديد من الثانية النهائية) التي تمكّن تسلسلات متعددة المقاطع تمتد لعشرات الثواني حتى دقيقة أو أكثر عند وصْلها عبر Scene Extension.

كيف تُولِّد الصوت باستخدام Veo 3.1 (مباشر عبر Google Gemini / Vertex)

الخطوة 1: المتطلبات الأساسية

  1. حساب Google مع إمكانية الوصول إلى Gemini API / Vertex AI ومفتاح API / بيانات اعتماد صالحة (Veo 3.1 في معاينة مدفوعة لعدة مسارات وصول).
  2. إعداد عميل Google genai / Gemini أو نقطة REST في بيئتك (أو عميل Vertex إذا فضّلت وحدة تحكم السحابة).

الخطوة 2: اختيار النموذج والوصول المناسبين

استخدم veo-3.1-generate-preview (أو veo-3.1-fast حيث تكون السرعة/التكلفة أولوية). تظهر هذه سلاسل النماذج في أمثلة Google للوصول التجريبي. تحتاج إلى مفتاح Gemini API / Google AI مدفوع (أو وصول عبر AI Studio / Vertex AI).


الخطوة 3: مثال Python — عميل Gemini genai (مُوصى به، نسخ/لصق)

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

ملاحظات: يكون الملف المُعاد عادةً MP4 يتضمن مسار الصوت المُولّد. العنصر الأساسي للتحكم بالصوت أعلاه هو تعليمات صوتية وصفية مُضمّنة في نص الحثّ. يستجيب Veo 3.1 لتوجيهات صوتية باللغة الطبيعية لتوليد مسارات صوتية متزامنة.

الخطوة 3 — استخدام الصور المرجعية و“Ingredients to video”

للحفاظ على اتساق مظهر الشخصيات والإشارات الصوتية، يمكنك تمرير ما يصل إلى ثلاث صور مرجعية يستخدمها Veo للحفاظ على الأسلوب البصري والاستمرارية. يدعم نفس نداء التوليد reference_images=[...]. يُوصى بهذا عندما تتوقع أصواتًا متسقة أو أصواتًا اعتيادية لشخصية (مثل صرير باب متكرر).

الخطوة 4 — إطالة المشاهد (Scene extension) مع استمرارية صوتية

يدعم Veo 3.1 “Scene Extension”، حيث تُولّد لقطات جديدة انطلاقًا من الثانية الأخيرة من لقطة سابقة لإنشاء تسلسلات أطول — ويُمدَّد الصوت بطريقة تحافظ على الاستمرارية (أجواء الخلفية، موسيقى مستمرة، إلخ). استخدم المعلمة video=video_to_extend في نداء generate_videos.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

الخطوة 5 — جسر الإطار الأول والأخير (مع الصوت)

إذا أردت انتقالًا سلسًا بين إطارين (مثل تحويل لقطة نهارية إلى لقطة غسق)، قدّم image=first_frame وlast_frame=last_frame وأدرج توجيهًا صوتيًا في النص. سيُولّد Veo إطارات انتقالية بالإضافة إلى صوت يعكس التقدّم البصري. يُعيد Veo عادةً مسارًا صوتيًا مختلطًا واحدًا داخل MP4.

كيف تستخدم أدوات الصوت في Veo 3.1؟

1) ما الذي يقدّمه CometAPI ولماذا تستخدمه

يمنحك CometAPI نقطة REST واحدة بأسلوب OpenAI للوصول إلى نماذج عديدة (بما فيها Veo من Google). هذا مفيد إن أردت نقطة تكامل واحدة (الفوترة، الحصص، اتساق SDK) ولا ترغب في إدارة مفاتيح مزوّدين متعددين. توثّق Comet أن Veo 3.1 مُقدّم بين نماذج الفيديو لديهم.

2) التدفق الأساسي لاستدعاء Veo 3.1 عبر CometAPI

  1. سجّل في CometAPI وأنشئ مفتاح API.
  2. أكّد المعرّف الدقيق للنموذج في كتالوج Comet ("Veo 3.1"/"veo3.1-pro").
  3. استخدم نقطة CometAPI بأسلوب OpenAI (أو SDK الخاص بهم) واضبط الحقل model على اسم نموذج Veo. سيقوم Comet بتوجيه طلبك إلى Google نيابةً عنك.

Veo3.1 Async Generation، تم تنفيذ هذه الواجهة عبر تقنيتنا المطوّرة ذاتيًا مع القيود التالية: مدة الفيديو ثابتة عند 8 ثوانٍ ولا يمكن تخصيصها
يُرجى التواصل مع الدعم الفني إذا واجهت أي مشكلات

مثال طلب

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

ما أفضل الممارسات للحثّ الواعي بالصوت مع Veo 3.1؟

تصميم الحثّ لصوت جيد (ما الذي يجب تضمينه)

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

نصائح أساسية: ضع تسميات للمسارات الصوتية، أضف مؤشرات زمنية قصيرة (مثل at 1.6s)، صفّ الأداء العاطفي وطابع الصوت (مثل “صدى خفيف، هجمة بطيئة”)، وإذا احتجت إلى توزيع ستريو فاشرح التوجيه L / R أو L→R. عادةً ستكرّر — أنشئ مقطعًا قصيرًا (4–8 ثوانٍ)، ثم مُدِّد.

بنية الحثّ والنبرة

  • استخدم مسارات مُهيكلة: سمِّ كتل “Ambience:”، “SFX:”، “Music:”، و“Dialogue:”. تعمل المُولّدات بشكل أفضل مع الأنماط المتوقعة.
  • كن محددًا بشأن التوقيت: مؤشرات زمنية قصيرة (مثل “sfx: door slam at 1.6s”) تساعد في مزامنة محكمة. إذا كانت الدقة على مستوى الإطار ضرورية، كرّر وحسّن.
  • صف خصائص الصوت: بدلًا من “synth”، قل “لوحة ناعمة بهجمة بطيئة، إحساس 80 BPM” لتوجيه المزاج الموسيقي.

الاتساق بين الصورة → الصوت

إذا وفّرت صورة مرجعية أو إطار بداية، اذكر مصدر الصوت المتوقع (مثل: “Ambience: مدينة مكتومة من اليسار، أقرب إلى الكاميرا؛ مرور السيارة يجب أن يتحرّك L→R”). هذا يُنتج إشارات ستريو أكثر معقولية وتموضعًا إدراكيًا للمصدر.

سير عمل التكرار

  1. أنشئ مقطعًا قصيرًا (4–8 ثوانٍ) وقيّم مزامنة الصوت.
  2. إذا احتجت سردًا أطول، استخدم Scene Extension لنموّ المقطع مع الحفاظ على الثانية الأخيرة كبذرة استمرارية.
  3. لاتساق الشخصية (خامة الصوت، اللكنة)، استخدم صورًا مرجعية وكرر واصفات الصوت بين المقاطع. فكّر باستخدام خطوط نصية وجيزة كـ “مرساة صوت” متكررة (مثل: “ALICE — لكنة منتصف الأطلسي الناعمة”) للحفاظ على ثبات الصوت.

ملاحظات ما بعد الإنتاج

يوفّر Veo ملف MP4 ابتدائيًا مع صوت مضمن. للمزج المتقدّم (مسارات متعددة القنوات، مسارات منفصلة للحوار/الموسيقى)، قد تحتاج إلى استخراج الصوت وإعادة تركيبه في محطة عمل صوتية (DAW) — Veo مخصّص أساسًا للتوليد المدمج في ملف واحد. غالبًا ما تجمع التدفقات الخارجية بين Veo للتوليد الأساسي وتعديلات DAW للوصول إلى مزج بجودة التوزيع.

أمثلة حثّ (جاهزة للنسخ واللصق)

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


كيف يقارن صوت Veo 3.1 بصوت Sora 2؟

كلاهما يدعم خرجًا صوتيًا متزامنًا مرتبطًا بالفيديو المُولّد. كلاهما مُوضع كنموذج وسائط رئيسي من البائعين المعنيين ويؤكدان على اتساق الصوت والصورة الواقعي. كلاهما ينشر واجهات برمجية (APIs).

الفروقات الرئيسية

  • تركيز النموذج والطول: يؤكد Veo 3.1 على القابلية للتحكم بميزات مثل الإطار الأول/الأخير، Scene Extension للتسلسلات الأطول، والتكييف باستخدام الصور المرجعية للحفاظ على الشخصية واستمرارية الصوت عبر لقطات متعددة. يُقدَّم Sora 2 كنموذج رئيسي يُولِّد فيديو بصوت متزامن؛ يشدّد Sora 2 Pro على الدقة العالية والمفاضلات المضبوطة بين الجودة والتكلفة (فئة Sora 2 Pro لدقة أعلى). يدعو Veo 3.1 صراحةً إلى Scene Extension وتسلسلات متعددة الحثّ.
  • التكامل المنصّاتي: يتكامل Veo 3.1 عبر نظام Gemini من Google (تطبيق Gemini، Flow، Gemini API، Vertex AI) بينما يُقدَّم Sora 2 كنموذج منصة OpenAI مع نقاط API وتطبيق Sora لنظام iOS؛ تختلف الأسعار وبُنى النقاط (تُظهر وثائق Sora 2 مستويات تسعير لكل ثانية). اختر بناءً على بصمتك السحابية الحالية ومتطلبات الامتثال.
  • ضوابط الفيديو الدقيقة: يشير Veo 3.1 إلى عدة ضوابط إبداعية محدّدة (Ingredients to Video، Scene Extension، First/Last Frame) التي تُقلّل وقت التكرار لسير العمل السردي. يركّز Sora 2 على الصوت المتزامن والدقة الفيزيائية في الحركة؛ كلاهما يوفّر ضوابط، لكن الأساليب وSDK تختلف.

آثار عملية للمشاريع الثقيلة صوتيًا

إذا كنت تُعطي الأولوية لمقطع فيديو أحادي اللقطة عالي الدقة مع صوت متزامن خارج الصندوق ونموذج تسعير بسيط لكل ثانية → فإن Sora 2 منافس قوي؛ اختبر كلاهما على أصولك وميزانياتك المستهدفة.

إذا كنت تحتاج سردًا مستمرًا طويلًا مع موتيفات صوتية متسقة عبر اللقطات → فإن Scene Extension والتكييف بالصور المرجعية في Veo 3.1 تجعله جذابًا.

الحكم النهائي: متى تستخدم Veo 3.1 (توصيات محورية على الصوت)

استخدم Veo 3.1 عندما تحتاج إلى تسلسلات متعددة اللقطات مُتحكَّم بها مع شخصيات متسقة، وصوت مدمج يدعم استمرارية السرد. تتمثل نقاط قوة Veo 3.1 المميزة في Scene Extension، التحكّم بالإطار الأول/الأخير، والتكييف بالصور المرجعية — وكلها تجعل منه ممتازًا للمحتوى القصير المتسلسل أو الحلقي مع استمرارية صوتية.

يمكن للمطورين الوصول إلى Veo 3.1 وSora 2 عبر CometAPI. للبدء، استكشف قدرات النماذج في CometAPI في Playground واطّلع على دليل API للحصول على تعليمات مفصلة. قبل الوصول، تأكد من أنك سجلت الدخول إلى CometAPI وحصلت على مفتاح API. CometAPI تقدّم سعرًا أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

جاهز للانطلاق؟→ تجربة مجانية لـ Veo 3.1!

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%