قدمت جوجل علنًا فيو 3.1 (و Veo 3.1 Fast (متغير) في منتصف أكتوبر 2025 كنموذج محسّن لتحويل النص إلى فيديو ينتج مقاطع قصيرة عالية الدقة مع الصوت الأصلي، والالتزام السريع بشكل أفضل، وقدرات التحرير الجديدة مثل امتداد المشهد/المقطع, الاستيفاء من إطار إلى إطارو موجه بالصور الجيل (استخدم ما يصل إلى ثلاث صور مرجعية). يتوفر Veo 3.1 عبر API، يظهر في الجوزاء التطبيق و التدفق أداة إبداعية، ويتم عرضها على مطوري المؤسسات من خلال فيرتكس الذكاء الاصطناعي وGoogle AI Studio (يختلف التوفر باختلاف المنصة والخطة). يُتيح تكامل Flow المزيد من أدوات التحكم في تحرير واجهة المستخدم (الإضاءة/الظلال، وإدراج/إزالة الكائنات قريبًا)، بينما تُتيح واجهات برمجة التطبيقات للمطورين ميزات إنشاء البرامج والتوسعة.
سأقدم دليلاً حول كيفية تحرير مقاطع الفيديو عبر Veo 3.1 (Flow، CometAPI/Gemini API — خطوة بخطوة).
ماذا يفعل Veo 3.1 ومن أين جاء؟
Veo 3.1 هو أحدث إصدار من سلسلة نماذج الفيديو التوليدية من جوجل (Veo)، وهو مصمم لتحويل الرسائل النصية - واختياريًا الصور أو إطارات الفيديو الحالية - إلى مقاطع فيديو قصيرة ومتماسكة وواقعية أو منمقة مع صوت مُركّب (حوار، أصوات محيطة، مؤثرات صوتية). يُركز تحديث 3.1 على واقعية أفضل, صوت أصلي أكثر ثراءًو أدوات الاستمرارية (تمديد المشهد واستيفاء الإطار)، مما يجعل Veo بمثابة نظير مركزي للفيديو لنماذج النصوص والصور الخاصة بـ Google.
تتضمن الترقيات الرئيسية في الإصدار 3.1 ما يلي:
- تركيب الصوت والحوار الأصلي للمقاطع المولدة (لا حاجة إلى خط أنابيب صوتي منفصل).
- الاستيفاء من إطار إلى إطار (الإطار الأول والأخير يقودان المقطع الناتج).
- إنشاء موجه بالصور (استخدم ما يصل إلى ثلاث صور مرجعية للحفاظ على اتساق الأحرف/الأسلوب).
- تمديد المشهد (الحفاظ على الاستمرارية من خلال إنشاء مقاطع متصلة تم تصنيفها من الثانية الأخيرة من المقاطع السابقة).
- التزام سريع أفضل وضوابط سينمائية محسّنة.
أين يعمل Veo 3.1؟
Veo 3.1 متاح في Google API (معاينة مدفوعة الأجر)، Vertex AI / نموذج الحديقة, تطبيقات Gemini للجوال/الويب، وتم دمجها في العروض التوضيحية لبرنامجي Flow وVeo Studio. كوميت ايه بي اي وقد بدأت في دمج Veo أيضًا.
كيف يمكنني تعديل الفيديوهات عبر Veo 3.1 في Flow؟ خطوة بخطوة
فيما يلي، سأستعرض أكثر عمليات سير العمل البرمجية وواجهة المستخدم شيوعًا: التحرير في Flow (واجهة مستخدم المنشئ)، واستخدام تطبيق Gemini (التوليد السريع)، واستخدام Gemini API / Vertex AI برمجيًا (للإنتاج والأتمتة).
كيف أقوم بتحرير مقاطع الفيديو باستخدام Flow (واجهة المستخدم للمنشئ)؟
التدفق هي واجهة المستخدم الإبداعية من Google لصانعي الأفلام/المبدعين التي تدمج نماذج Veo للتوليد و مجموعة من أدوات التحرير (الإضاءة، التظليل، تركيب المشهد، أدوات إدراج/إزالة الكائنات). مع Veo 3.1 في Flow، يمكنك:
- إنشاء أو تجديد اللقطات بصوت أكثر ثراءً.
- استخدم "مكونات الفيديو" (قم بتحميل صور مرجعية للحصول على شخصيات/أنماط متسقة).
- قم بتمديد المشاهد أو تجميع لقطات متعددة معًا باستخدام Scene Extension (يربط المقاطع الجديدة بنهايات المقاطع السابقة).
- تطبيق إدراج الكائنات الأساسية وإزالتها (قريبًا) داخل واجهة المستخدم.
كيف أقوم بإجراء تعديل أساسي في Flow (خطوات عملية)؟
- قم بإنشاء/توليد مقطع البذور الخاص بك (مطالبة نصية أو مطالبة صورة).
- استخدم الجدول الزمني لتحديد نهاية المقطع واختر تمديد (امتداد المشهد) مع حث جديد لمواصلة العمل أو إضافة حركة. كل امتداد يضيف قفزة صغيرة يدمجها النظام للحفاظ على الاستمرارية.
- لتغيير الكائنات، استخدم أداة الإدراج (صف العنصر المراد إضافته ومكانه). للإزالة، استخدم أداة الإزالة من Flow عند توفرها، وتحقق من نتائج التركيب.
- قم بتصديرها، وإذا لزم الأمر، قم بتلميعها في برنامج تحرير غير خطي تقليدي (Premiere، DaVinci Resolve) لتدرج الألوان، أو الترجمة، أو القطع الدقيقة.
تم تصميم Flow لجعل التحرير الإبداعي التكراري سريعًا؛ تعامل معه مثل مزيج بين تحرير الجدول الزمني والاستبدالات التوليدية.
كيف أقوم بتحرير أو إنشاء مقاطع فيديو برمجيًا عبر واجهة برمجة تطبيقات Veo 3.1
هناك طريقتان برمجيتان رئيسيتان:
- واجهة برمجة تطبيقات Gemini (اللغة التوليدية / مجموعة أدوات تطوير البرامج Gemini) — تُستخدم لاستدعاء نماذج Veo مباشرةً للتوليد والتمديد (الأمثلة متوفرة في مستندات واجهة برمجة تطبيقات Gemini من Google).
- CometAPI (تنسيق OpenAI/الدردشة) - يوفر CometAPI إمكانية الوصول إلى صورة Gemini 3 Pro (Nano Banana Pro),الجوزاء 3 برو وأكثر من 100 نموذج ذكاء اصطناعي للدردشة والصور والموسيقى وإنشاء الفيديو، يمكنك الوصول إليها فيو 3.1 عبر نقطة الدردشة على غرار OpenAI.
يمكن وصف التحرير باستخدام Veo 3.1 بأنه عدة تدفقات منفصلة. يجمع كل تدفق مُدخلات النموذج (نص/صور/فيديو) وخطوة ما بعد المعالجة للحصول على نتائج جاهزة للإنتاج.
يتم عرض Veo 3.1 عبر واجهات برمجة التطبيقات. النمط النموذجي هو استمرار طويل الأمد generateVideos العملية — تقوم بنشر المهمة، واستطلاع العملية، وتنزيل ملف الإخراج بمجرد اكتمالها.
فيما يلي أمثلة مبسطة وقابلة للتنفيذ - يمكنك التكيف مع مفاتيح واجهة برمجة التطبيقات والبيئة الخاصة بك. راجع مجموعة أدوات تطوير البرامج (SDK) الخاصة ببيئتك وإرشادات المصادقة.
مثال JavaScript (Node) — التوليد والاستطلاع
يعتمد المثال على استخدام نمط واجهة برمجة التطبيقات Gemini.
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
هذا النمط (إرسال → استطلاع → تنزيل) هو الأسلوب الرسمي في مستندات Gemini.
هل يمكنني استخدام curl / REST بدلاً من Python SDK؟
نعم، تُعرض مجموعة أدوات تطوير البرامج (SDK) الرسمية على الويب، ولكن يُمكن استخدام الإصدار 3.1 الأساسي من veo عبر REST. تختلف التطبيقات باختلاف البيئات (Gemini API مقابل CometAPI REST). إذا كنت تُفضل curl، فتأكد من اتباع المصادقة الصحيحة (رموز Bearer من Google Cloud أو مفتاح cometAPI) واستخدم نقطة النهاية لإنشاء الفيديو الخاص بمنتجك. مثال على pseudo-curl لـ CometAPI (يُمكنك تكييفه مع مصادقتك ونقطة النهاية):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
مهم: يعتمد عنوان URL REST الدقيق وهيكل الحمولة على ما إذا كنت تستخدم الجوزاء API or كوميت ايه بي اي نقاط النهاية - راجع وثائق المنتج قبل إرسال الطلبات. تتولى مجموعات تطوير البرامج (SDKs) معالجة العديد من تفاصيل المصادقة والاستطلاع نيابةً عنك.
كيفية استخدام Veo 3.1 - ما هي سير العمل المدعومة؟
سأشرح أدناه التدفقات العملية التي ستستخدمها عند التحرير باستخدام Veo 3.1: تدفقات تجربة المستخدم (Flow/Gemini studio)، والتدفقات البرمجية (Gemini API / Vertex API). سأعرض لكل تدفق أمثلة وتحذيرات ومقاطع برمجية صغيرة يمكنك نسخها.
يمكن وصف التحرير باستخدام Veo 3.1 بأنه عدة تدفقات منفصلة. يجمع كل تدفق مُدخلات النموذج (نص/صور/فيديو) وخطوة ما بعد المعالجة للحصول على نتائج جاهزة للإنتاج.
عمليات التحرير الرئيسية
هناك ثلاث تدفقات تحرير عملية ستستخدمها بشكل متكرر:
- التحرير وإعادة الإنتاج المستند إلى النصوص - تغيير اللقطة عن طريق إعادة كتابة المطالبة أو تطبيق تعليمات جديدة على نفس المشهد.
- التحرير الموجه بالصور المرجعية ("مكونات الفيديو") — يمكنك توفير ما يصل إلى 3 صور للحفاظ على شخصية أو كائن عبر الإطارات المولدة.
- استيفاء الإطار (الإطار الأول والأخير) - قم بإعطاء صورة بداية ونهاية وسيقوم Veo بإنشاء تسلسل انتقالي بينهما (مع الصوت إذا تم طلب ذلك).
- امتداد المشهد - تمديد مقطع تم إنشاؤه بواسطة Veo (أو غيره) عن طريق إنشاء مقطع اتصال يستمر من الثانية الأخيرة من المقطع السابق.
- إدراج/إزالة الكائنات وأدوات تحرير التدفق الأخرى — تتم إضافة بعض ميزات Flow UI (إدراج/إزالة الكائنات، مطالبة الرسومات، إعادة تصوير زاوية الكاميرا) فوق إمكانيات Veo ويمكن أن تساعد في التعديل على مستوى الإطار في واجهة المستخدم الرسومية.
ملاحظات ونصائح: استخدم المصادقة المناسبة (مفتاح واجهة برمجة تطبيقات Gemini / مفتاح واجهة برمجة تطبيقات CometAPI). يستخدم المثال veo-3.1-generate-preview - قد تختلف معرفات النماذج وأسماء المعلمات قليلاً باختلاف إصدارات SDK والمناطق؛ معرفات نموذج CometAPI veo 3.1 هي veo3.1-pro وveo3.1.
1) النص → الفيديو (الجيل الجديد)
حالة الاستخدام: قم بإنشاء مقطع قصير جديد تمامًا من نص أو مطالبة إبداعية.
تدفق:
- قم بإعداد نص واضح يتضمن وصف المشهد واتجاه الكاميرا والإشارات الصوتية (الحوار أو المؤثرات الصوتية).
- اتصل بالجوزاء إنشاء مقاطع فيديو نقطة نهاية باستخدام نموذج Veo 3.1.
- قم باستطلاع العملية الطويلة الأمد حتى انتهاء عملية التوليد، ثم قم بتنزيل ملف MP4 الناتج، ثم قم بمراجعته وتكراره.
مثال بسيط في بايثون (نص → فيديو):
استخدم تطبيق Google الرسمي جيناي عميل بايثون. يوضح هذا المقطع إنشاء فيديو قصير من موجه باستخدام Veo 3.1.
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) الصورة → الفيديو (تحريك صورة المصدر)
حالة الاستخدام: قم بتحريك لقطة منتج أو صورة شخصية أو صورة فردية في مقطع قصير.
تدفق:
- إنتاج أو تحديد صورة أولية (يمكن إنشاؤها بواسطة نموذج صورة مثل Nano Banana).
- قم بتحميل الصورة كـ
imageالمعلمة والدعوةgenerate_videos، توريد اختياريreferenceImagesأوlastFrameللاستيفاء. - استرداد ومراجعة؛ تكرار المطالبات أو أصول الصور.
صورة بايثون→مقتطف فيديو (الصورة يتم إنشاؤها بشكل منفصل):
واحدة من الميزات الأكثر عملية في Veo 3.1 هي الصور المرجعية: توفير ما يصل إلى 3 صور (شخص، منتج، كائن) حتى يحافظ الفيديو الناتج على هذا المظهر عبر الإطارات.
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
نصائح عملية:
- فضل الصور المرجعية الواضحة والمضاءة جيدًا والتي تلتقط الموضوع من زوايا مفيدة.
- استخدم المراجع للحفاظ على هوية المنتج أو الملابس أو وجه الشخصية عبر تسلسلات متعددة اللقطات.
- تجنب الصور المحمية بحقوق الطبع والنشر أو الصور الخاصة بالأشخاص دون إذن.
3) فيديو إلى فيديو / تمديد (متابعة أو إعادة تصوير)
حالة الاستخدام: قم بتوسيع مقطع فيديو تم إنشاؤه بالفعل أو متابعة إجراء ما بعد نهايته، أو استخدم مقطع فيديو تم إنشاؤه مسبقًا كأساس لإعادة التحرير.
تدفق:
- توفير الفيديو الناتج كـ
videoأدخل وصياغة مطالبة تصف كيفية استمرار الفيديو (على سبيل المثال، "تمديد: يفتح بطل الرواية الباب ويسير إلى الضوء"). - استخدم وضع التمديد - يُنهي Veo 3.1 الثانية الأخيرة ويواصل الحركة. ملاحظة: امتداد الصوت أقل موثوقية إلا إذا كان الصوت موجودًا في الثانية الأخيرة.
مثال على Python (توسيع الفيديو الحالي):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
ملاحظة سير العمل: قم بتمديد المقاطع بشكل متكرر (مع ربط كل مقطع مُولَّد جديد بنهاية المقطع السابق) لإنشاء تسلسلات أطول. ضع في اعتبارك تراكم القطع الأثرية - أعد ربطها دوريًا بإطارات مرجعية عالية الجودة أو أعد إنشاء المقاطع للحفاظ على الدقة.
4) تحرير إطار محدد (الإطارات الأولى والأخيرة، صور مرجعية)
يمكنك إنتاج مقطع فيديو ينتقل من إطار البداية إلى إطار النهاية. قم بإنشاء صورة أولاً (على سبيل المثال، باستخدام نموذج صورة Gemini)، ثم قم بتمرير تلك الصورة كصورة وتعيين last_frame في التكوين لتوجيه الاستيفاء.
حالة الاستخدام: تريد استمرارية بصرية محكمة أو تحريك بين إطارين محددين.
تدفق:
- إنشاء أو تحميل الإطار الأول والإطار الأخير.
- اتصل بـ Veo 3.1 مع
image=first_frameوconfig.last_frame=last_frame. - يقوم النموذج بالتداخل بين هذه الإطارات، مما يؤدي إلى إنتاج حركة وصوت معقولين يتناسبان مع مطالبتك.
سبب أهمية ذلك: للتحكم الإبداعي، يسمح لك الإطار الأول/الأخير بتحديد إطار الكاميرا وتكوينها بدقة عند البداية/النهاية، وهو أمر ضروري للمؤثرات البصرية أو الاستمرارية أو نبضات السرد.
بايثون (الصورة → الفيديو)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
يتيح لك هذا التداخل السلس بين مرساة بصرية محددة.
ما هي استراتيجيات التوجيه والإدخال التي تعمل بشكل أفضل مع Veo 3.1؟
يستجيب Veo 3.1 بشكل أفضل للمطالبات المنظمة التي تصف بوضوح التركيب البصري والحركة والصوت والنغمة العاطفية. يوصي "دليل المطالبات" من جوجل لـ Veo 3.1 بمكونات محددة؛ إليك قائمة مرجعية موجزة:
التشريح الفوري (مستحسن)
- المشهد الأساسي - جملة مختصرة: من/ماذا، الفعل الأساسي.
- وصف الكاميرا - لقطة قريبة / واسعة / عربة / ثابتة / محمولة باليد، حركة الكاميرا والتأطير.
- التوقيت والوتيرة — إشارات قصيرة مثل "ببطء"، أو "إحساس سينمائي بمعدل 24 إطارًا في الثانية"، أو عدد الإطارات إذا كنت بحاجة إلى الدقة.
- إشارات صوتية — تحديد أجواء الخلفية، أو المؤثرات الصوتية، أو الحوارات (بين علامتي الاقتباس). يُمكن لـ Veo 3.1 توليف الصوت الأصلي.
- الأسلوب والمراجع - يشمل
referenceImagesأو ذكر أنماط التصوير الفوتوغرافي/الفيلم: "فيلم نوار، تباين عالي، إحساس كوداك 500". - مطالبات سلبية - حدد ما تريد لا تريد (على سبيل المثال، "لا شعارات، لا نص، لا نمط رسوم متحركة") تقليل النتائج غير المرغوب فيها.
استخدام الصور المرجعية
توجيه الصورة وتكامل الإطار الأول/الأخير من ميزات Veo 3.1. ومن خطوط الأنابيب الشائعة عالية الجودة:
- أنشئ أو حسّن صورًا ثابتة باستخدام صورة مرجعية واحدة إلى ثلاث صور عبر نموذج الصورة (نموذج Nano Banana أو نموذج Gemini) الذي يُحدد مظهر/أسلوب الكائنات الثابتة (الأشخاص والمنتجات). يحافظ Veo على مظهر الكائنات بشكل جيد عند استخدامه مع الأصول المرجعية.
- قم بتأليف تلك الأصول في صور مرجعية (أو الإطارات الأولى/الأخيرة).
- اتصل بـ Veo 3.1 لإنشاء الفيديو / الاستيفاء / التمديد.
- اختياريا معالجة لاحقة (تصنيف الألوان، الضغط، التحرير اليدوي) باستخدام أدوات الفيديو القياسية (Premiere، DaVinci Resolve).
اعتبارات الرموز والطول والدقة
- مدخلات النصوص في Veo 3.1 محدودة بالرموز (على سبيل المثال، حوالي 1,024 رمزًا لبعض إصدارات المعاينة)، وعادةً ما يكون الناتج فيديو قصيرًا واحدًا (غالبًا ما تُظهر الأمثلة 8 ثوانٍ)؛ لذا، كن موجزًا ومتكررًا. خطط لدمج مقاطع مُولَّدة متعددة للحصول على محتوى أطول.
الخلاصة - ما الذي يغيره Veo 3.1 بالنسبة للمبدعين والمحررين
يمثل Veo 3.1 نقلة نوعية في مجال إنشاء مقاطع الفيديو القصيرة بتقنية الذكاء الاصطناعي. فهو ليس مجرد مُولّد، بل أصبح أداةً مساعد التحرير داخل أدوات مثل Flow وGemini Studio، تُمكّن المُبدعين من إجراء تعديلات دقيقة (إدراج/إزالة كائنات، إعادة تصوير الكاميرا) مع إعادة استخدام نفس العناصر التوليدية. بالنسبة للمطورين وفرق الإنتاج، يُنصح باتباع نهج تكراري: استخدام واجهة برمجة التطبيقات (API) لإنشاء لقطات قصيرة وتوسيعها، واستخدام إطارات مرجعية للاستمرارية، وإجراء التركيب النهائي ومزج الصوت باستخدام الأدوات التقليدية.
يمكن للمطورين الوصول واجهة برمجة تطبيقات Veo 3.1 و صورة Gemini 3 Pro (Nano Banana Pro) من خلال CometAPI. للبدء، استكشف إمكانيات نموذج CometAPI في ملعب والاستشارة دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. معetAPI عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !
إذا كنت تريد معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، فتابعنا على VK, X و ديسكورد!
