Veo3.1 الجديد: مزيد من الاتساق، ومخرجات أكثر تنوعًا وثراءً

تم تحديث Veo 3.1 من Google في يناير، مع تحسينات مركّزة تدفع بسير عمل الصورة→الفيديو خطوة أقرب إلى جودة الإنتاج. يركز تحديث 3.1 على أربع ترقيات عملية تجعل سير عمل الصورة→الفيديو أكثر قابلية للاستخدام بشكل جذري للمبدعين والمطورين: خط أنابيب "Ingredients to Video" المعزَّز لتوليد لقطات ديناميكية من صور مرجعية، اتساق أقوى عبر الشخصيات والمشاهد، مخرجات عمودية أصلية (9:16) للمنصات الموجهة للهاتف المحمول، وخيارات مخرجات عالية الإخلاص بما في ذلك تحسينات في 1080p والترقية إلى 4K. بالنسبة للمبدعين والمطورين الذين اضطروا إلى الالتفاف حول سير عمل "الاقتصاص ثم التحرير" للصيغ العمودية الاجتماعية، فإن المخرجات العمودية الأصلية 9:16 في Veo 3.1 والترقية المحسَّنة تعد بتقليل العوائق وتقديم لقطات أكثر صقلًا وجاهزة للمنصة.

بالنسبة للمطورين ومحترفي الإعلام، لا يتعلق Veo 3.1 بعدد أكبر من البكسلات فحسب؛ بل يتعلق بالاتساق. يعالج التحديث مباشرة مشكلات "الوميض" وفقدان الهوية التي ابتُلي بها الفيديو المعتمد على الذكاء الاصطناعي، مقدمًا مجموعة أدوات قادرة على الحفاظ على هوية الشخصيات والإخلاص الأسلوبي عبر لقطات متعددة، متحديًا فعليًا Sora 2.0 من OpenAI على الهيمنة في سوق الوسائط التوليدية الراقية.

ما الذي يحدد معمارية Veo 3.1؟

بُني Veo 3.1 على معمارية انتشار قائمة على المحولات تم تعزيزها وضبطها لفهم متعدد الوسائط. وعلى عكس أسلافه التي خاضت بشكل أساسي في تعيين النص إلى الفيديو، يتعامل Veo 3.1 مع المدخلات البصرية (الصور) ككيانات أساسية على قدم المساواة مع مطالبات النص.

يتيح هذا التحول المعماري للنموذج "رؤية" الأصول التي يزوّده بها المستخدم—مثل صورة منتج أو مرجع لشخصية أو خلفية محددة—وتحريكها بفهم عميق للهندسة ثلاثية الأبعاد والإضاءة. والنتيجة نظام يبدو أقل شبهًا بآلة حظ وأكثر شبهًا بمحرك تصيير رقمي.

ما الجديد في 3.1 مقارنة بالإصدارات السابقة؟

توليف أغنى للمراجع: يستخلص النموذج السمات (الوجه، الملابس، قوام الأسطح، عناصر الخلفية) بشكل أفضل ويعيد استخدامها بشكل موثوق عبر إطارات متعددة، بحيث تبدو الشخصيات وكأنها الشخصية نفسها طوال المقطع.
تأليف/تركيب أذكى: بدلًا من قص إطار أفقي ليلائم قماشًا عموديًا (أو العكس)، يُنشئ Veo 3.1 تراكيب عمودية بصورة أصلية (9:16) بحيث تبدو مواضع الموضوع وإشارات العمق والحركة مُؤلَّفة خصيصًا للصيغة (وهو أمر حاسم لإبداعات TikTok/Shorts/Reels).
تكرار أسرع للمحتوى القصير: تم ضبط تجربة الاستخدام والنموذج لإخراج اجتماعي "social-first" مدته 8 ثوانٍ في العديد من سياقات المنتجات (Gemini app، Flow)، ما يتيح للمبدعين التجريب بسرعة.

كيف تعمل "Ingredients to Video" وما الجديد في 3.1؟

الميزة الأبرز في هذا الإصدار هي قدرات "Ingredients to Video" المُعاد تصميمها. تسمح هذه الميزة للمستخدمين بتزويد النموذج "بمكوّنات" بصرية مميزة يجب على النموذج استخدامها في الإخراج النهائي، مما يجسر الفجوة بين إدارة الأصول وتوليد الفيديو.

ما مفهوم "Ingredients to Video"؟

في الإصدارات السابقة، كان "تحويل الصورة إلى فيديو" في الغالب مهمة تحريك لصورة واحدة. يوسّع Veo 3.1 هذا عبر السماح للمستخدمين برفع عدة صور مرجعية (حتى ثلاث) لتعريف المشهد. تعمل هذه الأصول كالموضوع (شخص، جسم، قوام، أو خلفية)، ويؤلف النموذج حولها الحركة وتأطير الكاميرا والانتقالات لإنتاج فيديو قصير يحافظ على الهوية البصرية المُزوّدة. وهذا يختلف عن التحويل النصي إلى فيديو الصرف لأنه يضع قيودًا أقوى على المظهر والاستمرارية البصرية منذ البداية.

المزج السياقي: يمكنك رفع صورة لشخص (Character A)، وصورة لموقع (Background B)، ومرجع أسلوبي (Style C). يقوم Veo 3.1 بتوليف هذه العناصر المميزة في فيديو متماسك حيث يتحرك Character A داخل Environment B، مع تصيير بالأسلوب Style C.
التحفيز متعدد الوسائط: يعمل هذا الإدخال البصري جنبًا إلى جنب مع النص. يمكنك تقديم صورة منتج ومطالبة نصية تقول "انفجر إلى جزيئات"، وسيلتزم النموذج بدقة بالتفاصيل البصرية للمنتج أثناء تنفيذ فيزياء المطالبة النصية.

ما الجديد في وضع Ingredients في Veo 3.1؟

يقدم Veo 3.1 عدة تحسينات ملموسة على مسار Ingredients:

تعبيرية من مطالبات نصية حدّية: حتى المطالبات النصية القصيرة تُنتج حركة سردية وعاطفية أغنى عند إقرانها بصور المكوّنات، مما يجعل من الأسهل الحصول على نتائج صالحة بأقل عدد من التكرارات.
تعزيز حفظ هوية الموضوع: يحافظ النموذج بشكل أفضل على هوية الموضوع البصرية (الوجه، الزي، علامات المنتج) عبر لقطات متعددة وتغييرات المشاهد. وهذا يقلل الحاجة إلى إعادة تزويد الأصول من أجل الاستمرارية.
اتساق الكائن والخلفية: يمكن للكائنات وعناصر المشهد الاستمرار عبر القطعات، ما يحسّن تماسك السرد ويُمكّن من إعادة استخدام الدعائم أو القوام.
يضيف تلقائيًا إجراءات ديناميكية وإيقاعًا سرديًا إلى المشهد؛
تكون مقاطع الفيديو الناتجة أغنى في "السرد" و"تفاصيل الوجوه"، مما يعزز الطبيعية في الإدراك البصري البشري.

تستهدف هذه التحسينات تقليل أبرز نقاط الألم في توليد الصورة إلى فيديو: انجراف الموضوع، عدم اتساق الخلفية، وفقدان الأسلبة عند الانتقال بين الإطارات.

حالات استخدام عملية لـ Ingredients to Video

تحريك تمائم العلامات التجارية انطلاقًا من أصول التصميم.
تحويل صور البورتريه للممثلين إلى لقطات حركة لإعلانات اجتماعية.
النمذجة الأولية السريعة للمعالجات البصرية (الإضاءة، القوام) قبل المرور الإنتاجي الكامل.

ما الترقيات المتعلقة بالاتساق التي قدّمها Veo 3.1؟

في أي تسلسل مولّد متعدد اللقطات أو المشاهد، يُعد الحفاظ على هوية الموضوع (الوجه، الملابس، ملصقات المنتج)، ووضعية الكائنات، واستمرارية الخلفية أمرًا أساسيًا لمصداقية السرد. فاللاتناسقات—التغييرات الطفيفة في بنية الوجه أو شكل الكائن أو قوامه—تكسر اندماج المشاهد وتستلزم تدخلًا يدويًا أو إعادة توليد. غالبًا ما كانت الأجيال السابقة من نماذج الفيديو تساوم بين المرونة والتماسك؛ يسعى Veo 3.1 إلى تضييق هذه الموازنة.

يجعل Veo 3.1 من الممكن بناء تسلسلات قصيرة ونبضات قصصية تُقرأ كسرد مستمر بدلًا من سلسلة مشاهد قائمة بذاتها. هذا التحسن أساسي في تجربة 3.1:

الاستقرار الزمني: يقلل النموذج بشكل ملحوظ تأثير "التشكّل" حيث تتغير الوجوه أو الكائنات بشكل خفي بمرور الوقت.
التماسك بين اللقطات: باستخدام صور "المكوّنات" نفسها عبر مطالبات مختلفة، يمكن للمبدعين توليد لقطات متعددة للشخصية نفسها في سيناريوهات مختلفة دون أن تبدو كأشخاص مختلفين. وهذا قفزة كبرى لإرشادات العلامات التجارية وإنشاء المحتوى الحلقاتي.
مزج القوام: السماح باندماج الشخصيات والكائنات والخلفيات المُأسلبة بشكل طبيعي، وتوليد فيديوهات عالية الجودة بأسلوب موحّد.

الأثر العملي

بالنسبة للمحررين ومنشئي المحتوى الاجتماعي، يعني هذا تصحيحات أقل وعمليات قص متحرك أقل؛ وبالنسبة للمطورين والاستوديوهات، فإنه يقلل الاحتكاك عند أتمتة تسلسلات متعددة اللقطات ويخفّض مقدار التنسيق اليدوي المطلوب للحفاظ على الاستمرارية البصرية عبر الأصول.

Veo-3.1

ترقيات مخرجات Veo 3.1: مخرجات عمودية وإخلاص عالٍ

المخرجات العمودية الأصلية

مع هيمنة TikTok وYouTube Shorts وInstagram Reels، لا يُشبع الطلب على الفيديو العمودي عالي الجودة. أخيرًا يتعامل Veo 3.1 مع هذه الصيغة بالجدية التي تستحقها.

يقدم Veo 3.1 توليدًا أصليًا بنسبة عرض إلى ارتفاع 9:16.

بدون اقتصاص: على عكس سير العمل المبكرة التي كانت تولّد فيديو مربعًا أو أفقيًا ثم تقصّه (مع فقدان الدقة والإطار)، يقوم Veo 3.1 بتأليف اللقطة عموديًا منذ البداية.
ذكاء التأطير: يفهم النموذج قواعد التركيب العمودي، ما يضمن تمركز المواضيع والاستفادة الفعالة من البنى الطويلة، بدلًا من توليد آفاق واسعة تبدو غير مريحة عند ضغطها على شاشة الهاتف.

كيف يغيّر التوليد العمودي الأصلي سير العمل

نشر أسرع: لا حاجة للاقتصاص وإعادة التأطير بعد التوليد.
تأليف أفضل: يؤلف النموذج المشاهد مع أخذ التأطير العمودي في الاعتبار (المساحة فوق الرأس، مسارات الحركة).
جاهزية للمنصات: عمليات تصدير مناسبة لـ TikTok وShorts مع أقل قدر من التحرير.

مخرجات عالية الإخلاص

كانت الدقة عائقًا رئيسيًا أمام فيديو الذكاء الاصطناعي. يكسر Veo 3.1 سقف 720p/1080p مع دعم 4K أصلي.

ترقية متكاملة: تتضمن القناة وحدة دقة فائقة جديدة تقوم بترقية المحتوى المولّد إلى 4K (3840x2160) أو 1080p مع إخلاص عالي في معدل البت.
تقليل الشوائب: تم تدريب المُرقّي خصيصًا على شوائب التوليد، مما يسمح له بتنعيم "اللمعان" الذي يُرى غالبًا في القوام التوليدية مع زيادة حدة الحواف، مما يجعل المخرجات ملائمة لجداول تحرير احترافية.

كيف يتفوق Veo 3.1 على Sora 2.0؟

تحدد المقارنة بين Veo 3.1 من Google وSora 2.0 من OpenAI المشهد الحالي لفيديو الذكاء الاصطناعي. وبينما كلاهما قوي، فإنهما يخدمان احتياجات مختلفة.

Feature	Google Veo 3.1	OpenAI Sora 2.0
Primary Philosophy	التحكم والاتساق. مصمم لسير عمل إنتاجية حيث يجب احترام أصول محددة (منتجات، شخصيات).	المحاكاة والفيزياء. مصمم لمحاكاة العالم الحقيقي بإخلاص عالٍ، مع التركيز على سحر "التوليد من لقطة واحدة". تحويل نص إلى فيديو وصورة إلى فيديو مع تأكيد على الواقعية الفائقة والدقة الفيزيائية والصوت المتزامن.
Input Flexibility	عالية. يتيح "Ingredients to Video" حقن صور متعددة للتحكم الدقيق في الأصول.	متوسطة. تحويل نص إلى فيديو قوي وبداية من صورة واحدة، لكن تحكم أقل دقة في العناصر المحددة.
Vertical Video	9:16 أصلي. تركيب محسن لصيغ الهاتف المحمول.	مدعوم، لكنه غالبًا يفضل لقطات 16:9 السينمائية الواسعة في بيانات التدريب.
Resolution	4K (عبر الترقية). مخرجات حادة جاهزة للبث.	1080p أصلي. جودة عالية، لكن يتطلب ترقية خارجية لسير عمل 4K.
Brand Safety	عالية. حواجز حماية قوية وإخلاص في الأصول يجعلانه أكثر أمانًا للاستخدام التجاري.	متغيرة. قد يختلق فيزياء أو تفاصيل بعيدة عن المطالبة باسم "الإبداع".
Identity/consistency	تحسين اتساق الموضوع والكائن مستندًا إلى صور مرجعية (Ingredients)	يركز Sora 2 أيضًا على الاتساق متعدد اللقطات وقابلية التحكم

تمايز عملي

سير عمل الهاتف المحمول والفيديو العمودي: يستهدف Veo 3.1 صُنّاع المحمول صراحةً باستخدام التصيير العمودي الأصلي والتكامل المباشر مع YouTube Shorts—وهي ميزة لكفاءة خط الأنابيب للمحتوى القصير.
الصوت والصوت المتزامن: يبرز Sora 2 الصوت المتزامن والحوار والمؤثرات الصوتية كقدرة أساسية، وهو ما قد يكون حاسمًا لمن يحتاجون إلى توليد صوت مدمج مع الحركة.

باختصار: يضيق Veo 3.1 فجوات عملية مهمة حول تنسيق الهاتف المحمول والترقية الإنتاجية، بينما يواصل Sora 2 الريادة في الصوت المدمج وبعض مقاييس الواقعية. يعتمد الاختيار على أولويات سير العمل: سرد قصصي مرتكز على الصور ومُوجَّه للمحمول (Veo) مقابل واقعية سينمائية مع صوت (Sora 2).

لماذا يهم: إذا كنت منشئ محتوى اجتماعيًا تبحث عن مقطع مبهر للغاية لماموث صوفي يمشي عبر NYC، غالبًا ما يقدم Sora 2.0 "عامل انبهار" أكبر في الثانية. ومع ذلك، إذا كنت وكالة إعلانات تحتاج إلى تحريك علبة صودا محددة (Ingredient A) على شاطئ محدد (Ingredient B) لإعلان عمودي على Instagram، فإن Veo 3.1 هو الأداة المتفوقة.

كيف يمكن للمطورين والمبدعين البدء باستخدام Veo 3.1 اليوم؟

أين يتوفر Veo 3.1؟

يتوفر Veo 3.1 عبر Gemini API من خلال CometAPI. لماذا أوصي بـ CometAPI لك؟ لأنه الأرخص وسهل الاستخدام، ويمكنك أيضًا العثور على sora 2 API وغيرها فيه.

أنماط الاستخدام النموذجية وعينة كود

import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Checking status... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

الخلاصة

يمثل Veo 3.1 نضج الفيديو التوليدي. من خلال تجاوز مجرد هلاوس تحويل النص إلى بكسلات وتقديم أدوات قوية للتحكم في الأصول ("Ingredients")، وتحسين الصيغ (العمودي الأصلي)، وجودة التسليم (4K)، قدمت Google أول واجهة برمجة تطبيقات للفيديو التوليدي "بجودة الاستوديو" فعلًا. بالنسبة للمؤسسات التي تتطلع إلى أتمتة إنتاج المحتوى على نطاق واسع، انتهى الانتظار للحصول على نموذج فيديو قابل للتحكم وعالي الإخلاص.

يمكن للمطورين الوصول إلى Veo 3.1 API عبر CometAPI. للبدء، استكشف قدرات النماذج في CometAPI عبر Playground واطلع على دليل API للحصول على تعليمات مفصلة. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. تقدم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على الدمج.

Ready to Go?→ سجّل في CometAPI اليوم !

إذا كنت تريد معرفة المزيد من النصائح والأدلة والأخبار حول الذكاء الاصطناعي، تابعنا على VK، وX وDiscord!

هل أنت مستعد لخفض تكاليف تطوير الذكاء الاصطناعي بنسبة 20%؟

اقرأ المزيد