Veo3.1 الجديد: اتساق أكبر، مخرجات أكثر تنوعًا وأكثر ثراءً

تم تحديث Veo 3.1 من Google في يناير، مع تحسينات مركّزة تدفع سير عمل صورة→فيديو ليقترب من جودة الإنتاج. يركز تحديث 3.1 على أربعة ترقيات عملية تجعل سير عمل الصورة→الفيديو أكثر قابلية للاستخدام بشكل جذري لدى المبدعين والمطورين: خط أنابيب "Ingredients to Video" معزّز لتوليد مقاطع دينامية من صور مرجعية، اتساق أقوى عبر الشخصيات والمشاهد، إخراج عمودي أصيل (9:16) لمنصات تركّز على المحمول أولًا، وخيارات إخراج عالية الإخلاص تشمل تحسين رفع الدقة إلى 1080p و4K. بالنسبة للمبدعين والمطورين الذين يتعاملون مع سير عمل "اقتصاص-ثم-تحرير" للتنسيقات العمودية الاجتماعية، فإن الإخراج العمودي الأصيل 9:16 ورفع الدقة المحسّن في Veo 3.1 يعدان بتقليل الاحتكاك وتقديم مقاطع مصقولة وجاهزة للمنصات.

بالنسبة للمطورين والمتخصصين الإعلاميين، Veo 3.1 ليس مجرد عدد بكسلات أعلى؛ إنه يتعلق بـالاتساق. يعالج التحديث مباشرةً مشكلات "الوميض" وفقدان الهوية التي ابتلت الفيديو المعتمد على الذكاء الاصطناعي، مقدّمًا مجموعة أدوات قادرة على الحفاظ على أمانة الشخصية والأسلوب عبر لقطات متعددة، متحديًا فعليًا Sora 2.0 من OpenAI للهيمنة في سوق الوسائط التوليدية الراقية.

ما الذي يعرّف بنية Veo 3.1؟

يُبنى Veo 3.1 على بنية انتشار (Diffusion) محسّنة قائمة على المحوّل (Transformer) تم ضبطها بدقة لفهم متعدد الوسائط. وعلى خلاف أسلافه التي ركّزت أساسًا على ربط النص بالفيديو، يعامل Veo 3.1 المدخلات البصرية (الصور) كمواطنين من الدرجة الأولى جنبًا إلى جنب مع المطالبات النصية.

يسمح هذا التحوّل المعماري للنموذج بأن "يرى" الأصول التي يوفّرها المستخدم—مثل لقطة منتج، مرجع شخصية، أو خلفية محددة—ويحرّكها بفهم عميق للهندسة ثلاثية الأبعاد والإضاءة. والنتيجة نظام يشعر بأنه أقل شبهًا بآلة حظ وأكثر شبهًا بمحرك تصيير رقمي.

ما الذي تغيّر في 3.1 مقارنة بالإصدارات السابقة؟

توليف أغنى للمراجع: يستخرج النموذج بشكل أفضل الخصائص (الوجه، الملابس، خامات الأسطح، عناصر الخلفية) ويعيد استخدامها بثبات عبر إطارات متعددة، بحيث تبدو الشخصيات كالشخصية نفسها عبر المقطع.
تركيب أذكى: بدلًا من اقتصاص إطار أفقي ليلائم لوحة عمودية (أو العكس)، ينشئ Veo 3.1 تراكيب عمودية أصيلة (9:16) بحيث يكون تموضع الموضوع، وإشارات العمق، والحركة مصممة لصيغة العرض (وهو أمر حاسم لإبداع TikTok/Shorts/Reels).
تكرار أسرع لمحتوى قصير: تم ضبط تجربة المستخدم والنموذج لإخراج "اجتماعي أولًا" مدته 8 ثوانٍ في العديد من سياقات المنتج (Gemini app, Flow)، مما يمكّن المبدعين من التجربة بسرعة.

كيف يعمل "Ingredients to Video" وما الجديد في 3.1؟

الميزة الأبرز في هذا الإصدار هي قدرة "Ingredients to Video" المُعاد تصميمها. تتيح هذه الميزة للمستخدمين تقديم "مكوّنات" بصرية مميّزة يجب على النموذج استخدامها في الإخراج النهائي، مما يجسر الفجوة بين إدارة الأصول وتوليد الفيديو.

ما مفهوم "Ingredients to Video"؟

في الإصدارات السابقة، كان "الصورة إلى الفيديو" في الغالب مهمة تحريك صورة واحدة. يوسّع Veo 3.1 هذا عبر السماح للمستخدمين برفع صور مرجعية متعددة (حتى ثلاث) لتعريف المشهد. تعمل هذه الأصول كموضوع (شخص، كائن، خامة، أو خلفية)، ويؤلف النموذج حولها الحركة وإطار الكاميرا والانتقالات لإنتاج فيديو قصير يحافظ على الهوية البصرية المقدمة. يختلف هذا عن النص إلى الفيديو الخالص لأنه يضع قيودًا أقوى على المظهر والاستمرارية البصرية منذ البداية.

مزج سياقي: يمكنك رفع صورة لشخص (Character A)، وصورة لموقع (Background B)، ومرجع أسلوبي (Style C). يقوم Veo 3.1 بتوليف هذه العناصر المميّزة في فيديو متماسك حيث يعمل Character A ضمن Environment B، مصيّرًا بأسلوب Style C.
توجيه متعدد الوسائط: تعمل هذه المدخلات البصرية بالتوازي مع النص. يمكنك تقديم صورة منتج ومطالبة نصية تقول "explode into particles"، ويلتزم النموذج بدقة بالتفاصيل البصرية للمنتج مع تنفيذ فيزياء المطالبة النصية.

ما الجديد في وضع Ingredients في Veo 3.1؟

يقدّم Veo 3.1 عدة تحسينات ملموسة في تدفق Ingredients:

تعبيرية من مطالبات قصيرة: حتى المطالبات النصية المقتضبة تنتج حركة سردية وعاطفية أغنى عندما تقترن بصور المكوّنات، مما يسهل الحصول على نتائج قابلة للاستخدام بمزيد أقل من التكرارات.
حفظ أقوى لهوية الموضوع: يحافظ النموذج بشكل أفضل على الهوية البصرية للموضوع (الوجه، الزي، علامات المنتج) عبر لقطات متعددة وتغييرات المشهد. هذا يقلل الحاجة لإعادة تزويد الأصول لضمان الاستمرارية.
اتساق الكائن والخلفية: يمكن للكائنات وعناصر المشهد أن تستمر عبر القطعات، مما يحسّن تماسك السرد ويمكّن من إعادة استخدام الدعائم أو الخامات.
يضيف تلقائيًا أفعالًا دينامية وإيقاعًا سرديًا إلى المشهد؛
تصبح فيديوهات الإخراج أغنى في "السرد" و"تفاصيل الوجوه"، مما يعزّز طبيعية الإدراك البصري البشري.

تهدف هذه التحسينات إلى تقليل أكثر نقاط الألم شيوعًا في توليد الصورة إلى الفيديو: انحراف الموضوع، عدم اتساق الخلفية، وفقدان الأسلبة عند الانتقال بين الإطارات.

حالات استخدام عملية لـ Ingredients to Video

تحريك شخصيات العلامة التجارية انطلاقًا من أصول التصميم.
تحويل صور بورتريه للممثلين إلى مقاطع حركة لإعلانات اجتماعية.
النمذجة السريعة للمعالجات البصرية (الإضاءة، الخامات) قبل المرور الإنتاجي الكامل.

ما ترقيات الاتساق التي قدّمها Veo 3.1؟

في أي تسلسل مولَّد متعدد اللقطات أو المشاهد، يعد الحفاظ على هوية الموضوع (الوجه، الملابس، ملصقات المنتج)، وتموضع الكائنات، واستمرارية الخلفية أمرًا أساسيًا لمصداقية السرد. تؤدي عدم الاتساقات—التغييرات الطفيفة في بنية الوجه أو شكل الكائن أو خامته—إلى كسر حالة الاندماج لدى المشاهد وتتطلب تدخلًا يدويًا أو إعادة توليد. غالبًا ما كانت الأجيال السابقة من نماذج الفيديو توازن المرونة مقابل التماسك؛ يسعى Veo 3.1 لتضييق هذا التوازن.

يجعل Veo 3.1 من الممكن بناء تسلسلات قصيرة وإيقاعات قصصية تُقرأ كسرد متصل بدلًا من سلسلة لوحات منفصلة. هذا التحسّن جوهري في تجربة 3.1:

ثبات زمني: يقلّل النموذج بشكل كبير تأثير "التشكّل" حيث تتغير الوجوه أو الكائنات بشكل خفي بمرور الوقت.
اتساق بين اللقطات: باستخدام نفس صور "المكوّنات" عبر مطالبات مختلفة، يمكن للمبدعين توليد عدة مقاطع للشخصية ذاتها في سيناريوهات مختلفة دون أن تبدو كأشخاص مختلفين. هذه قفزة كبيرة إلى الأمام لإرشادات العلامة وإنشاء محتوى حلقات.
مزج القوام: السماح للشخصيات والكائنات والخلفيات المُؤسلَبة بالاندماج بشكل طبيعي، لتوليد فيديوهات عالية الجودة بأسلوب موحّد.

الأثر العملي

بالنسبة للمحررين والمبدعين الاجتماعيين، يعني هذا تصحيحات أقل واقتطاعًا أقل بالإطار؛ وبالنسبة للمطورين والاستوديوهات، فإنه يقلل الاحتكاك عند أتمتة تسلسلات متعددة اللقطات، ويخفض التقيّم اليدوي المطلوب للحفاظ على الاستمرارية البصرية عبر الأصول.

Veo-3.1

ترقيات إخراج Veo 3.1: الإخراج العمودي والإخراج عالي الإخلاص

الإخراج العمودي الأصيل

مع هيمنة TikTok وYouTube Shorts وInstagram Reels، الطلب على الفيديو العمودي عالي الجودة لا يُشبع. أخيرًا يعامل Veo 3.1 هذا التنسيق بالجدية التي يستحقها.

يقدّم Veo 3.1 توليدًا أصيلًا بنسبة أبعاد 9:16.

بدون اقتصاص: على عكس سير العمل السابق الذي كان يولّد فيديو مربعًا أو أفقيًا ثم يقصّه (مع فقدان الدقة والإطار)، يؤلف Veo 3.1 اللقطة عموديًا من البداية.
ذكاء في الإطار: يفهم النموذج قواعد التركيب العمودي، ما يضمن تمركز الموضوع واستغلال البُنى الطويلة بشكل فعّال، بدلًا من توليد آفاق واسعة تبدو غريبة عند ضغطها على شاشة هاتف.

كيف يغيّر التوليد العمودي الأصيل سير العمل

نشر أسرع: لا حاجة لاقتصاص وإعادة تأطير بعد التوليد.
تركيب أفضل: يؤلف النموذج المشاهد بعين على الإطار العمودي (مساحة الرأس، مسارات الحركة).
جاهز للمنصات: تصدير مناسب لـ TikTok وShorts مع حد أدنى من التحرير.

إخراج عالي الإخلاص

كانت الدقة عنق زجاجة رئيسيًا للفيديو المعتمد على الذكاء الاصطناعي. يكسر Veo 3.1 سقف 720p/1080p مع دعم 4K أصيل.

رفع دقة مدمج: يتضمن خط الأنابيب وحدة فائقة الدقة جديدة ترفع المحتوى المُولَّد إلى 4K (3840x2160) أو 1080p مع أمانة معدل بت عالية.
تقليل التشوّهات: تم تدريب رافع الدقة خصيصًا على التشوّهات التوليدية، مما يتيح له تنعيم "الوميض" الذي يُرى غالبًا في خامات الذكاء الاصطناعي مع حدة الحواف، مما يجعل الإخراج مناسبًا لخطوط تحرير احترافية.

كيف يقارن Veo 3.1 مع Sora 2.0؟

تحدّد المقارنة بين Veo 3.1 من Google وSora 2.0 من OpenAI المشهد الحالي للفيديو المعتمد على الذكاء الاصطناعي. كلاهما قوي، لكنهما يخدمان أهدافًا مختلفة.

الميزة	Google Veo 3.1	OpenAI Sora 2.0
الفلسفة الأساسية	التحكم والاتساق. مصمّم لسير عمل إنتاجي حيث يجب احترام أصول محددة (منتجات، شخصيات).	المحاكاة والفيزياء. مصمّم لمحاكاة العالم الحقيقي بإخلاص عالٍ، مع التركيز على "توليد طلقة واحدة" السحري. نص إلى فيديو وصورة إلى فيديو مع تأكيد على واقعية فوتوغرافية، دقة فيزيائية، وصوت متزامن.
مرونة الإدخال	عالية. يتيح "Ingredients to Video" حقن صور متعددة للتحكم الدقيق بالأصول.	متوسطة. نص إلى فيديو قوي وبِدء بصورة واحدة، لكن تحكم أقل تفصيلاً بعناصر محددة.
الفيديو العمودي	9:16 أصيل. تركيب مُحسَّن لتنسيقات المحمول.	مدعوم، لكنه غالبًا يفضّل صور 16:9 السينمائية واسعة النطاق في بيانات التدريب.
الدقة	4K (عبر رفع الدقة). مخرجات حادة وجاهزة للبث.	1080p أصيل. جودة عالية، لكنها تتطلب رفع دقة خارجي لسير عمل 4K.
سلامة العلامة	عالية. ضوابط قوية وأمانة الأصول تجعلها أكثر أمانًا للاستخدام التجاري.	متغيرة. قد "يتخيل" فيزياء أو تفاصيل جامحة تنحرف عن المطالبة باسم "الإبداع".
الهوية/الاتساق	اتساق محسّن للموضوع والكائن مرتكز إلى الصور المرجعية (Ingredients)	يؤكد Sora 2 أيضًا على الاتساق متعدد اللقطات وقابلية التحكم

التفريق العملي

سير عمل المحمول والعمودي: يستهدف Veo 3.1 بشكل صريح المبدعين على المحمول مع عرض بورتريه أصيل ودمج مباشر مع YouTube Shorts—ميزة لكفاءة خط أنابيب المحتوى القصير.
الصوت والصوت المتزامن: يبرز Sora 2 الحوار والصوت المتزامن كقدرة أساسية، ما قد يكون حاسمًا للمبدعين الذين يحتاجون إلى توليد صوت مدمج مع الحركة.

باختصار: يضيّق Veo 3.1 فجوات عملية مهمة حول تنسيق المحمول ورفع الدقة الإنتاجي، بينما يواصل Sora 2 القيادة في الصوت المدمج وبعض مقاييس الواقعية. يعتمد الاختيار على أولويات سير العمل: سرد مرتكز إلى الصورة ومحمول أولًا (Veo) مقابل واقعية سينمائية مع صوت (Sora 2).

لماذا يهم: إذا كنت صانع محتوى اجتماعيًا تبحث عن مقطع واقعي مفرط لماموث صوفي يمشي في نيويورك، فإن Sora 2.0 غالبًا ما ينتج عامل "واو" أعلى في الثانية. ومع ذلك، إذا كنت وكالة إعلانية تحتاج إلى تحريك علبة صودا محددة (Ingredient A) على شاطئ محدد (Ingredient B) لإعلان عمودي على Instagram، فإن Veo 3.1 هو الأداة المتفوّقة.

كيف يمكن للمطورين والمبدعين البدء باستخدام Veo 3.1 اليوم؟

أين يتوفر Veo 3.1؟

Veo 3.1 متاح في Gemini API عبر CometAPI. لماذا أوصي لك بـ CometAPI؟ لأنه الأرخص وسهل الاستخدام، ويمكنك أيضًا العثور على sora 2 API وغيرها فيه.

أنماط استخدام مثالية وعينة كود

import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Checking status... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

الخلاصة

يمثّل Veo 3.1 نضج الفيديو التوليدي. من خلال تجاوز مجرد هلوسة نص→بكسل وتقديم أدوات قوية للتحكم بالأصول ("Ingredients")، وتحسين التنسيق (عمودي أصيل)، وجودة التسليم (4K)، وفّرت Google أول واجهة برمجية للفيديو التوليدي "بدرجة استوديو" حقيقية. بالنسبة للمؤسسات التي تتطلع إلى أتمتة إنتاج المحتوى على نطاق واسع، انتهى الانتظار لنموذج فيديو قابل للتحكم وعالي الإخلاص.

يمكن للمطورين الوصول إلى Veo 3.1 API عبر CometAPI. للبدء، استكشف قدرات النماذج في CometAPI ضمن Playground وراجع API guide للحصول على تعليمات مفصلة. قبل الوصول، يرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. Com e tAPI تقدم سعرًا أقل بكثير من السعر الرسمي لمساعدتك على الدمج.

جاهز للانطلاق؟→ سجّل في CometAPI اليوم !

إذا كنت تريد معرفة المزيد من النصائح والأدلة والأخبار عن الذكاء الاصطناعي فاتبعنا على VK، وX وDiscord!