كيفية استخدام واجهة برمجة التطبيقات Veo 3.1

Veo 3.1 هو أحدث إصدار من سلسلة نماذج Veo من جوجل لإنشاء الفيديو. يوفر صوتًا أصليًا أكثر ثراءً، وتحكمًا أفضل في السرد والسينما، وتوجيهًا متعدد الصور، وبدائيات تحرير جديدة (انتقالات الإطار الأول/الأخير، وصور "المكونات"/المرجعية، وسير عمل تمديد المشهد). بالنسبة للمطورين، أسرع طريقة للوصول إلى Veo 3.1 هي واجهة برمجة التطبيقات (للتكاملات الموجهة للمستهلك) وVertex AI (لأحمال عمل المؤسسات والسحابة).

ما هي واجهة برمجة التطبيقات Veo 3.1 وما هي ميزاتها الرئيسية؟

Veo 3.1 هو نموذج توليد فيديو من جوجل، يعتمد على النصوص والصور، مصمم لإنتاج مقاطع سينمائية قصيرة وعالية الجودة مع صوت مُولّد محليًا (حوار، إشارات محيطة، مؤثرات صوتية). يركز الإصدار على تحسين سرعة الاستجابة، واتساق الشخصيات، وتوليد الصوت، وعناصر تحكم تحرير أكثر دقة (على سبيل المثال: انتقالات الإطار الأول → الأخير، والتوجيه عبر ما يصل إلى ثلاث صور مرجعية).

القدرات الرئيسية (نظرة عامة)

النص → الفيديو:إنشاء مقاطع فيديو مباشرة من المطالبات السردية (بما في ذلك الحوار والصوت).
الصورة → الفيديو:تحويل الصورة إلى مشهد متحرك قصير. ()
صور مرجعية ("مكونات الفيديو"):توريد ما يصل إلى 3 الصور (الأحرف، الكائنات، الأنماط) للحفاظ على الاتساق البصري عبر المخرجات.
إنشاء الإطار الأول والأخير:إنشاء انتقالات تربط بين صورتين (يُنشئ النموذج إطارات تتنقل بسلاسة بينهما، مع الصوت المطابق).
سير عمل تمديد المشهد:أدوات لتوسيع مقطع موجود عن طريق إنشاء مقاطع جديدة مرتبطة بذيل مقطع فيديو سابق (ملاحظة: تختلف القدرات والدعم بين واجهة برمجة تطبيقات Gemini ومعاينة Vertex - راجع قسم "الشروط").
الصوت الأصلي والمؤثرات الصوتية:يمكن للنموذج تجميع الكلام والصوت المحيط والتأثيرات المتزامنة التي تتوافق مع العناصر المرئية المولدة.

كيف أستخدم واجهة برمجة التطبيقات Veo 3.1 - ما هي المتطلبات الأساسية والشروط؟

ماذا تحتاج قبل استدعاء API؟

الوصول والفاتورةإصدار Veo 3.1 متوفر الآن بنسخة تجريبية مدفوعة الأجر - تأكد من امتلاك مفتاح API أو مشروع Google Cloud مُفعّل عليه Vertex AI وإعدادات الفوترة. بعض الميزات والإصدارات محدودة إقليميًا في النسخة التجريبية.
الحصص وقيود المعاينةغالبًا ما تكون لنماذج المعاينة حدودٌ لمعدلات طلبات المشروع الواحد (أمثلة: 10 دورات في الدقيقة لنماذج المعاينة) وحدودٌ لعدد الفيديوهات لكل طلب. راجع صفحة النموذج في مستندات Vertex AI / Gemini لمعرفة الأرقام الدقيقة لحسابك.
إدخال الأصول والتنسيقيمكنك إنشاء مقاطع فيديو من خلال رسائل نصية، أو من صورة واحدة أو عدة صور، أو توسيع فيديو موجود مُولّد بواسطة Veo بالرجوع إلى مُعرّف الموارد المُوحد (URI) الخاص به. بالنسبة لسير عمل تحويل الصور إلى مقاطع فيديو، يُرجى توفير الصور بالتنسيقات المدعومة (عناوين URL أو بايتات حسب نقطة النهاية).
السلامة والمنشأيجب أن يتوافق المحتوى المُنشأ مع سياسات محتوى جوجل. قد تظهر علامات مائية أو علامات استخدام في المعاينة؛ لذا كن مستعدًا للتعامل مع خطوات التحقق من المصدر وتعديل المحتوى في تطبيقك.

ما هي طرق المصادقة المدعومة؟

مفتاح API: لنقاط النهاية المُستضافة على Gemini أو مفتاح منصة API الخارجية. أنصح باستخدام CometAPI. كوميت ايه بي اي تقديم سعر أقل بكثير من السعر الرسمي لمساعدتك في دمج واجهة برمجة تطبيقات Veo 3.1 (veo3.1-pro؛ veo3.1)
بيانات اعتماد Google Cloud / ADC:بالنسبة لـ Vertex AI، استخدم بيانات اعتماد التطبيق الافتراضية (حساب الخدمة / مصادقة gcloud) أو مفتاح API المرفق بمشروع Google Cloud الخاص بك.

ما هي نقاط نهاية API الخاصة بـ Veo 3.1 وما هي المعلمات الأكثر أهمية؟

إجابة مختصرة: سوف تقوم إما بالاتصال بـ واجهة برمجة تطبيقات CometAPI نقطة نهاية إنشاء الفيديو (للوصول المستضاف على CometAPI، v1/chat/completions) . يستخدم كلاهما نص طلب JSON يصف النموذج والمطالبات و video/output التكوين؛ تتم إرجاع مهام الفيديو الأكبر حجمًا كعمليات طويلة الأمد.

نقاط النهاية المشتركة (الأمثلة):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

معلمات الطلب النموذجية (التقسيم المنطقي)

نموذج — معرف النموذج المستهدف (veo3.1-pro؛ أسماء veo3.1 المدرجة في مرجع النموذج).
موجه / إدخال نص بشري يصف المشهد؛ يمكن أن يتضمن عدة مطالبات أو تعليمات متعددة اللقطات حسب إمكانيات النموذج. استخدم مطالبات منظمة للتحكم في حركة الكاميرا، والوقت، والمزاج، والإشارات الصوتية.
مراجع الصور — 1-3 عناوين URI للصور أو صور base64 لتوجيه الكائنات/الأحرف/الأنماط (يدعم Veo 3.1 مراجع صور متعددة).
الفيديو — تستخدم عندما إطالة مخرج Veo سابق (مرر رابط الفيديو الأولي). بعض الميزات تعمل فقط على مقاطع الفيديو المُولّدة بواسطة Veo.
المدة / معدل الإطارات في الثانية / الدقة / نسبة العرض إلى الارتفاع — اختر من بين الأطوال والتنسيقات المدعومة (تدرج نماذج المعاينة المدة ومعدلات الإطارات المدعومة—على سبيل المثال، 4، 6، 8 ثوانٍ في بعض مستندات المعاينة؛ قد تسمح الامتدادات بمخرجات أطول في Flow/Studio).

ما هي أنماط الاستخدام والتقنيات المتقدمة؟

1) الحفاظ على اتساق الأحرف باستخدام الصور المرجعية

أضف ما يصل إلى ثلاث صور مرجعية (وجوه/أوضاع/أزياء) للحفاظ على مظهر الشخصية في لقطات متعددة. التسلسل النموذجي:

قم بتحميل صورك المرجعية أو تشفيرها بشكل مضمن.
مررهم config.reference_images عند توليد كل لقطة.
استخدم نفس الصور لمكالمات الجيل اللاحق (أو اجمعها مع قيم البذور) لتحقيق أقصى قدر من الاتساق البصري.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) انتقالات الإطار الأول والأخير (توليف اللقطات)

استعمل image (الإطار الأول) + config.last_frame لإرشاد Veo لتوليف الحركة الوسيطة. هذا مثالي للانتقالات السينمائية، إذ يُنتج تداخلاً بصريًا طبيعيًا وصوتًا متزامنًا.

توفير الإطار الأول (image) و الإطار الأخير (lastFrame) وسيقوم Veo 3.1 باستيفاء الحركة بينهما لإنتاج انتقال سلس (مع صوت اختياري). مثال cURL (REST) — الصورتان الأولى والأخيرة:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) تمديد المشهد (سلسلة أجيال متعددة)

هناك نمطين:

نهج API/Flow (ميزات المعاينة):يمكنك تمرير مقطع فيديو موجود (كائن فيديو مُرجع أو عنوان URI) كـ video=video_to_extend لإنشاء مقطع تكملة متسق مع المشهد السابق. استخدم استجابة العملية لالتقاط video.uri وأدخله في المكالمة التالية لتوسيع السرد. ملاحظة: قد يختلف التوفر والسلوك باختلاف المنصة، لذا تحقق من صحة المعلومات على المنصة التي تختارها.
نمط سحابة الرأسنموذج معاينة Vertex له حدود مستندات أكثر صرامة (على سبيل المثال، المعاينة الحالية لا تُرجع سوى مقاطع مدتها 4/6/8 ثوانٍ)، لذا لإنتاج مخرجات مدتها دقيقة واحدة، يجب عليك ربط طلبات متعددة وربطها في تطبيقك، أو استخدام أدوات توسيع المشهد الرسمية للمحرك عند توفرها. راجع صفحة "معاينة Veo 3.1" من Vertex للاطلاع على مصفوفة الدعم الحالية.

نلقي تم إنشاؤه مسبقًا بواسطة Veo يمكنك تمديد الفيديو (إضافة ثوانٍ) مع الحفاظ على الأسلوب والاستمرارية. تتطلب واجهة برمجة التطبيقات أن يكون المُدخل فيديو مُولّدًا بواسطة Veo (قد لا تدعم امتدادات ملفات MP4). يمكنك تمديده بمقدار 7 ثوانٍ حتى الحدود الموثقة (تُطبق حدود معاينة Veo):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) التحكم في الصوت والحوار

يُولّد Veo 3.1 صوتًا أصليًا (كلامًا وتأثيرات) من المطالبات. الحيل:

ضع أي سطور منطوقة في موجهك (ضع الحوار بين علامتي الاقتباس) لتشجيع مزامنة الشفاه الواقعية.
أضف أوصافًا صوتية ("خطوات ناعمة من اليسار إلى اليمين"، "هدير رعد مكتوم") لتشكيل المؤثرات الصوتية والمزاج.
استخدم قيم البذور لإعادة إنتاج نفس النتيجة الصوتية/البصرية عبر عمليات الاختبار.

5) مخرجات حتمية للاختبار (البذور)

إذا كنت بحاجة إلى مخرجات قابلة للتكرار لاختبار CI أو A/B، فقم بتوفير seed المعلمة (uint32). تغيير الصور المرجعية أو الصور الموجّهة سيُغيّر النتيجة؛ تضمن البذرة إمكانية التكرار. فقط عندما يكون كل شيء آخر متطابقًا.

6) تحسينات التكلفة والأداء

دفعات أقل من الوظائف الأكبر حجمًا:حيثما يسمح بذلك، يتم التعيين sampleCount لإنتاج مقاطع فيديو متعددة للمرشحين في طلب واحد (1-4) لتقليل تكاليف الإعداد. ()
تخزين صور مرجعية مؤقتًا وإعادة استخدام البذور من أجل إمكانية إعادة الإنتاج حتى تتجنب إعادة تحميل الثنائيات الكبيرة.
استخدام مخرجات التخزين السحابي (Vertex) لأحجام الإخراج الكبيرة لتجنب إرجاع البايتات الخام في نص الطلب.

7) خطوط الأنابيب متعددة الخطوات مع نماذج Gemini الأخرى

خط أنابيب مفيد: استخدم منشئ الصور الثابتة (على سبيل المثال، نموذج صورة Gemini) لإنشاء الأصول → مرر أفضل الصور كـ image + referenceImages إلى Veo 3.1 → كرر مطالبات الصوت/الحوار باستخدام نموذج النص للسرد المُولّد. تُظهر مستندات Gemini بوضوح أمثلةً لتسلسل توليد الصور واستدعاءات Veo.

نصائح عملية، وأخطاء شائعة، وأفضل الممارسات

استخدم البذور عندما تريد مخرجات حتمية وقابلة للتكرار بين عمليات التشغيل (نفس المطالبة + نفس المراجع + نفس البذرة → نفس الجيل).
الحفاظ على الصور المرجعية متسقة: نفس القص، نفس زاوية الوجه، تناسق الملابس/الخلفية يساعد العارضة على الحفاظ على هويتها وأسلوبها. أعد استخدام نفس الصور الثلاث في اللقطات المختلفة للحفاظ على استمرارية الصورة.
تفضيل عناوين URI الخاصة بـ GCS للإنتاج:يؤدي تخزين الصور والمخرجات في Cloud Storage إلى تجنب حدود حجم النقل الأساسية 64 وتبسيط التسلسل/التمديد.
وصف التحولات والصوت بشكل صريح: بالنسبة للانتقالات الأولى/الأخيرة، أضف حركة الكاميرا والإيقاع وإشارات المؤثرات الصوتية/الصوت في المطالبة للحصول على صوت متزامن بشكل أفضل.
اختبار الحلقات القصيرة أولاً: كرر ذلك بفترات زمنية قصيرة (4–8 ثوانٍ) أثناء ضبط المطالبات والبذور والصور المرجعية، ثم قم بتسلسل الامتدادات للمشاهد الأطول.
تأكيد أسماء الحقول الدقيقة:قد تستخدم حزم SDK reference_images (حالة الثعبان)، referenceImages (camelCase)، أو متداخلة image الأشياء ذات content / gcsUri. تحقق من مستندات SDK أو مخطط نموذج Vertex لمعرفة أسماء الخصائص الدقيقة في الإصدار الذي تستخدمه.

ما هي تكلفة Veo 3.1 وكيف يتم تحصيل الرسوم؟

تمت محاسبة Veo 3.1 في الثانية الواحدة من الفيديو المُولَّد، ويكشف Google عن متغيرات متعددة (على سبيل المثال المجموعة الأساسية و سريعة) بمعدلات مختلفة للثانية. تُظهر أسعار المطورين المنشورة أمثلة على أسعار الطبقة المدفوعة 0.40 دولار/ثانية لـ Veo 3.1 Standard و 0.15 دولار/ثانية لـ Veo 3.1 Fastتشير صفحة تسعير Gemini أيضًا إلى أنه سيتم محاسبتك فقط عند إنشاء مقطع فيديو بنجاح (قد لا يتم فرض رسوم على المحاولات الفاشلة).

واجهة برمجة تطبيقات Veo 3.1 التسعير في CometAPI


veo3.1	0.4000
فيو 3.1 برو	2.0000

الخلاصة - لماذا يُعد Veo 3.1 مهمًا للمطورين في الوقت الحالي

يُعد Veo 3.1 نقلة نوعية واضحة في مجال إنشاء مقاطع الفيديو بالذكاء الاصطناعي: صوت أصلي أغنى، وتوجيه للصور المرجعية، وبدائل تحرير جديدة تجعله خيارًا أقوى لسرد القصص، والمعاينة المسبقة، والتطبيقات الإبداعية. تختلف إمكانيات النموذج اختلافًا طفيفًا بين نقاط النهاية وإصدارات المعاينة (على سبيل المثال، اختلاف الإصدار بين CometAPI وgemini) - لذا اختبر وتحقق من صحة متغير النموذج الذي تنوي استخدامه. تُقدم الأمثلة في هذا الدليل نقطة انطلاق عملية للنمذجة الأولية والإنتاج.

كيف يمكنني الدخول واجهة برمجة تطبيقات Veo 3.1 API

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول واجهة برمجة تطبيقات Veo 3.1 من خلال CometAPI، أحدث إصدار للنموذج يتم تحديثه دائمًا بالموقع الرسمي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !

إذا كنت تريد معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، فتابعنا على VK, X و ديسكورد!