Come creare un video con l'API di Midjourney

L’ingresso di Midjourney nel video è stata una delle storie più importanti della tecnologia creativa del 2025. Quello che era iniziato come un amatissimo strumento incentrato sulle immagini ha aggiunto un workflow “Image-to-Video” che trasforma immagini statiche in brevi clip animate — e il sistema sta cambiando rapidamente.

La funzionalità video di Midjourney è un workflow da immagine a video che anima un’unica immagine in una breve clip tramite un flusso “Animate”, producendo clip di cinque secondi per impostazione predefinita e consentendo estensioni fino a ~21 secondi. La funzione è stata lanciata a metà 2025 come modello video V1 di Midjourney ed è disponibile tramite la Midjourney Video V1 API di CometAPI.

Che cos’è Midjourney V1

Cosa fa Midjourney V1 e come viene presentato agli utenti

Il modello video V1 di Midjourney trasforma una singola immagine statica (generata all’interno di Midjourney o ospitata esternamente) in brevi clip animate — per impostazione predefinita di circa 5 secondi — utilizzando modalità di animazione automatiche o manuali e flag di intensità del movimento (--motion low / --motion high). Gli utenti possono estendere le clip in incrementi di 4 secondi (fino a ~21 secondi) e controllare dimensione del batch, loop e frame finali; gli output video sono MP4. Il modello V1 Video di Midjourney è un modello image-to-video ottimizzato per clip brevi, stilizzate e loopabili. Le caratteristiche tipiche del modello V1 includono:

Lunghezza base della clip ~5 secondi, con un meccanismo di estensione controllato (incrementi di 4 secondi, fino a un limite documentato).
Enfasi sulla preservazione dello stile artistico dell’immagine di origine (pennellate, colore, mood).
Compromessi di risoluzione e qualità per iterazioni rapide; V1 è orientato a contenuti per social e web più che a output cinematografici completi.

Questi vincoli influenzano come progettare asset e prompt: V1 è ideale per movimenti concisi, immagini animate, loop hero di prodotto o brevi motivi di personaggi piuttosto che scene lunghe.

Come CometAPI mette a disposizione il modello Midjourney Video

CometAPI è un gateway multi-modello che aggrega l’accesso a centinaia di modelli AI (testo, immagine, audio e ora immagine-a-video) dietro un’unica superficie REST. La sua offerta Midjourney Video incapsula la capacità V1 Video di Midjourney così che gli ingegneri possano chiamare la generazione immagine-a-video in modo programmatico anziché affidarsi esclusivamente all’interazione via Discord/web. Questo la rende utile per automatizzare pipeline creative, costruire proof-of-concept e integrare brevi asset animati in app o flussi di produzione di contenuti.

CometAPI’s Midjourney Video può consentire agli sviluppatori di autenticarsi, chiamare un endpoint /mj/submit/video e passare parametri come prompt (che può includere un URL dell’immagine di partenza), videoType (es. vid_1.1_i2v_480), mode (fast/relax) e animateMode (automatic/manual). CometAPI offre un prezzo inferiore per chiamata e convenienza (chiave API unica + interfaccia REST) rispetto all’integrazione diretta tramite il workflow incentrato su Discord di Midjourney.

Come prepararsi prima di chiamare l’API?

Quali credenziali e account servono?

Registrati su CometAPI e genera una chiave API dalla dashboard del tuo account (CometAPI usa un bearer token come sk-xxxxx).
Assicurati di avere asset di immagini disponibili online (un URL pubblicamente accessibile) se intendi usare immagini esterne come frame iniziale. Midjourney necessita di URL raggiungibili per workflow immagine→video con immagini esterne.

Decisioni iniziali da prendere

Immagine di partenza — scegli un’immagine con soggetto e composizione chiari; l’aspect ratio influisce sulla risoluzione/aspect del video finale (Midjourney mappa gli aspect ratio di partenza a dimensioni pixel SD/HD).
Stile del movimento — decidi tra movimento Low vs High (--motion low vs --motion high) e se vuoi inferenza automatica o controllo manuale di movimento di camera/soggetto.
Lunghezza e dimensione batch — il default è 5 secondi; puoi estendere fino a ~21 s. La dimensione batch è di default 4 (Midjourney restituisce 4 varianti), ma puoi richiedere 1 o 2 per risparmiare calcolo.
Risoluzione — V1 è principalmente SD (480p) per impostazione predefinita; HD (720p) richiede la specifica di parametri, ad esempio vid_1.1_i2v_480.

Come chiamare l’endpoint video di Midjourney di CometAPI (passo per passo con esempi)?

Qual è il payload minimo della richiesta?

Al minimo, invii:

prompt: l’URL dell’immagine di partenza e un eventuale prompt testuale di movimento (es., "https://.../frame.png add a dog running from left to right").
videoType: es., vid_1.1_i2v_480.
mode: "fast" (o "relax" se consentito dal piano).
animateMode: "automatic" o "manual".

Questo è un curl di esempio che illustra un POST a https://api.cometapi.com/mj/submit/video. Ecco un esempio curl pulito e pronto da copiare, adattato dall’esempio di CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Esempio Python (requests)

Se preferisci Python, ecco un esempio robusto che usa requests per inviare un job video e fare polling fino al completamento (sostituisci i segnaposto). Questo è uno schema pratico: submit → poll → download. L’esempio sotto è volutamente semplice e andrebbe adattato al sistema asincrono/job della tua app in produzione.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Come aggiungere audio (voce, musica, effetti sonori) a un video Midjourney/CometAPI?

Midjourney produce audio nativamente?

No — a partire dalla V1, l’output video di Midjourney è silenzioso (MP4 senza audio incorporato). Gli utenti aggiungono il suono esternamente. (Esistono altri sistemi AI che generano audio/video insieme, ma la V1 di Midjourney si concentra sul movimento visivo.)

Pipeline consigliate per aggiungere voce e suono

Text-to-Speech (TTS) per narrazione/voce — Usa ElevenLabs, Replica o servizi TTS/clonazione vocale simili per generare tracce di parlato da script. Questi servizi permettono di produrre stili vocali naturali e talvolta a basso costo per minuto. (Post su LinkedIn / community suggeriscono ElevenLabs come scelta leggera per la voce.)
Strumenti di design audio AI per musica/SFX — Strumenti come MM Audio, Magicshot o generatori SFX specializzati possono creare sottofondi e effetti che si adattano alla clip. Guide e tutorial della community mostrano buona qualità da MM Audio e altri AI audio.
Approccio manuale con DAW/Editor (controllo fine) — Importa l’MP4 generato in DaVinci Resolve / Premiere / Audacity, aggiungi audio TTS, effetti sonori e fai il mix. Questo è il percorso migliore per sincronizzazione labiale e timing precisi. Tutorial della community e walkthrough su YouTube mostrano step-by-step come abbinare l’audio ai video di Midjourney.

Esempio rapido: combina audio + video con `ffmpeg`

Supponendo che video.mp4 (silenzioso) e speech.mp3 (TTS) siano pronti:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Per mix più avanzati (musica di sottofondo + dialogo + effetti), renderizza un’unica traccia audio mixata dalla tua DAW e poi muxa nel video come sopra.

Come scrivere prompt di movimento per controllare l’animazione?

Modelli di prompt di movimento

Il motion prompting in Midjourney V1 è guidato dal linguaggio naturale. Pattern utili:

Direzionale / azione: “carrello della camera a sinistra mentre il soggetto cammina in avanti”
Movimento dell’oggetto: “una foglia cade dall’albero e fluttua verso la camera”
Istruzione di camera: “zoom lento in avanti, leggero parallasse, velocità 2x”
Qualità temporale: “movimento sottile, loopabile, ritmo cinematografico”

Inizia con una frase di movimento concisa, poi aggiungi aggettivi per stile e timing: es., "start_frame_url animate: 'camera a spirale lenta, il soggetto ondeggia delicatamente, loopabile', style: 'grana della pellicola, cinematografico, tempo 2 fps'". Sperimentazione e piccole iterazioni sono essenziali.

Animazione automatica vs manuale

Automatic: lascia che il modello inferisca un movimento plausibile. Ideale per esperimenti rapidi.
Manual: fornisci percorsi di camera e vettori del soggetto espliciti per risultati coerenti e ripetibili — utile quando serve una coreografia prevedibile o per abbinare filmati live-action.

Come estendere i video, cambiare la dimensione del batch o creare loop?

Estendere la lunghezza del video

Dopo la generazione, Midjourney (e wrapper come CometAPI) espongono controlli “Extend”. L’interfaccia di Midjourney consente di estendere una clip di 5 secondi di 4 secondi per ogni estensione (fino a ~21 secondi). A livello programmatico, si chiama lo stesso endpoint con un flag extend oppure si invia un nuovo job extend che fa riferimento alla clip originale (la documentazione di CometAPI mostra gli endpoint parametrizzati e i pulsanti nella panoramica). Aspettati costi di estensione simili alla generazione iniziale.

Creare video in loop o specificare i frame finali

Per il loop, riutilizza il frame iniziale come frame finale o aggiungi il parametro --loop.
Per un frame finale diverso, fornisci un altro URL di immagine (come end) e assicurati che sia compatibile nell’aspect ratio. Midjourney supporta un parametro --end. Considera di usare l’estensione manual per ritoccare i prompt durante l’estensione per la continuità.

Dimensione del batch e controllo dei costi

Midjourney genera più varianti per impostazione predefinita (dimensione batch 4). Per flussi di produzione o sensibili ai costi, imposta bs:1 per ridurre il calcolo. La documentazione di Midjourney include stime del tempo GPU per SD vs HD e diverse dimensioni batch (utile per la previsione dei costi). CometAPI offre prezzi competitivi.

Conclusione

Il modello Video V1 di Midjourney è il primo passo pubblico verso il video programmabile — è conservativo per design ma promettente. Ci si aspettano aggiornamenti iterativi del modello con miglioramenti su sequenze più lunghe, maggiore fedeltà e rig di camera più controllabili. Il ruolo di CometAPI come aggregatore abbassa la barriera di integrazione per gli sviluppatori che vogliono aggiungere video Midjourney nelle app senza gestire autenticazioni specifiche dei provider e le idiosincrasie di concorrenza.

Gli sviluppatori possono accedere alla MIdjourney Video API tramite CometAPI. Per iniziare, esplora le capacità del modello di CometAPI nel Playground e consulta la guida all’API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. Com e tAPI offre un prezzo molto inferiore rispetto al prezzo ufficiale per aiutarti a integrare.

Pronto a partire?→ Prova gratuita di Midjourney!

Che cos’è Midjourney V1

Cosa fa Midjourney V1 e come viene presentato agli utenti

Come CometAPI mette a disposizione il modello Midjourney Video

Come prepararsi prima di chiamare l’API?

Quali credenziali e account servono?

Decisioni iniziali da prendere

Come chiamare l’endpoint video di Midjourney di CometAPI (passo per passo con esempi)?

Qual è il payload minimo della richiesta?

Esempio Python (requests)

Come aggiungere audio (voce, musica, effetti sonori) a un video Midjourney/CometAPI?

Midjourney produce audio nativamente?

Pipeline consigliate per aggiungere voce e suono

Esempio rapido: combina audio + video con `ffmpeg`

Come scrivere prompt di movimento per controllare l’animazione?

Modelli di prompt di movimento

Animazione automatica vs manuale

Come estendere i video, cambiare la dimensione del batch o creare loop?

Estendere la lunghezza del video

Creare video in loop o specificare i frame finali

Dimensione del batch e controllo dei costi

Conclusione

Leggi di più

500+ Modelli in Una API

Come creare un video con l'API di Midjourney

Che cos’è Midjourney V1

Cosa fa Midjourney V1 e come viene presentato agli utenti

Come CometAPI mette a disposizione il modello Midjourney Video

Come prepararsi prima di chiamare l’API?

Quali credenziali e account servono?

Decisioni iniziali da prendere

Come chiamare l’endpoint video di Midjourney di CometAPI (passo per passo con esempi)?

Qual è il payload minimo della richiesta?

Esempio Python (requests)

Come aggiungere audio (voce, musica, effetti sonori) a un video Midjourney/CometAPI?

Midjourney produce audio nativamente?

Pipeline consigliate per aggiungere voce e suono

Esempio rapido: combina audio + video con ffmpeg

Come scrivere prompt di movimento per controllare l’animazione?

Modelli di prompt di movimento

Animazione automatica vs manuale

Come estendere i video, cambiare la dimensione del batch o creare loop?

Estendere la lunghezza del video

Creare video in loop o specificare i frame finali

Dimensione del batch e controllo dei costi

Conclusione

Leggi di più

500+ Modelli in Una API

Esempio rapido: combina audio + video con `ffmpeg`