Il passaggio di Midjourney al video è stata una delle più grandi storie di tecnologia creativa del 2025. Quello che era nato come uno strumento amato e incentrato sulle immagini ha aggiunto un flusso “Image-to-Video” che trasforma immagini statiche in brevi clip animate — e il sistema sta cambiando rapidamente.
La capacità video di Midjourney è un flusso image-to-video che anima una singola immagine in una breve clip tramite un flusso “Animate”, producendo clip di cinque secondi per impostazione predefinita e consentendo estensioni fino a ~21 secondi. La funzione è stata lanciata a metà 2025 come modello video V1 di Midjourney ed è disponibile tramite la Midjourney Video V1 API di CometAPI.
Che cos’è Midjourney V1
Cosa fa Midjourney V1 e come viene presentato agli utenti
Il modello video V1 di Midjourney trasforma una singola immagine statica (generata all’interno di Midjourney o un’immagine ospitata esternamente) in brevi clip animate — per impostazione predefinita di circa 5 secondi — utilizzando modalità di animazione automatiche o manuali e flag di intensità del movimento (--motion low / --motion high). Gli utenti possono estendere le clip a incrementi di 4 secondi (fino a ~21 secondi) e controllare dimensione del batch, loop e fotogrammi finali; gli output video sono MP4. Il modello V1 Video di Midjourney è un modello image-to-video ottimizzato per clip brevi, stilizzate e loopabili. Le caratteristiche tipiche del modello V1 includono:
- Lunghezza base della clip ~5 secondi, con un meccanismo di estensione controllato (incrementi di 4 secondi, fino a un limite documentato).
- Enfasi sulla preservazione dello stile artistico dell’immagine di origine (pennellate, colore, atmosfera).
- Compromessi tra risoluzione e qualità per iterazioni rapide; V1 è orientato a contenuti social e web più che a un output cinematografico completo.
Questi vincoli influenzano come progettare asset e prompt: V1 è ideale per movimento conciso, still animati, loop di prodotto “hero” o brevi motivi di personaggi, piuttosto che scene lunghe.
Come CometAPI espone il modello Midjourney Video
CometAPI è un gateway multi-modello che aggrega l’accesso a centinaia di modelli di IA (testo, immagine, audio e ora image-to-video) dietro un’unica interfaccia REST. La sua offerta Midjourney Video incapsula la capacità Video V1 di Midjourney così che gli ingegneri possano richiamare la generazione image-to-video in modo programmatico invece di fare affidamento esclusivamente su Discord/web. Ciò è utile per automatizzare pipeline creative, creare proof-of-concept e integrare brevi asset animati in app o flussi di produzione contenuti.
CometAPI’s Midjourney Video consente agli sviluppatori di autenticarsi, chiamare un endpoint /mj/submit/video e passare parametri come il prompt (che può includere un URL dell’immagine iniziale), videoType (ad es., vid_1.1_i2v_480), mode (fast/relax) e animateMode (automatic/manual). CometAPI offre prezzi per chiamata più bassi e maggiore comodità (singola chiave API + interfaccia REST) rispetto all’integrazione diretta tramite il workflow incentrato su Discord di Midjourney.
Come prepararsi prima di chiamare l’API?
Quali credenziali e account sono necessari?
- Registrati su CometAPI e genera una chiave API dal dashboard del tuo account (CometAPI usa un bearer token come
sk-xxxxx). - Assicurati di avere risorse immagine disponibili online (URL pubblicamente accessibile) se intendi usare immagini esterne come frame iniziale. Midjourney richiede URL raggiungibili per i workflow immagine→video esterni.
Decisioni da prendere in anticipo
- Immagine di partenza — scegli un’immagine con un soggetto e una composizione chiari; il rapporto d’aspetto influisce sulla risoluzione/aspect ratio finale del video (Midjourney mappa i rapporti d’aspetto di partenza a dimensioni in pixel SD/HD).
- Stile del movimento — decidi Low vs High motion (
--motion lowvs--motion high) e se desideri inferenza automatica o controllo manuale del movimento di camera/soggetto. - Durata e dimensione del batch — il valore predefinito è 5 secondi; puoi estendere fino a ~21 s. La dimensione del batch predefinita è 4 (Midjourney restituisce 4 varianti), ma puoi richiedere 1 o 2 per risparmiare calcolo.
- Risoluzione — V1 è principalmente SD (480p) per impostazione predefinita; HD (720p) richiede la specifica del parametro, ad esempio vid_1.1_i2v_480.
Come chiamare l’endpoint video di Midjourney di CometAPI (passo dopo passo con esempi)?
Qual è il payload minimo della richiesta?
Al minimo, invii:
prompt: l’URL dell’immagine di partenza e un eventuale prompt testuale di movimento (ad es.," add a dog running from left to right").videoType: ad es.,vid_1.1_i2v_480.mode:"fast"(o"relax"se consentito dal piano).animateMode:"automatic"o"manual".
Questo è un curl di esempio che illustra un POST a[ Ecco un esempio curl pulito e pronto da copiare, adattato dall’esempio di CometAPI:
curl --location --request POST ' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": " A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Esempio in Python (requests)
Se preferisci Python, ecco un esempio robusto che usa requests, invia un job video e fa polling fino al completamento (sostituisci i placeholder). Questo è un pattern pratico: invia → verifica → scarica. L’esempio qui sotto è volutamente semplice e andrebbe adattato al sistema di job/async della tua app in produzione.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": " A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
Come aggiungere audio (voce, musica, effetti sonori) a un video Midjourney/CometAPI?
Midjourney produce audio nativamente?
No — a partire dalla V1, l’output video di Midjourney è muto (MP4 senza audio incorporato). Gli utenti aggiungono il suono esternamente. (Esistono altri sistemi di IA che generano audio/video insieme, ma la V1 di Midjourney è focalizzata sul movimento visivo.)
Pipeline consigliate per aggiungere voce e suono
- Text-to-Speech (TTS) per narrazione/voce — Usa ElevenLabs, Replica o servizi TTS/voice-cloning simili per generare tracce vocali a partire da script. Questi servizi consentono di produrre stili di parlato naturali spesso a basso costo al minuto. (Post della community/LinkedIn suggeriscono ElevenLabs come scelta leggera per la voce.)
- Strumenti di design audio IA per musica/SFX — Strumenti come MM Audio, Magicshot o generatori SFX specializzati possono creare sottofondi e effetti che si adattano alla clip. Guide e tutorial della community mostrano una buona qualità da MM Audio e altre IA audio.
- Approccio manuale con DAW/Editor (controllo fine) — Importa l’MP4 generato in DaVinci Resolve / Premiere / Audacity, aggiungi audio TTS, effetti sonori e fai il mix. È il percorso migliore per un lip sync e un timing precisi. Tutorial della community e walkthrough su YouTube mostrano passaggi dettagliati per abbinare l’audio ai video di Midjourney.
Esempio rapido: combinare audio + video con ffmpeg
Assumendo che video.mp4 (muto) e speech.mp3 (TTS) siano pronti:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
Per mix più avanzati (musica di sottofondo + dialogo + effetti sonori), esegui il rendering di una singola traccia audio mixata dalla tua DAW e poi muxala nel video come sopra.
Come scrivere prompt di movimento per controllare l’animazione?
Schemi dei prompt di movimento
Il prompting di movimento in Midjourney V1 è guidato dal linguaggio naturale. Schemi utili:
- Direzionale / azione: “carrello a sinistra mentre il soggetto cammina in avanti”
- Movimento dell’oggetto: “una foglia cade dall’albero e scivola verso la camera”
- Istruzione di telecamera: “zoom lento in avanti, leggero parallasse, velocità 2x”
- Qualità temporale: “movimento sottile, loopabile, ritmo cinematografico”
Inizia con una frase concisa sul movimento, poi aggiungi aggettivi per stile e timing: ad es., "start_frame_url animate: 'camera a spirale lenta, il soggetto ondeggia dolcemente, loopabile', style: 'grana di pellicola, cinematografico, tempo a 2 fps'". Sperimentazione e piccole iterazioni sono essenziali.
Animazione automatica vs manuale
- Automatica: lascia che il modello inferisca un movimento plausibile. Ideale per esperimenti rapidi.
- Manuale: fornisci percorsi di camera espliciti e vettori del soggetto per risultati coerenti e ripetibili — utile quando serve una coreografia prevedibile o per allinearsi a riprese live-action.
Come estendere i video, cambiare la dimensione del batch o creare loop?
Estendere la durata del video
Dopo la generazione, Midjourney (e i wrapper come CometAPI) espongono controlli “Extend”. L’interfaccia di Midjourney consente di estendere una clip di 5 secondi di 4 secondi per estensione (fino a ~21 secondi). A livello programmatico, o chiami lo stesso endpoint con un flag extend oppure invii un nuovo job di estensione facendo riferimento alla clip originale (la documentazione di CometAPI mostra endpoint e pulsanti parametrizzati nella loro panoramica). Aspettati costi di estensione simili alla generazione iniziale.
Creare video in loop o specificare fotogrammi finali
- Per ottenere un loop, riutilizza il fotogramma iniziale come fotogramma finale o aggiungi il parametro
--loop. - Per un fotogramma finale diverso, fornisci un altro URL immagine (come
end) e assicurati che sia compatibile nel rapporto d’aspetto. Midjourney supporta un parametro--end. Valuta l’uso dell’estensione manuale per perfezionare i prompt durante l’estensione e mantenere la continuità.
Dimensione del batch e controllo dei costi
Midjourney genera più varianti per impostazione predefinita (dimensione del batch 4). Per flussi in produzione o attenti ai costi, imposta bs:1 per ridurre il calcolo. La documentazione di Midjourney include stime del tempo GPU per SD vs HD e per diverse dimensioni di batch (utile per la previsione dei costi). CometAPI offre prezzi competitivi.
Conclusione
Il modello Video V1 di Midjourney è il primo passo pubblico verso il video programmatico — è conservativo per design ma promettente. Ci aspettiamo aggiornamenti iterativi del modello che migliorino sequenze più lunghe, fedeltà più alta e rig di camera più controllabili. Il ruolo di CometAPI come aggregatore abbassa la barriera di integrazione per gli sviluppatori che vogliono aggiungere video Midjourney nelle app senza gestire le idiosincrasie di autenticazione e concorrenza specifiche dei vari provider.
Gli sviluppatori possono accedere alla MIdjourney Video API tramite CometAPI. Per iniziare, esplora le funzionalità del modello su CometAPI nel Playground e consulta la guida all’API per istruzioni dettagliate. Prima dell’accesso, assicurati di aver effettuato il login su CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti nell’integrazione.
Pronto a iniziare?→ Prova gratuita di Midjourney!
