API di modifica delle immagini Qwen

CometAPI
AnnaNov 12, 2025
API di modifica delle immagini Qwen

Qwen-Image-Edit è il ramo di editing della famiglia di immagini Qwen sviluppato dal team Qwen (ecosistema Alibaba/QwenLM). Si basa su un'architettura MMDiT da 20 miliardi di parametri ed estende esplicitamente le funzionalità avanzate di rendering del testo di Qwen-Image a flussi di lavoro di editing di immagini affidabili. Il modello è pensato per attività in cui la fedeltà di editing è fondamentale, ad esempio la modifica diretta del testo sui cartelli, la conservazione di font e layout, l'aggiunta/rimozione di oggetti mantenendo la coerenza semantica, le trasformazioni di punti di vista/pose e i trasferimenti di stile dettagliati.

Funzionalità principali

  • Modifica precisa del testo nelle immagini (bilingue: cinese e inglese) — aggiungi, rimuovi o sostituisci il testo preservando il più possibile carattere/dimensione/stile.
  • Doppia modalità di modifica: semantica + aspetto — supporta modifiche semantiche di alto livello (riposo, sostituzione di oggetti, punto di vista) e modifiche estetiche di basso livello (trasferimento di stile, texture, ritocco locale).
  • Modifiche maschera/regione/multi-turn — supporta l'inpainting mascherato, i prompt di regione e le modifiche concatenate per flussi di lavoro di perfezionamento iterativo.
  • Input multi-immagine (ultima versione): l'iterazione 2509 aggiunge il supporto per la modifica di più immagini (ad esempio, persona+persona, persona+prodotto), una migliore coerenza identità/prodotto/testo e input nativi in ​​stile ControlNet.

Dettagli tecnici

  • Scala di base / famiglia: costruito su Parametro 20B Modello di fondazione Qwen-Image (diffusione in stile MMDiT/progettazione multimodale).
  • Pipeline di editing a doppia codifica: Il modulo di editing riceve (1) una rappresentazione semantica tramite un codificatore visivo Qwen2.5-VL e (2) una rappresentazione ricostruttiva tramite un codificatore VAE. L'alimentazione di entrambe le rappresentazioni in parallelo consente alla testina di editing di bilanciare il cambiamento semantico con la fedeltà dei pixel. Questa doppia codifica è una scelta ingegneristica fondamentale per editing robusti.
  • Formazione progressiva/curriculare: La formazione è passata da compiti più semplici di rendering e generazione di testo a complessi obiettivi di rendering di testo a livello di paragrafo e di editing multi-task (ricostruzione T2I, TI2I, I2I). Si ritiene che questo curriculum sia un fattore centrale nel miglioramento della fedeltà del testo e della stabilità di editing del modello.
  • Modello di sapore / moduli: Qwen-Image-Edit è descritto come un modello 20B in stile MMDiT che integra componenti Qwen2.5-VL, una testina di editing a diffusione e componenti VAE per il controllo dell'aspetto.

Prestazioni di riferimento

SOTA cross-benchmark dichiarato: il team Qwen riporta risultati all'avanguardia (SOTA) o di alto livello su più benchmark di generazione e modifica di immagini pubbliche, tra cui GenEval, DPG, OneIG-Bench (generazione) e GEdit, ImgEdit, GSO (modifica).

API di modifica delle immagini Qwen

Limitazioni e avvertenze (pratiche)

  1. Artefatti e casi limite: I test della community mostrano occasionalmente sovrasaturazione, artefatti nella texture della pelle o giunture di compositing in alcune modifiche ad alto dettaglio; i fork di Lightning della community mirano a mitigare questi problemi.
  2. Calcolo/memoria: Il modello 20B e le pipeline di editing a precisione completa richiedono un utilizzo intensivo della GPU. L'implementazione locale beneficia di bfloat16/FP8 e di flussi di lavoro di campionamento ottimizzati (esistono varianti "lightning" a 4/8 step per ridurre VRAM e latenza).
  3. Sicurezza e IP: Come tutti i programmi di imaging generici, Qwen-Image-Edit può generare personaggi protetti da copyright o contenuti sensibili: l'uso in produzione richiede controlli di moderazione e autorizzazione dei diritti. (Tipica best practice aziendale.)
  4. Modalità di errore: caratteri/parole oscuri o molto rari potrebbero comunque essere resi in modo errato o richiedere modifiche iterative ("concatenate") per convergere (gli autori segnalano esempi come rari glifi cinesi che richiedono correzioni graduali).

Confronto tra Qwen-Image-Edit e altre opzioni

  • Diffusione stabile / SDXL (inpainting): SDXL più ControlNet e pipeline di inpainting dedicate sono veloci, hanno un ampio supporto di strumenti della community e molti LoRA; eccellono nei flussi di lavoro di inpainting generali e nella velocità/efficienza. I punti di forza di Qwen-Image-Edit sono editing di testo bilingue madrelingua, una maggiore coerenza tra identità e prodotto in alcuni casi e compromessi integrati tra semantica e aspetto. I confronti tra community mostrano che Qwen spesso si posiziona più in alto in termini di fedeltà di editing e aderenza al testo, ma con costi di elaborazione più elevati.
  • Editor closed-source (Adobe Firefly / DALL·E / Runway): Le API chiuse possono essere molto curate (interfaccia utente, moderazione integrata, garanzie di latenza), ma Qwen-Image-Edit si distingue come un'alternativa completamente aperta che punta specificamente a un editing di testo bilingue robusto e offre un'implementazione locale. La scelta pratica dipende spesso dalla necessità di controllo locale/licenze aperte o di un'esperienza utente cloud curata.

Casi d'uso pratici

  • Modifiche di poster e segnaletica — modificare il testo sui poster preservando il font/la texture.
  • Marketing del prodotto / generazione di poster — aggiungere/rimuovere articoli, mantenere l'identità del prodotto per le immagini dell'e-commerce.
  • Modifiche che preservano l'identità del ritratto — modifiche di posa, trasferimenti di stile mantenendo l'identità coerente (migliorato nella versione 2509).
  • Restauro e correzione calligrafica — restauro di vecchie foto e correzione graduale di caratteri scritti a mano/stampati.
  • Flussi di lavoro creativi/di progettazione — modifiche alla composizione di più immagini, generazione di meme, stile di avatar in cui potrebbe essere coinvolto testo bilingue.

Come chiamare l'API qwen-image-edit da CometAPI

qwen-image-edit Prezzi API in CometAPI: sconto del 20% sul prezzo ufficiale:

Token di input$2.00
Gettoni di uscita$6.40

Passi richiesti

  • Accedere cometapi.comSe non sei ancora un nostro utente, ti preghiamo di registrarti prima.
  • Accedi al tuo Console CometAPI.
  • Ottieni la chiave API delle credenziali di accesso dell'interfaccia. Fai clic su "Aggiungi token" nel token API nell'area personale, ottieni la chiave token: sk-xxxxx e invia.

API di modifica delle immagini Qwen

Usa il metodo

  1. Selezionare l'endpoint "qwen-image-edit" per inviare la richiesta API e impostarne il corpo. Il metodo e il corpo della richiesta sono reperibili nella documentazione API del nostro sito web. Il nostro sito web fornisce anche un test Apifox per vostra comodità.
  2. Sostituire con la tua chiave CometAPI effettiva dal tuo account.
  3. Inserisci la tua domanda o richiesta nel campo contenuto: il modello risponderà a questa domanda.
  4. Elaborare la risposta API per ottenere la risposta generata.

CometAPI fornisce un'API REST completamente compatibile, per una migrazione senza interruzioni. Dettagli chiave per modifica immagine:

Vedi anche API Qwen-image

Leggi di più

500+ Modelli in Una API

Fino al 20% di sconto