Modello - Un'API Accede a 500+ Modelli AI - CometAPI

Nano Banana 2

Nano Banana 2

Ingresso:$0.4/M

Panoramica delle capacità principali: Risoluzione: Fino a 4K (4096×4096), alla pari con Pro. Coerenza delle immagini di riferimento: Fino a 14 immagini di riferimento (10 oggetti + 4 personaggi), mantenendo la coerenza di stile e dei personaggi. Rapporti d'aspetto estremi: Aggiunti i nuovi rapporti 1:4, 4:1, 1:8, 8:1, adatti a immagini lunghe, poster e banner. Rendering del testo: Generazione di testo avanzata, adatta per infografiche e layout per poster di marketing. Miglioramento della ricerca: Integrazione di Ricerca Google + Ricerca immagini. Grounding: Processo di ragionamento integrato; i prompt complessi vengono analizzati prima della generazione.

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6 è il modello linguistico di grandi dimensioni di classe “Opus” di Anthropic, rilasciato nel febbraio 2026. È posizionato come un cavallo di battaglia per il lavoro della conoscenza e i flussi di lavoro di ricerca — migliorando il ragionamento con contesti estesi, la pianificazione in più fasi, l’uso di strumenti (inclusi i flussi di lavoro software basati su agenti) e le attività d’uso del computer, come la generazione automatizzata di diapositive e fogli di calcolo.

Claude Sonnet 4.6

Claude Sonnet 4.6

Ingresso:$2.4/M

Claude Sonnet 4.6 è il nostro modello Sonnet più capace finora. È un aggiornamento completo delle capacità del modello in ambiti quali programmazione, uso del computer, ragionamento su contesti estesi, pianificazione degli agenti, lavoro basato sulla conoscenza e design. Sonnet 4.6 offre anche una finestra di contesto da 1M token in beta.

GPT-5.4 nano

GPT-5.4 nano

Contesto:400,000

Ingresso:$0.16/M

GPT-5.4 nano è progettato per attività in cui la velocità e il costo contano maggiormente, come classificazione, estrazione dei dati, ordinamento e sub-agenti.

GPT-5.4 mini

GPT-5.4 mini

Contesto:400,000

Ingresso:$0.6/M

GPT-5.4 mini porta i punti di forza di GPT-5.4 in un modello più veloce ed efficiente, progettato per carichi di lavoro ad alto volume.

Claude Mythos Preview

Claude Mythos Preview

Claude Mythos Preview è il nostro modello di frontiera più capace finora e mostra un balzo notevole nei punteggi su molti benchmark di valutazione rispetto al nostro precedente modello di frontiera, Claude Opus 4.6.

mimo-v2-pro

mimo-v2-pro

Ingresso:$0.8/M

MiMo-V2-Pro è il modello di base di punta di Xiaomi, con oltre 1T di parametri totali e una lunghezza del contesto di 1M, profondamente ottimizzato per scenari agentici. È altamente adattabile a framework per agenti generici come OpenClaw. Si colloca tra i migliori al mondo nei benchmark standard PinchBench e ClawBench, con prestazioni percepite che si avvicinano a quelle di Opus 4.6. MiMo-V2-Pro è progettato per fungere da cervello dei sistemi di agenti, orchestrando flussi di lavoro complessi, guidando attività di ingegneria in produzione e fornendo risultati in modo affidabile.

mimo-v2-omni

mimo-v2-omni

Ingresso:$0.32/M

MiMo-V2-Omni è un modello omnimodale all'avanguardia che elabora nativamente input di immagini, video e audio all'interno di un'architettura unificata. Combina una solida percezione multimodale con capacità agentiche - grounding visivo, pianificazione a più fasi, uso di strumenti ed esecuzione di codice - risultando particolarmente adatto a compiti complessi del mondo reale che coinvolgono più modalità. Finestra di contesto da 256K.

MiniMax-M2.7

MiniMax-M2.7

Ingresso:$0.24/M

MiniMax-M2.7 offre la stessa intelligenza di altissimo livello della versione standard, inclusa l’autoevoluzione ricorsiva e una produttività d’ufficio di livello esperto, ma è progettato per applicazioni che richiedono una latenza inferiore al secondo e una generazione di token ad alta velocità. Sfruttando un’architettura backbone di inferenza migliorata, la sua velocità di output è del 66% più rapida rispetto al modello standard (raggiungendo 100 tps). È la scelta ideale per assistenti di programmazione interattivi, esecuzione in tempo reale di cicli di agenti e pipeline aziendali ad alto throughput con rigorosi requisiti sui tempi di completamento.

GLM 5 Turbo

GLM 5 Turbo

Ingresso:$0.96/M

Uscita:$3.264/M

GLM-5 Turbo è un nuovo modello di Z.ai progettato per un'inferenza rapida e prestazioni elevate in ambienti basati su agenti, come gli scenari OpenClaw.

GPT-5.4 pro

GPT-5.4 pro

Contesto:1,050,000

Versione di GPT-5.4 che fornisce risposte più intelligenti e più precise.

GPT-5.4

GPT-5.4

Contesto:1,050,000

GPT-5.4 è il modello all'avanguardia per attività professionali complesse. Reasoning.effort supporta: none (predefinito), low, medium, high e xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

Ingresso:$1.4/M

Modello GPT-5.3 Instant utilizzato in ChatGPT

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Ingresso:$0.2/M

Gemini 3.1 Flash-Lite è un modello Tier-3 altamente efficiente in termini di costi e a bassa latenza della serie Gemini 3 di Google, progettato per flussi di lavoro di IA di produzione ad alto volume, in cui throughput e velocità contano più della massima profondità di ragionamento. Combina un'ampia finestra di contesto multimodale con prestazioni di inferenza efficienti, a un costo inferiore rispetto alla maggior parte dei modelli di punta.

Claude Haiku 4.5

Claude Haiku 4.5

Ingresso:$0.8/M

Il modello più veloce e con il miglior rapporto qualità-prezzo.

Sora 2 Pro

Sora 2 Pro

Al Secondo:$0.24

Sora 2 Pro è il nostro modello di generazione di contenuti multimediali più avanzato e potente, in grado di generare video con audio sincronizzato. Può creare clip video dettagliate e dinamiche a partire da linguaggio naturale o immagini.

Sora 2

Sora 2

Al Secondo:$0.08

Modello di generazione di video estremamente potente, con effetti sonori e supporto per il formato chat.

mj_fast_video

mj_fast_video

Per Richiesta:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

Ingresso:$0.16/M

In quanto modello visivo-linguistico nativo, QWEN3.5-397B-A17B della serie Qwen3.5 eccelle in valutazioni di benchmark complete, come inferenza, programmazione, capacità degli agenti e comprensione multimodale, aiutando sviluppatori e aziende a migliorare significativamente la produttività. Il modello adotta un’architettura ibrida innovativa che combina attenzione lineare (Gated Delta Networks) con esperti ibridi sparsi (MoE) per ottenere un’eccellente efficienza di inferenza: 397 miliardi di parametri totali e solo 17 miliardi di parametri attivati per ogni propagazione in avanti, ottimizzando velocità e costi mantenendo al contempo le capacità. Abbiamo inoltre ampliato il supporto a lingue e dialetti da 119 a 201, offrendo una disponibilità più ampia e un supporto migliore per gli utenti in tutto il mondo.

Grok 4.20

Grok 4.20

Contesto:2,000,000

Ingresso:$1.6/M

La versione 4.20 di Grok introduce un'architettura multi-agente (più agenti specializzati coordinati in tempo reale), modalità di contesto estese e miglioramenti mirati alla capacità di seguire le istruzioni, alla riduzione delle allucinazioni e agli output strutturati/strumentati.

Grok Imagine Video

Grok Imagine Video

Al Secondo:$0.04

Genera video da prompt testuali, anima immagini statiche o modifica video esistenti con il linguaggio naturale. L'API supporta la configurazione di durata, rapporto d'aspetto e risoluzione per i video generati — con l'SDK che gestisce automaticamente il polling asincrono.

gpt-realtime-1.5

gpt-realtime-1.5

Contesto:32,000

Ingresso:$3.2/M

Il miglior modello vocale per input e output audio.

gpt-audio-1.5

gpt-audio-1.5

Il miglior modello vocale per audio in entrata e in uscita con Chat Completions.

GPT 5.3 Codex

GPT 5.3 Codex

Contesto:400,000

Ingresso:$1.4/M

GPT-5.3-Codex è ottimizzato per compiti di programmazione agentici in Codex o ambienti simili. GPT-5.3-Codex supporta le impostazioni del livello di sforzo di ragionamento low, medium, high e xhigh.

Doubao Seedream 5

Doubao Seedream 5

Per Richiesta:$0.028

Seedream 5.0 Lite è un modello unificato multimodale per la generazione di immagini, dotato di capacità di pensiero profondo e di ricerca online, che presenta un potenziamento completo delle sue capacità di comprensione, ragionamento e generazione.

Gemini 3.1 Pro

Gemini 3.1 Pro

Ingresso:$1.6/M

Gemini 3.1 Pro è la nuova generazione della serie di modelli Gemini, una suite di modelli di ragionamento altamente capaci e nativamente multimodali. Gemini 3 Pro è ora il modello più avanzato di Google per attività complesse e può comprendere vasti dataset e problemi impegnativi provenienti da diverse fonti informative, inclusi testo, audio, immagini, video e interi repository di codice

qwen3.5-plus

qwen3.5-plus

Ingresso:$0.32/M

I modelli Plus della serie nativa di visione-linguaggio Qwen3.5 sono basati su un’architettura ibrida che integra meccanismi di attenzione lineare con modelli a miscela di esperti sparsi, ottenendo una maggiore efficienza di inferenza.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Ingresso:$0.48/M

Il modello nativo di visione e linguaggio Qwen3.5 series 397B-A17B è basato su un'architettura ibrida che integra un meccanismo di attenzione lineare con un modello a miscela di esperti sparso, ottenendo una maggiore efficienza di inferenza.

Doubao-Seed-2.0

Doubao-Seed-2.0

Ingresso:$0.024/M

🔹 Doubao Seed 2.0 Series doubao-seed-2-0-code-preview-260215 Si concentra sulle capacità di ragionamento su catene lunghe e sulla stabilità nei compiti complessi, ed è adattato a scenari complessi in ambienti aziendali reali. In quanto versione di Seed 2.0 con capacità di coding potenziate, è più adatto all'Agentic Coding. doubao-seed-2-0-lite-260215 Bilancia la qualità di generazione con la velocità di risposta, rendendolo adatto come modello di uso generale di livello produttivo. doubao-seed-2-0-mini-260215 Progettato per scenari a bassa latenza, alta concorrenza e sensibili ai costi. Pone l'accento su una risposta rapida e una distribuzione flessibile dell'inferenza, supportando capacità di pensiero a quattro livelli e di comprensione multimodale.

MiniMax M2.5

MiniMax M2.5

Ingresso:$0.24/M

MiniMax-M2.5 è un modello linguistico SOTA di grandi dimensioni progettato per la produttività nel mondo reale. Addestrato su una vasta gamma di complessi ambienti digitali di lavoro del mondo reale, M2.5 si basa sulla competenza in programmazione di M2.1 per estendersi alle attività d’ufficio generali, raggiungendo una piena padronanza nella creazione e nella gestione di file Word, Excel e PowerPoint, nel cambio di contesto tra ambienti software diversi e nel lavoro trasversale con diversi team di agenti e team umani.