Modèle - Un Accès API pour 500+ Modèles d'IA - CometAPI

Nano Banana 2

Nano Banana 2

Aperçu des capacités principales: Résolution: Jusqu'à 4K (4096×4096), comparable à Pro. Cohérence des images de référence: Jusqu'à 14 images de référence (10 objets + 4 personnages), en maintenant la cohérence du style et des personnages. Rapports d'aspect extrêmes: Nouveaux rapports 1:4, 4:1, 1:8, 8:1 ajoutés, adaptés aux images longues, aux affiches et aux bannières. Rendu de texte: Génération de texte avancée, adaptée aux infographies et aux mises en page d'affiches marketing. Amélioration de la recherche: Google Search + Image Search intégrés. Ancrage: Processus de réflexion intégré; les prompts complexes font l'objet d'un raisonnement avant la génération.

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6 est le grand modèle de langage de classe « Opus » d’Anthropic, publié en février 2026. Il est positionné comme un outil polyvalent pour le travail cognitif et les flux de travail de recherche — améliorant le raisonnement en contexte long, la planification à plusieurs étapes, l’utilisation d’outils (y compris des flux de travail logiciels basés sur des agents) et l’exécution de tâches informatiques telles que la génération automatisée de diapositives et de feuilles de calcul.

Claude Sonnet 4.6

Claude Sonnet 4.6

Claude Sonnet 4.6 est notre modèle Sonnet le plus performant à ce jour. Il s’agit d’une mise à niveau complète des capacités du modèle dans la programmation, l’usage de l’ordinateur, le raisonnement sur des contextes étendus, la planification d’agents, le travail intellectuel et la conception. Sonnet 4.6 propose également une fenêtre de contexte de 1M de jetons en bêta.

GPT-5.4 nano

GPT-5.4 nano

Contexte:400,000

Entrée:$0.16/M

GPT-5.4 nano est conçu pour des tâches où la vitesse et le coût comptent le plus, comme la classification, l’extraction de données, le classement et les sous-agents.

GPT-5.4 mini

GPT-5.4 mini

Contexte:400,000

GPT-5.4 mini apporte les atouts de GPT-5.4 dans un modèle plus rapide et plus efficace, conçu pour des charges de travail à grande échelle.

Claude Mythos Preview

Claude Mythos Preview

Bientôt disponible

Claude Mythos Preview est à ce jour notre modèle de pointe le plus performant et affiche un bond spectaculaire des scores sur de nombreux benchmarks d’évaluation, par rapport à notre précédent modèle de pointe, Claude Opus 4.6.

mimo-v2-pro

mimo-v2-pro

MiMo-V2-Pro est le modèle fondationnel phare de Xiaomi, doté de plus de 1T de paramètres au total et d’une longueur de contexte de 1M, profondément optimisé pour des scénarios agentiques. Il est hautement adaptable aux frameworks d’agents généraux comme OpenClaw. Il se classe parmi l’élite mondiale sur les benchmarks standard PinchBench et ClawBench, avec des performances perçues proches de celles d’Opus 4.6. MiMo-V2-Pro est conçu pour servir de cerveau des systèmes d’agents, orchestrer des workflows complexes, piloter des tâches d’ingénierie de production et livrer des résultats de manière fiable.

mimo-v2-omni

mimo-v2-omni

Entrée:$0.32/M

MiMo-V2-Omni est un modèle omni-modal de pointe qui traite nativement les entrées image, vidéo et audio au sein d'une architecture unifiée. Il combine une forte perception multimodale avec des capacités agentiques — ancrage visuel, planification en plusieurs étapes, utilisation d'outils et exécution de code — ce qui le rend particulièrement adapté aux tâches complexes du monde réel couvrant plusieurs modalités. Fenêtre de contexte de 256K.

MiniMax-M2.7

MiniMax-M2.7

Entrée:$0.24/M

MiniMax-M2.7 offre la même intelligence de premier ordre que la version standard — y compris l’auto-évolution récursive et une productivité bureautique de niveau expert — mais est conçu pour les applications nécessitant une latence inférieure à la seconde et une génération de jetons à grande vitesse. S’appuyant sur une architecture de backbone d’inférence améliorée, sa vitesse de sortie est 66 % plus rapide que celle du modèle standard (atteignant 100 tps). C’est le choix privilégié pour les assistants de programmation interactifs, l’exécution de boucles d’agents en temps réel et les pipelines d’entreprise à haut débit avec des exigences strictes en matière de temps de réponse.

GLM 5 Turbo

GLM 5 Turbo

Entrée:$0.96/M

Sortie:$3.264/M

GLM-5 Turbo est un nouveau modèle de Z.ai, conçu pour une inférence rapide et de hautes performances dans des environnements pilotés par des agents, tels que des scénarios OpenClaw.

GPT-5.4 pro

GPT-5.4 pro

Contexte:1,050,000

Version de GPT-5.4 qui produit des réponses plus intelligentes et plus précises.

GPT-5.4

GPT-5.4

Contexte:1,050,000

GPT-5.4 est le modèle de pointe pour des tâches professionnelles complexes. Reasoning.effort prend en charge : none (par défaut), low, medium, high et xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

Modèle GPT-5.3 Instant utilisé dans ChatGPT

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite est un modèle Tier-3 très économique et à faible latence de la série Gemini 3 de Google, conçu pour des flux de travail d’IA en production à fort volume où le débit et la vitesse priment sur la profondeur de raisonnement maximale. Il combine une vaste fenêtre de contexte multimodale et des performances d’inférence efficaces, à un coût inférieur à celui de la plupart des modèles phares.

Claude Haiku 4.5

Claude Haiku 4.5

Le modèle le plus rapide et le plus économique.

Sora 2 Pro

Sora 2 Pro

Par Seconde:$0.24

Sora 2 Pro est notre modèle de génération de médias le plus avancé et le plus puissant, capable de générer des vidéos avec audio synchronisé. Il peut créer des clips vidéo détaillés et dynamiques à partir de langage naturel ou d’images.

Sora 2

Sora 2

Par Seconde:$0.08

Modèle de génération vidéo ultra-puissant, avec des effets sonores, prend en charge le format conversationnel.

mj_fast_video

mj_fast_video

Par requête:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

Entrée:$0.16/M

En tant que modèle vision-langage natif, le QWEN3.5-397B-A17B de la série Qwen3.5 excelle dans des évaluations de référence complètes telles que l’inférence, la programmation, les capacités d’agent et la compréhension multimodale, aidant les développeurs et les entreprises à améliorer considérablement leur productivité. Le modèle utilise une architecture hybride innovante qui combine l’attention linéaire (Gated Delta Networks) avec des experts hybrides clairsemés (MoE) afin d’atteindre une excellente efficacité d’inférence : 397 milliards de paramètres au total et seulement 17 milliards de paramètres activés par propagation avant, optimisant la vitesse et les coûts tout en maintenant les performances. Nous avons également étendu la prise en charge des langues et dialectes de 119 à 201, offrant une disponibilité plus large et un meilleur support aux utilisateurs du monde entier.

Grok 4.20

Grok 4.20

Contexte:2,000,000

La version 4.20 de Grok introduit une architecture multi‑agents (plusieurs agents spécialisés coordonnés en temps réel), des modes de contexte étendus, ainsi que des améliorations ciblées en matière de suivi des instructions, de réduction des hallucinations et de sorties structurées/outillées.

Grok Imagine Video

Grok Imagine Video

Par Seconde:$0.04

Générez des vidéos à partir d'instructions textuelles, animez des images fixes ou modifiez des vidéos existantes à l'aide du langage naturel. L'API permet de configurer la durée, le ratio d'aspect et la résolution des vidéos générées — le SDK gère automatiquement le sondage asynchrone.

gpt-realtime-1.5

gpt-realtime-1.5

Contexte:32,000

Le meilleur modèle vocal pour audio en entrée, audio en sortie.

gpt-audio-1.5

gpt-audio-1.5

Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.

GPT 5.3 Codex

GPT 5.3 Codex

Contexte:400,000

GPT-5.3-Codex est optimisé pour des tâches de codage axées sur les agents dans Codex ou des environnements similaires. GPT-5.3-Codex prend en charge des niveaux d’effort de raisonnement faible, moyen, élevé et très élevé.

Doubao Seedream 5

Doubao Seedream 5

Par requête:$0.028

Seedream 5.0 Lite est un modèle de génération d’images multimodal unifié, doté de capacités de réflexion approfondie et de recherche en ligne, offrant une amélioration globale de ses capacités de compréhension, de raisonnement et de génération.

Gemini 3.1 Pro

Gemini 3.1 Pro

Gemini 3.1 Pro est la prochaine génération dans la série de modèles Gemini, une suite de modèles de raisonnement hautement performants, nativement multimodaux. Gemini 3 Pro est désormais le modèle le plus avancé de Google pour les tâches complexes, et peut comprendre de vastes ensembles de données ainsi que des problèmes difficiles issus de différentes sources d’information, y compris le texte, l’audio, les images, la vidéo et des dépôts de code entiers.

qwen3.5-plus

qwen3.5-plus

Entrée:$0.32/M

Les modèles Plus de la série vision-langage native Qwen3.5 sont conçus sur une architecture hybride qui intègre des mécanismes d’attention linéaire avec des modèles à mélange d’experts clairsemés, offrant une efficacité d’inférence accrue.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Entrée:$0.48/M

Le modèle vision-langage natif Qwen3.5 series 397B-A17B repose sur une architecture hybride qui intègre un mécanisme d’attention linéaire et un modèle à mélange d’experts clairsemé, offrant une efficacité d’inférence supérieure.

Doubao-Seed-2.0

Doubao-Seed-2.0

Entrée:$0.024/M

🔹 Série Doubao Seed 2.0 doubao-seed-2-0-code-preview-260215 Se concentre sur les capacités de raisonnement à longue chaîne et la stabilité pour les tâches complexes, adapté aux scénarios complexes dans des environnements professionnels réels. En tant que version de Seed 2.0 optimisée pour le code, ce modèle convient mieux à l’Agentic Coding. doubao-seed-2-0-lite-260215 Équilibre la qualité de génération et la vitesse de réponse, ce qui en fait un modèle polyvalent de niveau production. doubao-seed-2-0-mini-260215 Conçu pour des scénarios à faible latence, à forte simultanéité et sensibles aux coûts. Il met l’accent sur la réponse rapide et un déploiement d’inférence flexible, prenant en charge un raisonnement à quatre niveaux et des capacités de compréhension multimodale.

MiniMax M2.5

MiniMax M2.5

Entrée:$0.24/M

MiniMax-M2.5 est un grand modèle de langage de pointe conçu pour la productivité en conditions réelles. Formé dans une large gamme d’environnements de travail numériques réels et complexes, M2.5 s’appuie sur l’expertise en programmation de M2.1 pour s’étendre au travail bureautique général, atteignant une maîtrise de la génération et de la manipulation de fichiers Word, Excel et Powerpoint, du basculement de contexte entre des environnements logiciels variés, et du travail au sein d’équipes d’agents et d’humains.