Lancement de l'API Grok 4 Fast : 98 % moins cher à exécuter, conçu pour la recherche à haut débit

xAI annoncé Grok 4 Fast, une variante optimisée en termes de coûts de sa famille Grok qui, selon la société, offre des performances de référence proches de celles des produits phares tout en réduisant le prix pour atteindre ces performances en 98% comparé à Grok 4. Le nouveau modèle est conçu pour la recherche à haut débit et l'utilisation d'outils agents, et comprend une fenêtre de contexte de 2 millions de jetons et des variantes distinctes de « raisonnement » et de « non-raisonnement » pour permettre aux développeurs d'adapter le calcul à leurs besoins.

Principales fonctionnalités et avantages

Modèle d'inférence rentable : Grok 4 Fast est construit à partir de la famille Grok 4 en mettant l'accent sur l'efficacité des jetons et l'utilisation des outils en temps réel. xAI rapporte que le modèle nécessite environ 40 % de jetons « pensants » en moins En moyenne. L'analyse artificielle, qui suit la latence, la vitesse de sortie et le rapport prix/performance sur de nombreux modèles publics, place Grok 4 Fast très haut sur ses frontières intelligence/coût et confirme les vitesses de sortie rapides du modèle et son rapport coût favorable lors des premiers tests.

Grok 4 Fast

Grandes fenêtres de contexte : Grok 4 Fast est conçu pour la recherche à haut débit et l'utilisation d'outils agents, et comprend une fenêtre de contexte de 2 millions de jetons et des variantes distinctes de « raisonnement » et de « non-raisonnement » pour permettre aux développeurs d'adapter le calcul à leurs besoins.

Capacités d'utilisation d'outils natifs : Grok 4 Fast offre des fonctionnalités de recherche Web et X de pointe qui améliorent la récupération, la navigation et la synthèse du contenu Web pendant les flux de travail agentiques, positionnant Grok 4 Fast comme un outil de recherche pratique pour les applications qui nécessitent la collecte d'informations en temps réel et le raisonnement sur de longs documents. Il est à la pointe des performances sur de nombreux critères de recherche, notamment :

BrowseComp (zh) : 51.2 % (contre 45.0 % pour Grok 4)
X Bench Deepsearch (zh) : 74.0 % (contre 66.0 % pour Grok 4)

Architecture unifiée : Le même modèle prend en charge les modes inférentiel et non inférentiel, éliminant ainsi le besoin de changer de modèle séparément. Sa latence et son coût réduits le rendent adapté aux applications temps réel (telles que la recherche, les réponses aux questions et l'aide à la recherche).

Comparaison des performances (principaux benchmarks)

Lors des tests privés LMArena partagés par xAI, le grok-4-fast-search (nom de code Menlo) la variante domine l'arène de recherche avec une cote Elo de 1,163, tandis que la variante de texte (tahoe) se situe dans le top 10 du Text Arena — les résultats que xAI utilise pour étayer ses affirmations en matière de performances de recherche.

Grok 4 égale ou suit de près Grok 4 sur plusieurs benchmarks de frontière (par exemple : GPQA Diamond, AIME 2025 et HMMT 2025), tout en surpassant les modèles plus petits précédents sur les tâches de raisonnement — une preuve que xAI utilise pour justifier l'affirmation de « performances comparables ».

Lancement de l'API Grok 4 Fast : 98 % moins cher à exécuter, conçu pour la recherche à haut débit

Comparer les résultats

Comparé à Grok 4 : moins cher et moins gourmand en ressources de calcul, mais avec des performances similaires.

Par rapport à Grok 3 Mini : Plus puissant, capable de raisonnement complexe et de recherche en temps réel.

Comparé à GPT-5/Gemini/Claude : grâce à son efficacité de jeton extrêmement élevée et à ses capacités d'outillage, il est en tête en termes de rentabilité et de certaines tâches de recherche.

Tarifs et disponibilité

Contexte et jetons : Deux saveurs de modèles : grok-4-fast-reasoning et grok-4-fast-non-reasoning, chacun avec un contexte de 2M.

Prix publiés (liste) dans la publication de lancement (exemples de niveaux) :

Jetons d'entrée : 0.20 $ / 1 M (<128 k) — 0.40 $ / 1 M (≥128k)
Jetons de sortie : 0.50 $ / 1 M (<128 k) — 1.00 $ / 1 M (≥128k)
Jetons d'entrée mis en cache : 0.05 $ / 1 M.
(Voir l'annonce xAI pour les règles de facturation exactes et toutes les promotions à durée limitée.)

Disponibilité du fournisseur : xAI répertorie la disponibilité gratuite à court terme via OpenRouter et Vercel AI Gateway et la disponibilité générale via l'API de xAI.

Ce que cela signifie pour les utilisateurs et les équipes

Des économies importantes pour l'utilisation en production — La combinaison d'un prix par jeton plus bas et d'un nombre réduit de jetons « réfléchissants » permet aux équipes d'exécuter davantage de requêtes ou de workflows à plus grande échelle pour une fraction du coût de Grok 4, ce qui réduit considérablement les obstacles à l'expérimentation et aux déploiements à grande échelle. (Affirmation corroborée par les informations coûts/performances de xAI et des analyses de coûts réalisées par des tiers.)
Fonctionne avec des documents très longs et un raisonnement en plusieurs étapes — Les jetons 2M permettent d'ingérer facilement des livres entiers, de grandes bases de code ou de longs dossiers juridiques/techniques en une seule session, améliorant ainsi la précision et la cohérence des tâches nécessitant un contexte à long terme (recherche de documents, résumé, génération de code long, assistants de recherche).
Sorties plus rapides et à faible latence pour les applications interactives — Étant une variante « rapide », elle est conçue pour un débit de jetons plus rapide et une latence plus faible, ce qui est avantageux pour les interfaces de chat, les assistants de codage et les boucles d'agents en temps réel où la réactivité est essentielle. (L'analyse artificielle et les benchmarks des fournisseurs mettent l'accent sur la vitesse de sortie comme facteur de différenciation.)
Bon rapport qualité/prix pour les tâches de raisonnement référencées — pour les équipes qui jugent les modèles selon des critères académiques de pointe, Grok 4 Fast offre un compromis solide : une précision proche de la frontière à un coût considérablement inférieur, ce qui le rend attrayant pour les laboratoires de recherche et les entreprises qui exécutent fréquemment des suites de référence coûteuses.

Conclusion:

Grok 4 Fast positionne xAI pour être compétitif en termes de rapport qualité-prix et pour les applications d'agents centrées sur la recherche. Si les promesses d'efficacité et de vérification de l'entreprise se confirment lors de tests indépendants et spécifiques au domaine, Grok 4 Fast pourrait redéfinir les attentes en matière de coûts pour les déploiements LLM hautes performances et outillé(e)s, en particulier pour les applications qui s'appuient sur la recherche web en direct et l'utilisation d'outils en plusieurs étapes.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Les développeurs peuvent accéder Grok-4-rapide ( modèle: grok-4-fast-reasoning” / “grok-4-fast-reasoning) via CometAPI, la dernière version du modèle est constamment mis à jour avec le site officiel. Pour commencer, explorez les capacités du modèle dans la section cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Prêt à partir ?→ Inscrivez-vous à CometAPI dès aujourd'hui !