OpenAI lance GPT-5.4 Series : ce que change GPT-5.4

La dernière version d’OpenAI, GPT-5.4, se présente comme une famille de modèles « orientés travail professionnel » avec deux variantes principales — GPT-5.4 Thinking et GPT-5.4 Pro — et met fortement l’accent sur le travail documentaire à long contexte, des capacités natives d’utilisation de l’ordinateur (agents) et une factualité ainsi que des performances de tâches améliorées sur les flux de travail bureautiques, juridiques et financiers. Cette version fait suite aux mises à jour précédentes de la lignée GPT‑5 (notamment GPT‑5.3 Instant et GPT‑5.3‑Codex) et apporte des améliorations mesurables sur des benchmarks internes et publics, une intégration plus profonde des outils (y compris un plug‑in ChatGPT pour Excel), et un contexte pris en charge plus large (jusqu’à 1 million de jetons).

CometAPI prend désormais en charge GPT-5.4 et GPT-5.4 Pro, et les propose avec des remises.

Qu’est-ce que GPT-5.4 ?

Positionnement et variantes

OpenAI présente GPT-5.4 comme le modèle le plus performant de la série GPT‑5, spécialement adapté aux flux de travail professionnels, riches en documents et de type agent. Il est proposé dans au moins deux variantes publiées :

GPT-5.4 Thinking — une variante axée sur le raisonnement qui expose davantage le processus de pensée du modèle et est optimisée pour le raisonnement multi‑étapes et les tâches de type agent (disponible dans ChatGPT sous le « mode Thinking »).
GPT-5.4 Pro — un palier d’inférence à plus forte allocation de calcul/priorité pour des charges nécessitant un débit élevé ou une faible latence, avec une tarification API plus élevée (reflétant le surcroît de calcul).

OpenAI met en avant les capacités natives de computer‑use de GPT‑5.4 — permettant aux modèles d’opérer des logiciels via des actions programmatiques souris/clavier et d’orchestrer des séquences multi‑outils — ce qui constitue un changement d’échelle pour construire de véritables agents accomplissant des tâches.

Capacités nouvelles et mises en avant

Prise en charge de longs contextes : GPT‑5.4 supporterait des contextes très larges (jusqu’à 1,000,000 jetons dans les contextes ChatGPT et Codex), permettant au modèle de conserver « en mémoire » d’énormes projets, livres, bases de code ou jeux de données au cours d’une session. C’est transformationnel pour la revue de documents, les contrats juridiques et les projets d’ingénierie multi‑fichiers.
Utilisation native de l’ordinateur / mode agent : GPT‑5.4 est le premier modèle polyvalent d’OpenAI doté de capacités natives d’utilisation de l’ordinateur — il peut générer des séquences d’actions d’interface et du code pour opérer des logiciels (p. ex. via Playwright ou en émettant des commandes souris/clavier guidées par des captures d’écran). Cette capacité est conçue pour permettre aux développeurs de créer des agents qui accomplissent des tâches sur des applications web et desktop.
Améliorations bureautiques : Accent marqué sur les feuilles de calcul, présentations et documents — avec des benchmarks internes montrant de grands gains en modélisation sur tableur, esthétique des présentations et qualité de rédaction de documents.
Factualité et réduction des hallucinations : OpenAI signale des réductions des erreurs factuelles par rapport aux modèles précédents sur des jeux d’évaluation internes (voir les benchmarks ci‑dessous).

Par rapport aux modèles antérieurs comme GPT‑5.2 Thinking et GPT‑5.3 Codex, GPT‑5.4 fusionne ces capacités en un seul modèle conçu pour gérer des tâches de longue durée et des workflows complexes avec une intervention minimale de l’utilisateur.

Principales fonctionnalités et points techniques de GPT-5.4

1) Fenêtres de contexte massives (jusqu’à 1,000,000 jetons)

La capacité la plus visible est la prise en charge de fenêtres de contexte jusqu’à 1,000,000 jetons via l’API. Cela étend ce qu’une seule session de modèle peut contenir : des livres entiers, de longues bases de code, ou des dossiers multi‑documents entiers sans découpage sur de multiples appels. Pour les workflows d’entreprise à forte intensité de connaissances (découverte juridique, synthèse de recherche, analyse de code à grande échelle), la capacité à maintenir un contexte d’un million de jetons réduit la « colle » d’ingénierie et améliore la cohérence.

Implication : des workflows qui nécessitaient auparavant de l’orchestration (recherche, découpage, mémoire externe) peuvent désormais conserver plus de contexte brut dans la mémoire de travail du modèle — simplifiant les pipelines et atténuant les compromis latence/cohérence.

2. Utilisation native de l’ordinateur et des outils

OpenAI met en avant une capacité accrue à opérer des outils et connecteurs logiciels (p. ex., feuilles de calcul, éditeurs de documents, environnements d’exécution de code) plus robustement que les modèles antérieurs. GPT‑5.4 prolonge les travaux précédents sur l’« utilisation d’outils » avec :

Une meilleure sélection d’outils et paramétrage.
Une planification de séquences plus fiable lors d’appels à des API externes ou d’actions de type interface utilisateur.
Une réduction de la surcharge en jetons pour les workflows agentiques grâce à une architecture d’appels d’outils plus intelligente.

Capacités pour agents et développeurs :

Automatisation desktop et web : Avec une prise en charge explicite de l’émission d’actions souris et clavier guidées par des captures d’écran, GPT‑5.4 peut être intégré dans des agents qui opèrent de vrais workflows logiciels (par exemple, remplir des formulaires, naviguer dans des tableaux de bord, ou exécuter des procédures multi‑étapes). OpenAI rapporte des résultats à l’état de l’art sur des benchmarks de type systèmes d’exploitation.
Interface d’outillage et pilotabilité : GPT‑5.4 est plus « pilotable » via des messages développeur et peut mieux décider quand et comment appeler des outils externes, connecteurs et API — une capacité cruciale pour construire des agents multi‑outils fiables qui minimisent les actions inutiles ou risquées.

Impact pratique : Les tâches d’automatisation (p. ex., « ouvre cette feuille de calcul, calcule ces tableaux croisés, génère des notes de diapos ») nécessitent moins de cycles d’échec/retry et une supervision humaine réduite.

3) Cinq niveaux d’effort de raisonnement, modes extrêmes

OpenAI indique plusieurs niveaux d’effort de raisonnement — permettant aux utilisateurs d’arbitrer latence/coût contre un calcul interne de chaîne de pensée plus profond (modes parfois désignés de manière informelle xhigh ou raisonnement extrême). Ceux‑ci sont destinés aux problèmes où une délibération interne plus importante améliore matériellement la justesse (preuves complexes, transformations de code longues, analyses financières multi‑étapes). La tarification API et la facturation reflètent le travail supplémentaire du modèle sous ces modes.

Impact pratique : Cette séparation permet aux clients de choisir les compromis adaptés à leurs charges plutôt que d’exiger d’un seul modèle qu’il « sache tout faire ».

4) Productivité et création de contenus

Modélisation sur feuilles de calcul : GPT‑5.4 montre de fortes améliorations sur des tâches de tableur susceptibles d’être utilisées dans des workflows d’audit, de finance et d’analyse. OpenAI rapporte un score moyen de 87.3% sur des tâches internes de type « investment banking modeling » pour GPT‑5.4 contre 68.4% pour GPT‑5.2. C’est une hausse spectaculaire de la précision au niveau des tâches pour la modélisation numérique et la construction de formules.
Présentations et sortie visuelle : Des évaluateurs humains ont préféré les présentations générées par GPT‑5.4 dans 68.0% des cas par rapport à celles de GPT‑5.2, en raison d’une meilleure esthétique, variété et intégration avec la génération d’images. Cela reflète des améliorations tant sur le fond que la forme pour produire des diaporamas.
Rédaction de documents et textes longs : GPT‑5.4 a été optimisé pour maintenir la cohérence sur de longs documents, un meilleur comportement de citation et moins de contradictions internes lors de la gestion de grands contextes, grâce à la fenêtre de contexte étendue et à un réglage dédié au raisonnement.

5) Sécurité, mitigations et considérations cyber

Réduction des hallucinations : OpenAI rapporte que sur un ensemble d’invites désidentifiées où les utilisateurs ont signalé des erreurs factuelles, les affirmations individuelles de GPT‑5.4 sont 33% moins susceptibles d’être fausses, et les réponses complètes 18% moins susceptibles de contenir des erreurs, par rapport à GPT‑5.2 — un indicateur clé pour l’adoption en entreprise où l’exactitude factuelle compte.
Mitigations cybersécurité (variante Thinking) : GPT‑5.4 Thinking met en avant un ensemble élargi de mitigations pour les risques cyber, s’appuyant sur les protections utilisées pour les modèles Codex/5.3 antérieurs. GPT‑5.4 Thinking a été conçu avec des garde‑fous supplémentaires pour des scénarios d’usage à hautes capacités.

Benchmarks de performance — ce que disent les chiffres

OpenAI et plusieurs médias ont publié des résultats de benchmark précoces dans le cadre du déploiement. Étant donné que différents benchmarks testent des capacités différentes (navigation web vs. connaissances de domaine vs. sécurité), il est utile d’agréger les principaux chiffres et leur signification.

OpenAI lance GPT-5.4 Series : ce que change GPT-5.4

Les résultats rapportés montrent des améliorations notables par rapport aux membres précédents de la famille GPT‑5.x et une compétition serrée avec d’autres modèles de premier plan.

Benchmarks d’interaction web et bureau

WebArena-Verified (tests d’usage du navigateur) : GPT‑5.4 atteint 67.3% de succès lorsqu’il utilise à la fois des signaux DOM et des captures d’écran, contre 65.4% pour GPT‑5.2 — une amélioration visible mais non spectaculaire. Cela mesure des tâches où le modèle doit interagir avec des pages en direct et des éléments d’interface.
Online-Mind2Web (tâches navigateur basées sur captures d’écran) : GPT‑5.4 a atteint 92.8% de succès en utilisant uniquement des observations de captures d’écran — une amélioration particulièrement forte par rapport aux bases de référence de type agent précédentes (OpenAI a contrasté cela avec les performances du mode Agent de ChatGPT Atlas).
OSWorld-Verified (navigation desktop) : des rapports indépendants indiquent que GPT‑5.4 obtient 75.0% sur un benchmark évaluant la navigation dans un environnement desktop et l’accomplissement de tâches. Ce résultat place 5.4 devant de nombreuses bases publiques pour les tâches d’automatisation de bout en bout.

À retenir : Les améliorations de 5.4 sont les plus marquées là où la compréhension du contexte visuel, des affordances d’interface et des longues séquences d’actions est cruciale — c’est‑à‑dire les workflows de type agent.

Benchmarks santé, sécurité et connaissances

Les rapports sur la sécurité de déploiement d’OpenAI montrent des signaux mitigés :

HealthBench : GPT‑5.4 a obtenu 62.6% sur HealthBench (un déclin modeste par rapport aux 63.3% de GPT‑5.2), indiquant de subtils compromis entre capacités et certains métriques santé dans les tests instantanés rapportés par OpenAI.
Hard : GPT‑5.4 a obtenu 40.1% sur une suite d’évaluation « Hard » (en légère baisse par rapport à 42.0%).
Consensus : GPT‑5.4 a affiché 96.6% sur « Consensus », une mesure reflétant l’accord avec des réponses de consensus sélectionnées (une hausse d’environ 2.1 points).

OpenAI a également noté des changements dans la longueur moyenne des réponses sur les évaluations santé (GPT‑5.4 a produit en moyenne ~3 311 caractères contre 2 676 pour GPT‑5.2), ce qui peut influencer la manière dont un modèle aborde des sujets sensibles.

Interprétation : Les métriques de sécurité et santé montrent que 5.4 a globalement accru l’alignement au consensus et modifié la verbosité des réponses, même si quelques scores santé spécifiques ont légèrement diminué. Ce schéma reflète souvent un rééquilibrage des objectifs du modèle — des réponses plus décisives et plus longues peuvent aider l’utilité et le consensus tout en exigeant une surveillance attentive sur les domaines sensibles.

Exemples et assertions spécifiques à des domaines

Des tests précoces ont fourni des affirmations concrètes et sectorisées (OpenAI et sources tierces) :

Benchmark de raisonnement juridique (BigLaw Bench) — GPT‑5.4 atteint ~91% sur des segments de raisonnement juridique dans des tests précoces, un signal fort pour les tâches d’analyse documentaire ; noter qu’il s’agit de chiffres précoces non relus par les pairs.
Réduction des hallucinations : Les réponses de GPT‑5.4 sont ~33% moins susceptibles de contenir des affirmations fausses et ~18% moins susceptibles de contenir des erreurs factuelles par rapport à certains baselines antérieurs. Ces pourcentages ont été mis en avant dans des rapports secondaires et des communications de l’entreprise ; comme pour toute telle affirmation, ils dépendent de la suite de benchmarks et de la méthodologie d’échantillonnage.

Comment obtenir et payer GPT-5.4

Paliers ChatGPT et accès entreprise

Selon OpenAI et des informations produit :

Les utilisateurs ChatGPT Plus / Team / Pro ont été les premiers à recevoir GPT‑5.4 Thinking dans le produit. Les administrateurs Enterprise et Education peuvent activer l’accès anticipé via les contrôles d’administration. Les utilisateurs Free/Go ne sont pas garantis d’un accès immédiat. Les développeurs peuvent appeler les endpoints gpt-5.4 et gpt-5.4-pro via l’API.

Aperçu des prix API (tarification développeur publiée)

La tarification développeur d’OpenAI liste GPT‑5.4 comme un modèle de pointe avec une facturation par jeton. Tels que publiés sur la page publique de tarification au moment de l’annonce, des tarifs indicatifs pour GPT‑5.4 sont approximativement :

Model	Input	Cached input	Output
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

Dans CometAPI (une plateforme tout‑en‑un d’agrégation d’API de grands modèles) :

Modèle	Prix Comet (USD / M de jetons)	Prix officiel (USD / M de jetons)	Remise
gpt-5.4	Entrée:$2/M; Sortie:$16/M	Entrée:$2.5/M; Sortie:$20/M	-20%
gpt-5.4-pro	Entrée:$24/MSortie:$192/M	Entrée:$30/MSortie:$240/M	-20%

Par conséquent, je recommande vivement CometAPI, car elle peut réduire considérablement les coûts d’API.

Considérations de gestion des coûts

Si vous prévoyez d’utiliser le modèle à grande échelle, en particulier dans des contextes de documents longs ou à haut débit, vous devriez envisager :

Mise en cache et déduplication des entrées (pour bénéficier du tarif « cached input » lorsque possible).
Ingénierie des prompts pour compresser le contexte et éviter les jetons redondants.
Stratégies de batch et post‑traitements qui minimisent la génération de sorties coûteuses.
Suivi de l’usage des modes de raisonnement, car les modes de raisonnement plus profonds peuvent entraîner un coût computationnel plus élevé.

Comparaison : GPT-5.4 vs GPT-5.3

Où GPT-5.4 s’améliore par rapport à GPT-5.3

Profondeur de raisonnement et orchestration d’outils : 5.4 Thinking a été explicitement réglé pour surpasser 5.3 sur le raisonnement multi‑étapes et les cas d’usage de type agent. Cela se voit dans les benchmarks d’interaction web/desktop et les métriques de succès des agents.
Capacité de contexte : L’offre à 1M de jetons de 5.4 est une avancée technique claire au‑delà de ce que 5.3 proposait dans l’API courante, permettant de nouvelles classes de tâches en session unique.
Améliorations de performances par domaine : Les chiffres précoces d’OpenAI et des rapports tiers signalent des améliorations sur certains benchmarks juridiques et documentaires, où le contexte plus long et le réglage spécialisé de 5.4 aident.

Compromis et où 5.3 peut rester préférable

Usage conversationnel léger : GPT-5.3 Instant reste optimisé pour des échanges rapides et économiques ; les organisations recherchant la latence/cout la plus faible pour des interactions courtes peuvent le préférer.
Stabilité des métriques de sécurité : certains scores « santé » et « hard » ont montré de légères baisses pour 5.4 par rapport à 5.2 dans les instantanés d’OpenAI ; les entreprises dans des domaines sensibles et régulés devraient valider le modèle sur leurs propres suites d’évaluation avant un déploiement complet.

Cas d’usage et implications sectorielles

La combinaison de raisonnement approfondi, de mémoire à long contexte et d’utilisation d’outils de GPT‑5.4 ouvre plusieurs opportunités pratiques et stratégiques.

1. Services professionnels et conseil

Les cabinets produisant de longs livrables (p. ex., mémoires juridiques, rapports de conseil multi‑chapitres, dossiers de due diligence M&A) peuvent conserver des documents et jeux de données entiers en contexte, permettant une synthèse cohérente inter‑documents, une QA automatisée et la génération de résumés exécutifs sans couture manuelle de fragments. Les succès sur APEX‑Agents s’alignent avec ce positionnement.

2. Ingénierie logicielle et raisonnement sur bases de code

Un contexte plus long signifie qu’un seul appel modèle peut inclure des dépôts entiers ou de longues traces de logs. Les améliorations de GPT‑5.4 sur des benchmarks SWE indiquent de meilleures performances pour le débogage, le refactoring et les workflows de revue de code — surtout couplées à Pro pour des charges soutenues.

3. Agents autonomes et automatisation en entreprise

Les systèmes agentiques opérant sur des outils (feuilles de calcul, systèmes de ticketing, interfaces web) bénéficient de la meilleure sélection d’outils de GPT‑5.4, de la réduction de surcharge en jetons pour les workflows d’agent et d’une meilleure préservation de l’état sur la durée. Cela rend GPT‑5.4 attractif pour les pipelines d’automatisation d’entreprise et les « assistants qui agissent » à travers plusieurs systèmes.

En bref — ce que change GPT-5.4

GPT‑5.4 représente une avancée pragmatique et axée sur les capacités vers des modèles capables de gérer un raisonnement long et multi‑documents, d’exécuter des workflows agentiques avec davantage de fiabilité, et de passer à l’échelle dans des pipelines professionnels via des contrats Pro. Pour les organisations dont les workflows sont à long horizon et dépendants des outils, GPT‑5.4 est un changement d’échelle en potentiel de productivité.

Les développeurs peuvent accéder à GPT-5.4, GPT-5.4-pro et GPT 5.3 Chat via CometAPI dès maintenant. Pour commencer, explorez les capacités du modèle dans le Playground et consultez le guide API pour des instructions détaillées. Avant d’y accéder, veuillez vous assurer que vous êtes connecté à CometAPI et avez obtenu la clé API. CometAPI propose un prix bien inférieur au prix officiel pour vous aider à intégrer.

Prêt à vous lancer ? → Inscrivez-vous à GPT-5.4 dès aujourd’hui !

Si vous souhaitez davantage d’astuces, de guides et d’actualités sur l’IA, suivez‑nous sur VK, X et Discord !

Accédez aux meilleurs modèles à moindre coût

En savoir plus