Comment utiliser le mode agent ChatGPT étape par étape

OpenAI a été publié à la mi-2025 Mode agent ChatGPT — une fonctionnalité qui permet à ChatGPT non seulement de répondre, mais aussi de planifier et d'exécuter des tâches en plusieurs étapes à l'aide d'un espace de travail virtuel (navigation, manipulation de fichiers, exécution de code et API de connecteur). Mode Agent déplace ChatGPT d'un assistant passif qui vous dit quoi faire en un assistant actif qui peut faire les démarches pour vous — parcourir, extraire, remplir des formulaires, exécuter du code, créer des fichiers et interagir avec les services connectés sous votre supervision.

Qu'est-ce que le mode agent ChatGPT ?

Le mode Agent transforme ChatGPT d'un assistant de chat réactif en un travailleur numérique autonome capable de planifier et d'exécuter des workflows en plusieurs étapes. Contrairement à une simple étape de traitement, un agent peut :

ouvrir et lire des pages Web, suivre des liens et extraire des faits structurés ;
exécuter du code dans un environnement sandbox ou de bureau virtuel pour traiter des fichiers, transformer des feuilles de calcul ou générer des documents ;
appeler les API ou services connectés que vous configurez (connecteurs) pour lire ou écrire des données ;
poser des questions de clarification lorsque l'objectif ou les contraintes sont ambigus ; et
conserver l'état à travers les étapes afin qu'une tâche longue (recherche → brouillon → exportation) se poursuive sans avoir à raconter toute l'histoire à chaque fois.

OpenAI positionne le mode agent comme un « pont entre la recherche et l'action » : il est destiné aux flux de travail collaboratifs itératifs où la supervision humaine reste importante : vous donnez des objectifs, des contraintes et des approbations pendant que l'agent effectue le gros du travail.

Comment le mode agent de ChatGPT a-t-il évolué ?

Le mode Agent s'appuie sur les fonctionnalités OpenAI précédentes (par exemple, Operator et Deep Research) et sur le SDK Agents/API Responses de l'entreprise. Le SDK Agents offre aux développeurs des fonctionnalités primitives pour créer des agents et des outils personnalisés, tandis que le mode Agent ChatGPT intègre des fonctionnalités similaires dans l'interface web et applicative grand public, permettant aux non-développeurs de créer des workflows autonomes sans écrire de code source. L'architecture système inclut des garde-fous tels que la confirmation des requêtes et le « mode surveillance » lorsque les agents interviennent dans des contextes sensibles.

Remarque : d’autres fournisseurs (notamment Microsoft) proposent également leurs propres fonctionnalités « Mode Agent » ou « Agent Office », qui intègrent le comportement agentique dans les applications de productivité (Excel/Word/Copilot). Ces implémentations distinctes reflètent la même tendance du secteur vers l’intégration de l’IA agentique dans les outils.

Que peut faire le mode agent ChatGPT ?

Quelles actions sont typiques ?

Les fonctionnalités du mode Agent incluent :

Navigation et recherche web autonomes (ouvrir des pages, cliquer, lire, résumer).
Extraction de données et sorties structurées (tableaux, CSV, feuilles).
Création de fichiers : générer et enregistrer des documents, des diapositives, des feuilles de calcul.
Remplissage et soumission du formulaire (avec confirmation explicite).
Exécution de code ou orchestration de chaînes d’outils via des SDK ou des connecteurs.
Intégration avec des services (e-mail, calendriers, GitHub, Zapier/Make) lorsque les connecteurs le permettent.
Commerce/transactions dans les flux de travail pris en charge (par exemple, intégrations « Paiement instantané »).

Limites à attendre

Le mode Agent est puissant, mais pas omniscient : il respecte les limites du sandbox, peut atteindre les limites de débit des outils ou des connecteurs et évite généralement les actions risquées sans confirmation explicite. Attendez-vous à des modes d'échec dans les flux d'authentification, les sites utilisant beaucoup de JavaScript, les actions protégées par CAPTCHA ou les systèmes nécessitant une authentification multifacteur.

Qui peut accéder au mode agent ChatGPT et comment l’obtenir ?

Qui a accès ?

Le déploiement d'OpenAI cible les plans payants : le mode agent ChatGPT a été publié pour les utilisateurs Plus/Pro/Team/Business (et les niveaux similaires lorsqu'ils étaient proposés) avec des quotas à plusieurs niveaux ; il n'est pas disponible sur le niveau gratuit.

Comment l'activer (étape par étape) ?

Connectez-vous à ChatGPT avec un plan qualifié.
Démarrez une nouvelle discussion ou ouvrez-en une existante.
Ouvrez le Outils menu (le « + » dans le compositeur) et sélectionnez Mode agent, ou tapez le /agent commande dans la boîte de message pour démarrer une session d'agent.
Décrivez la tâche que vous souhaitez réaliser. L'agent proposera un plan et commencera son exécution ; il marquera une pause pour demander confirmation avant de passer aux actions suivantes. Vous pouvez interrompre ou reprendre le contrôle manuellement à tout moment.

À qui s’adresse le mode Agent ?

Travailleurs du savoir et équipes qui souhaitent automatiser des tâches numériques répétitives (analystes, chefs de produit, éducateurs).
Développeurs et intégrateurs qui souhaitent prototyper rapidement des flux de travail d'agents via le SDK Agents ou l'API Responses.
équipes informatiques/sécurité L'évaluation des flux de travail autonomes doit être menée avec prudence en raison des considérations d'accès aux données et de confidentialité.

Comment obtenir et configurer un agent ChatGPT

Vous trouverez ci-dessous un exemple pratique de configuration étape par étape, à suivre sur l'interface web ou mobile de ChatGPT (basé sur la documentation et les guides d'OpenAI). Adaptez les étapes aux politiques de votre organisation et à l'interface utilisateur spécifique.

Étape 1 : Confirmer l'accès et le niveau de facturation

Connectez-vous à votre compte ChatGPT et vérifiez que vous disposez d'un forfait compatible avec les agents (Plus/Pro/Business/Enterprise). Si vous êtes administrateur, vérifiez les commutateurs et les politiques de connecteur au niveau de l'organisation.

Étape 2 : Créer un nouvel agent (interface utilisateur)

Depuis la page d'accueil de ChatGPT, recherchez « Créer un agent » or « Mode Agent » dans les outils/menu.
Choisissez un modèle de base (le cas échéant) et nommez votre agent (par exemple, « Chercheur concurrentiel »).
Sélectionnez soigneusement les connecteurs et les périmètres autorisés (Google Drive, Gmail, Slack, votre CRM). Limitez les autorisations au strict minimum.

Étape 3 : Fournir une identité, des objectifs et des contraintes

Donnez à l'agent un bref aperçu énoncé de mission (objectif), sources d'entrée et contraintes non fonctionnelles (durée d'exécution maximale, formats de fichiers, limites budgétaires, possibilité d'envoyer des e-mails ou seulement de les rédiger).
Téléchargez des exemples de fichiers ou de liens que l'agent doit utiliser. Cela crée un contexte auquel il peut se référer pendant l'exécution.

Étape 4 : Autoriser les connecteurs et tester dans le sandbox

Autorisez tous les connecteurs nécessaires (Drive, GitHub). OpenAI vous demandera de vous connecter et d'accorder des autorisations explicites ; examinez-les attentivement.
Exécuter un petit test inoffensif (par exemple, « Résumez ces trois documents et énumérez 5 éléments d’action ») pour confirmer que l’agent peut accéder aux ressources que vous avez autorisées et les traiter.

Étape 5 : Définir les crochets d’approbation et les notifications

Configurez des points de contrôle d’approbation humaine pour les actions à haut risque (par exemple, « demandez-moi avant d’écrire au CRM »).
Définissez les destinations de sortie (téléchargement, brouillon d'e-mail ou envoi sous forme de message de discussion).

Étape 6 : Itérer et renforcer

Vérifiez les exécutions, examinez les journaux et les pistes d'audit, et renforcez les contraintes ou supprimez les connecteurs si vous constatez un comportement inattendu. Conservez un historique d'exécution à des fins d'audit.

Outils → Mode agent (ou /agent)

Comment rédiger une invite « runbook »

Principes d'invite du livre d'exécution

Une invite de « runbook » est un ensemble d'instructions structuré qui définit les objectifs, les contraintes, les critères de réussite, les résultats et la gestion des erreurs d'un agent. Pour la rendre fiable, suivez les principes suivants :

Soyez explicite sur l’objectif : définir le livrable et le format (par exemple, « Créer un PowerPoint de 10 diapositives avec une diapositive de titre, 3 diapositives de données financières des concurrents, une diapositive de méthode et une diapositive de résumé »).
Définir les entrées et les sources : répertoriez les sites Web de confiance, les emplacements de fichiers ou les connecteurs que l'agent doit privilégier, ainsi que les sources interdites.
Définir des contraintes et des contrôles de sécurité : Par exemple, « N’envoyez jamais d’e-mails sans ma confirmation explicite », « Ne vous connectez pas aux portails bancaires » ou « Si moins de trois sources indépendantes corroborent une affirmation, signalez-la au lieu de la signaler comme un fait ».
Inclure des points de contrôle par étapes : indiquez à l'agent quand faire une pause pour confirmation (par exemple, avant de publier ou d'effectuer des actions irréversibles).
Spécifier la gestion des erreurs et les restaurations : Par exemple, « Si une page renvoie une erreur 403, essayez les résultats mis en cache ; s'ils ne sont pas disponibles, notez l'échec et continuez avec d'autres sources. »

Exemple de livre d'exécution (concis)

Notre Mission: Produire un résumé du paysage concurrentiel pour le produit X.

Entrées: URL A, B, C ; feuille de calcul pricing.xlsx in /shared/Competitive.

Contraintes: Utilisez uniquement les pages publiques et la feuille de calcul fournie ; n'utilisez aucune information d'identification ; terminez en moins de 20 messages d'agent ; produisez un PDF + CSV de 2 pages avec un tableau des fonctionnalités.

Étape:

Explorez les URL A, B, C ; extrayez les noms de produits, les niveaux de prix et les 5 principales fonctionnalités.
Fusionner les entités extraites avec pricing.xlsx, normalisant les colonnes à vendor, plan, monthly_usd, key_features.
Créez un résumé de 700 mots (maximum 5 recommandations à puces).
Créer competitive_table.csv et brief.pdf.
Règle de décision : Si un site est payant ou nécessite une connexion, arrêtez-vous et demandez une approbation.
Format de sortie: brief.pdf (2 pages, A4), competitive_table.csv avec des colonnes comme ci-dessus et un court message de discussion confirmant la fin du travail.

Conseil : soyez explicite sur les modes de défaillance

Indiquez à l'agent la marche à suivre en cas d'échec d'une étape (arrêter et signaler ; ignorer et continuer ; essayer une autre source). Les agents interprètent les instructions ambiguës au pied de la lettre : des règles d'échec explicites réduisent les surprises.

Exemples concrets et références de code

Exemple 1 — Tri des e-mails (utilisateur final)

Groupe: « Analyser mes 100 derniers e-mails non lus et résumer les messages prioritaires nécessitant une réponse ; suggérer des brouillons de réponse pour ceux qui peuvent être traités automatiquement. »
Comment fonctionne l'agent : L'agent lit la boîte de réception via un connecteur authentifié, extrait l'expéditeur, l'objet et les signaux d'urgence, et rédige les réponses dans le style demandé. pas Envoi de messages sans confirmation explicite et présentation d'une liste de réponses suggérées pour examen. (Les tests utilisateurs recommandent de limiter les exécutions initiales à de petits lots.)

Exemple 2 — Nettoyage et exportation des données (analyste)

Groupe: « Nettoyez ce fichier CSV, supprimez les doublons, normalisez les numéros de téléphone selon la norme E.164 et générez un fichier CSV nettoyé ainsi qu'un résumé des enregistrements modifiés. »
Comment fonctionne l'agent : l'agent utilise l'outil d'accès aux fichiers, exécute des transformations déterministes, réécrit le fichier nettoyé sur Drive et renvoie un journal des modifications.

Référence du code du développeur (Python + Agents SDK)

Voici une conceptuel Extrait de code Python basé sur les modèles OpenAI Agents SDK et Responses API. Il illustre la création et l'invocation d'un agent par programmation. (Adaptez les paramètres au SDK ou à la bibliothèque cliente utilisée ; consultez la documentation du SDK pour connaître les noms exacts des méthodes et le flux d'authentification.)

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript (conceptuel)

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

Remarque : les méthodes client exactes, les noms et le packaging du SDK évoluent. Consultez la documentation de la plateforme et du SDK OpenAI Agents pour connaître la surface API actuelle.

Résolution des problèmes courants

L'agent se bloque ou cale

Symptôme: L'agent s'arrête sans raison claire ou expire.
Corrections: Vérifiez les appels réseau bloqués (403/401 sur un connecteur), confirmez l'activité des connecteurs, réduisez la portée de la tâche (divisez-la en sous-tâches plus petites) ou augmentez la verbosité pour identifier l'échec. Les journaux OpenAI (si disponibles) indiquent le dernier appel réussi à l'outil.

Données incorrectes ou hallucinatoires

Symptôme: L'agent rapporte des faits qui ne se vérifient pas.
Corrections: Resserrez les contraintes de sources dans le cahier d'exécution, exigez la citation de chaque affirmation factuelle et demandez à l'agent de recouper les informations avec plusieurs sources fiables. Utilisez l'outil de recherche ou de navigation de l'API Réponses au lieu de vous fier au rappel du modèle.

Échecs d'authentification du connecteur

Symptôme: L'agent ne peut pas accéder à Google Drive / Gmail.
Corrections: Réauthentifiez manuellement les connecteurs ; confirmez les portées des jetons ; assurez-vous que les politiques d'authentification unique de l'entreprise ne bloquent pas les jetons d'applications tierces. Pour les connecteurs sensibles, utilisez le mode surveillance et des flux de connexion manuels explicites.

Actions inattendues (l'agent a agi sans autorisation)

Symptôme: L'agent a tenté une opération non autorisée.
Corrections: Vérifiez et optimisez le cahier des charges, activez les confirmations utilisateur pour toutes les actions de modification d'état et consultez les journaux d'exécution. Si le problème persiste, désactivez les connecteurs et ouvrez un ticket d'assistance.

Quels sont les risques de sécurité ?

Principales catégories de risques

Exposition et exfiltration de données : les agents dotés de connecteurs larges peuvent accéder à des fichiers sensibles et, s'ils ne sont pas correctement contraints, peuvent écrire des sorties sensibles dans des emplacements externes.
Injection et manipulation rapides : Des contenus ou fichiers web malveillants pourraient tenter de manipuler le comportement des agents si les manuels d'exploitation et les garde-fous ne sont pas stricts. Créez le manuel d'exploitation de manière à ignorer les instructions intégrées au contenu récupéré.
Abus d'informations d'identification : les connexions automatisées ou les jetons mal isolés pourraient être utilisés à mauvais escient ; évitez de stocker des informations d'identification de longue durée dans les profils d'agent et préférez l'authentification manuelle par session.
Surconfiance / automatisation des actions sensibles : Autoriser les envois ou achats automatiques sans approbation humaine augmente les risques. La conception de l'agent OpenAI inclut des confirmations et des blocages obligatoires pour certaines actions à haut risque, mais les organisations doivent néanmoins appliquer leur propre gouvernance.

Mesures d'atténuation recommandées

Connecteurs de moindre privilège : accorder uniquement les portées minimales requises.
Mode de surveillance et confirmations : Activez le « mode surveillance » pour les agents susceptibles d’accéder aux pages de courrier électronique ou bancaires et d’exiger des confirmations pour les changements d’état.
Journaux d'audit et observabilité : Enregistrez toutes les actions des agents et examinez-les régulièrement. Utilisez des limites de débit et des quotas de tâches par utilisateur/agent.
Tester le sandboxing : valider d'abord les agents dans les comptes avec des données synthétiques ou expurgées.
Gouvernance des politiques et du cahier des charges : maintenir un flux d'approbation pour les agents qui effectuent des tâches à fort impact et nécessitent une approbation humaine avant un déploiement à grande échelle.

Conclusion

Le mode Agent marque un changement significatif : de consultatif IA à opérationnel IA. Elle peut accélérer les flux de travail dans les domaines de la recherche, du marketing, des finances et de l'ingénierie, mais cette capacité implique de nouvelles responsabilités opérationnelles et de sécurité. Utilisez des cahiers d'exécution structurés, des connecteurs à moindre privilège, des approbations avec intervention humaine et des audits continus pour exploiter pleinement les avantages tout en limitant les risques.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA de fournisseurs leaders, tels que la série ChatGPT, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Pour commencer, explorez les capacités du modèle ChatGPT dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Prêt à partir ?→ Inscrivez-vous à CometAPI dès aujourd'hui !