Come utilizzare la modalità agente ChatGPT passo dopo passo

A metà del 2025 è stato rilasciato OpenAI Modalità agente ChatGPT — una funzionalità che consente a ChatGPT non solo di rispondere, ma anche di pianificare ed eseguire attività in più fasi utilizzando uno spazio di lavoro virtuale (esplorazione, manipolazione di file, esecuzione di codice e API di connessione). ChatGPT Modalità agente sposta ChatGPT da un assistente passivo che ti dice cosa fare in un assistente attivo che può faccio i passaggi per te — esplora, estrai, compila moduli, esegui codice, crea file e interagisci con i servizi connessi sotto la tua supervisione.

Che cos'è la modalità agente ChatGPT?

La modalità agente trasforma ChatGPT da un assistente di chat reattivo in un lavoratore digitale autonomo in grado di pianificare ed eseguire flussi di lavoro in più fasi. A differenza di un singolo completamento avanti e indietro, un agente può:

aprire e leggere pagine web, seguire link ed estrarre fatti strutturati;
eseguire codice in un ambiente sandbox o desktop virtuale per elaborare file, trasformare fogli di calcolo o generare documenti;
chiamare le API o i servizi connessi che configuri (connettori) per leggere o scrivere dati;
porre domande chiarificatrici quando l'obiettivo o i vincoli sono ambigui; e
mantenere lo stato nei vari passaggi in modo che un compito lungo (ricerca → bozza → esportazione) proceda senza dover ripetere l'intera storia ogni volta.

OpenAI posiziona la modalità agente come "un ponte tra ricerca e azione": è pensata per flussi di lavoro collaborativi iterativi in cui la supervisione umana rimane importante: si forniscono obiettivi, vincoli e approvazioni mentre l'agente esegue il lavoro più pesante.

Come si è evoluta la modalità agente di ChatGPT?

La modalità Agent si basa sulle precedenti funzionalità di OpenAI (ad esempio, Operator e Deep Research) e sull'Agents SDK / Responses API dell'azienda. L'Agents SDK fornisce agli sviluppatori le primitive per creare agenti e strumenti personalizzati, mentre la modalità Agent di ChatGPT integra funzionalità simili nell'interfaccia web e app consumer, in modo che anche i non sviluppatori possano creare flussi di lavoro autonomi senza dover scrivere codice di supporto. L'architettura di sistema include protezioni come le conferme di richiesta e la "modalità di controllo" quando gli agenti operano in contesti sensibili.

Nota: anche altri fornitori (in particolare Microsoft) stanno distribuendo le proprie funzionalità "Agent Mode" o Office Agent che integrano il comportamento agentico nelle app di produttività (Excel/Word/Copilot). Si tratta di implementazioni separate, ma riflettono la stessa tendenza del settore verso l'intelligenza artificiale agentica negli strumenti.

Cosa può fare la modalità agente ChatGPT?

Quali azioni sono tipiche?

Le funzionalità della modalità agente includono:

Navigazione e ricerca web autonome (aprire pagine, cliccare, leggere, riassumere).
Estrazione dei dati e output strutturati (tabelle, CSV, fogli).
Creazione di file: generazione e salvataggio di documenti, diapositive, fogli di calcolo.
Compilazione e invio del modulo (con conferma esplicita).
Esecuzione di codice o orchestrazione di catene di strumenti tramite SDK o connettori.
Integrazione con servizi (e-mail, calendari, GitHub, Zapier/Make) laddove consentito dai connettori.
Commercio/transazioni nei flussi di lavoro supportati (ad esempio, integrazioni "Checkout istantaneo").

Limitazioni da aspettarsi

La modalità agente è potente ma non onnisciente: rispetta i limiti della sandbox, può raggiungere i limiti di velocità di strumenti o connettori e generalmente evita azioni rischiose senza una conferma esplicita. Si prevedono modalità di errore nei flussi di autenticazione, nei siti con JavaScript pesante, nelle azioni protette da CAPTCHA o nei sistemi che richiedono l'autenticazione a più fattori.

Chi può accedere alla modalità agente di ChatGPT e come ottenerla?

Chi ha accesso?

L'implementazione di OpenAI è rivolta ai piani a pagamento: la modalità agente ChatGPT è stata rilasciata agli utenti Plus/Pro/Team/Business (e livelli simili dove offerti) con quote a livelli; non è disponibile nel livello gratuito.

Come si abilita (passo dopo passo)?

Accedi a ChatGPT con un piano qualificato.
Avvia una nuova chat o aprine una esistente.
Aprire il Strumenti menu (il “+” nel compositore) e seleziona Modalità agente, oppure digita il /agent comando nella casella del messaggio per avviare una sessione dell'agente.
Descrivi l'attività che desideri venga eseguita. L'agente proporrà un piano e inizierà l'esecuzione; si fermerà per chiedere conferma prima di procedere con le azioni conseguenti. Puoi interrompere o assumere il controllo manuale in qualsiasi momento.

Chi dovrebbe prendere in considerazione la modalità agente?

Lavoratori della conoscenza e team che desiderano automatizzare attività digitali ripetitive (analisti, product manager, educatori).
Sviluppatori e integratori che desiderano creare rapidamente prototipi di flussi di lavoro agentici tramite Agents SDK o Responses API.
Team IT/di sicurezza la valutazione dei flussi di lavoro autonomi dovrebbe essere condotta con attenzione, a causa di considerazioni relative all'accesso ai dati e alla privacy.

Come ottenere e configurare un agente ChatGPT

Di seguito è riportato un pratico flusso di lavoro di configurazione passo dopo passo che puoi seguire nell'interfaccia utente web o mobile di ChatGPT (basato sulla documentazione di OpenAI e sulle procedure dettagliate pubblicate). Adatta i passaggi alle policy della tua organizzazione e all'interfaccia utente specifica che vedi.

Passaggio 1: conferma l'accesso e il livello di fatturazione

Accedi al tuo account ChatGPT e conferma di avere un piano che supporta gli agenti (Plus/Pro/Business/Enterprise). Se sei un amministratore, conferma gli switch a livello di organizzazione e le policy dei connettori.

Passaggio 2: creare un nuovo agente (interfaccia utente)

Dalla home page di ChatGPT, cerca "Crea agente" or “Modalità agente” negli strumenti/menu.
Scegli un modello base (ove applicabile) e dai un nome al tuo agente (ad esempio, "Ricercatore competitivo").
Seleziona attentamente i connettori e gli ambiti consentiti (Google Drive, Gmail, Slack, il tuo CRM). Limita le autorizzazioni al minimo necessario.

Fase 3: fornire identità, obiettivi e vincoli

Fornisci all'agente una descrizione concisa dichiarazione d'intenti (obiettivo), fonti di input e vincoli non funzionali (tempo di esecuzione massimo, formati di file, limiti di budget, possibilità di inviare e-mail o solo di crearne bozze).
Carica file di esempio o link che l'agente dovrebbe utilizzare. In questo modo si crea un contesto a cui fare riferimento durante l'esecuzione.

Passaggio 4: autorizzare i connettori ed eseguire il test nella sandbox

Autorizza tutti i connettori di cui hai bisogno (Drive, GitHub). OpenAI ti chiederà di accedere e di concedere ambiti espliciti: esamina attentamente tali ambiti.
Esegui a piccolo, innocuo lavoro di prova (ad esempio, "Riassumi questi tre documenti ed elenca 5 elementi di azione") per confermare che l'agente può accedere ed elaborare le risorse autorizzate.

Passaggio 5: impostare hook di approvazione e notifiche

Configurare punti di controllo di approvazione umana per azioni ad alto rischio (ad esempio, "chiedimi prima di scrivere al CRM").
Imposta le destinazioni di output (download, bozza via e-mail o consegna come messaggio di chat).

Fase 6: iterare e rafforzare

Esaminare le esecuzioni, i log/i percorsi di controllo e rafforzare i vincoli o rimuovere i connettori se si riscontrano comportamenti imprevisti. Mantenere una cronologia delle esecuzioni per l'audit.

Strumenti → Modalità agente (o /agent)

Come scriviamo un prompt "runbook"

Principi di prompt del runbook

Un prompt "runbook" è un set di istruzioni strutturato che definisce obiettivi, vincoli, criteri di successo, output e gestione degli errori per un agente. Per renderlo affidabile, è necessario seguire questi principi:

Sii esplicito riguardo all'obiettivo: definire il prodotto finale e il formato (ad esempio, "Creare una presentazione PowerPoint di 10 diapositive con diapositiva del titolo, 3 diapositive di dati finanziari della concorrenza, diapositiva del metodo e una diapositiva di riepilogo").
Definisci input e fonti: elenca i siti Web attendibili, i percorsi dei file o i connettori che l'agente dovrebbe preferire, oltre alle fonti vietate.
Imposta vincoli e controlli di sicurezza: ad esempio, "Non inviare mai e-mail senza la mia esplicita conferma", "Non accedere ai portali bancari" o "Se meno di 3 fonti indipendenti corroborano un'affermazione, segnalala invece di segnalarla come un fatto".
Includi punti di controllo graduali: indicare all'agente quando effettuare una pausa per la conferma (ad esempio, prima di pubblicare o eseguire azioni irreversibili).
Specificare la gestione degli errori e i rollback: Ad esempio, "Se una pagina restituisce 403, prova i risultati memorizzati nella cache; se non sono disponibili, annota l'errore e continua con altre fonti".

Esempio di runbook (conciso)

Missione: Produrre un briefing sul panorama competitivo per il Prodotto X.

Ingressi: URL A, B, C; foglio di calcolo pricing.xlsx in /shared/Competitive.

Vincoli: Utilizzare solo pagine pubbliche e il foglio di calcolo fornito; non utilizzare credenziali; terminare in meno di 20 messaggi dell'agente; produrre un PDF + CSV di 2 pagine con tabella delle funzionalità.

Passi:

Scansiona gli URL A, B, C; estrai i nomi dei prodotti, le fasce di prezzo e le 5 caratteristiche principali.
Unisci le funzionalità estratte con pricing.xlsx, normalizzando le colonne a vendor, plan, monthly_usd, key_features.
Crea un riepilogo esecutivo di 700 parole (massimo 5 punti di raccomandazione).
Crea
competitive_table.csv e al brief.pdf.
Regola decisionale: Se un sito è protetto da paywall o richiede l'accesso, fermati e chiedi l'approvazione.
Formato di output: brief.pdf (2 pagine, A4), competitive_table.csv con colonne come sopra e un breve messaggio di chat che conferma il completamento del lavoro.

Suggerimento: sii esplicito sulle modalità di errore

Indica all'agente cosa fare se un passaggio fallisce (interrompere e segnalare; saltare e continuare; provare una fonte alternativa). Gli agenti interpretano le istruzioni ambigue alla lettera: le regole di errore esplicite riducono le sorprese.

Esempi reali e riferimenti al codice

Esempio 1 — Triage delle e-mail (utente finale)

Compito: “Scansiona le mie ultime 100 email non lette e riepiloga i messaggi ad alta priorità che richiedono una risposta; suggerisci bozze di risposta per quelli che possono essere gestiti automaticamente.”
Come funziona l'agente: l'agente legge la posta in arrivo tramite connettore autenticato, estrae mittente, oggetto, segnali di urgenza e redige le risposte nello stile richiesto. non è un invia messaggi senza conferma esplicita e ti verrà presentato un elenco di risposte suggerite per la revisione. (I test utente consigliano di limitare le esecuzioni iniziali a piccoli lotti.)

Esempio 2 — Pulizia ed esportazione dei dati (analista)

Compito: “Pulisci questo CSV, rimuovi i duplicati, normalizza i numeri di telefono in E.164 e genera un CSV pulito e un riepilogo dei record modificati.”
Come funziona l'agente: L'agente utilizza lo strumento di accesso ai file, esegue trasformazioni deterministiche, riscrive il file pulito su Drive e restituisce un registro delle modifiche.

Riferimento al codice dello sviluppatore (Python + Agents SDK)

Di seguito è riportato un concettuale Frammento di codice Python basato sui pattern OpenAI Agents SDK e Responses API: illustra come creare un agente a livello di codice e come invocarlo. (Adatta i parametri in base all'SDK o alla libreria client in uso; consulta la documentazione dell'SDK per i nomi esatti dei metodi e il flusso di autenticazione.)

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript (concettuale)

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

Nota: i metodi client, i nomi esatti e il packaging SDK si evolvono: consultare l'SDK di OpenAI Agents e la documentazione della piattaforma per la superficie API corrente.

Risoluzione dei problemi comuni

L'agente si blocca o si blocca

sintomo: L'agente si ferma senza una ragione apparente o scade il tempo.
correzioni: verificare la presenza di chiamate di rete bloccate (403/401 su un connettore), confermare che i connettori siano attivi, ridurre l'ambito dell'attività (suddividerla in sottoattività più piccole) o aumentare la verbosità per evidenziare dove si è verificato l'errore. I log di OpenAI (se disponibili) mostrano l'ultima chiamata allo strumento riuscita.

Dati errati o allucinati

sintomo: L'agente riporta fatti che non sono verificati.
correzioni: Inasprire i vincoli di origine nel runbook, richiedere la citazione per ogni affermazione fattuale e istruire l'agente a verificare le informazioni con più fonti attendibili. Utilizzare lo strumento di recupero o esplorazione dell'API Responses invece di affidarsi al richiamo del modello.

Errori di autenticazione del connettore

sintomo: L'agente non riesce ad accedere a Google Drive/Gmail.
correzioni: Riautenticare manualmente i connettori; confermare gli ambiti dei token; assicurarsi che i criteri SSO aziendali non blocchino i token delle app di terze parti. Per i connettori sensibili, utilizzare la "modalità di controllo" e flussi di accesso manuali espliciti.

Azioni inaspettate (l'agente ha agito senza permesso)

sintomo: L'agente ha tentato un'operazione non consentita.
correzioni: Esaminare e perfezionare il runbook, abilitare le conferme utente per tutte le azioni che modificano lo stato e consultare i log di esecuzione. Se il comportamento persiste, disabilitare i connettori e aprire un ticket di supporto.

Quali sono i rischi per la sicurezza?

Principali categorie di rischio

Esposizione ed esfiltrazione dei dati: Gli agenti con connettori ampi potrebbero accedere a file sensibili e, se non opportunamente vincolati, potrebbero scrivere output sensibili in posizioni esterne.
Iniezione e manipolazione tempestive: Contenuti web o file dannosi potrebbero tentare di manipolare il comportamento dell'agente se i runbook e i guardrail non sono rigorosi. Crea il runbook in modo che ignori le istruzioni incorporate nei contenuti recuperati.
Abuso di credenziali: Gli accessi automatici o i token scarsamente isolati potrebbero essere utilizzati in modo improprio; evitare di memorizzare credenziali di lunga durata nei profili degli agenti e preferire l'autenticazione manuale per sessione.
Eccessiva fiducia/automazione delle azioni sensibili: Consentire invii o acquisti automatici senza approvazione umana aumenta il rischio. La progettazione dell'agente di OpenAI include conferme e blocchi forzati per specifiche azioni ad alto rischio, ma le organizzazioni dovrebbero comunque applicare la propria governance.

Mitigazioni consigliate

Connettori con privilegi minimi: concedere solo gli ambiti minimi richiesti.
Modalità orologio e conferme: abilitare la "modalità di controllo" per gli agenti che potrebbero accedere alle pagine di posta elettronica o bancarie e richiedere conferme per le modifiche di stato.
Registri di controllo e osservabilità: Registrare tutte le azioni degli agenti e rivederle periodicamente. Utilizzare limiti di frequenza e quote di attività per utente/agente.
Test sandbox: convalidare prima gli agenti negli account con dati sintetici o redatti.
Governance delle policy e del runbook: mantenere un flusso di approvazione per gli agenti che eseguono attività ad alto impatto e richiedono l'approvazione umana prima di un'ampia distribuzione.

Conclusione

Agent Mode segna un cambiamento significativo: da consultivo AI a operativa L'intelligenza artificiale può accelerare i flussi di lavoro in ambito di ricerca, marketing, finanza e ingegneria, ma questa capacità comporta anche nuove responsabilità operative e di sicurezza. Utilizzate runbook strutturati, connettori con privilegi minimi, approvazioni con coinvolgimento umano e auditing continuo per ottenere vantaggi limitando al contempo i rischi.

Iniziamo

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie ChatGPT, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più rapidamente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

Per iniziare, esplora le capacità del modello ChatGPT in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. CometaAPI offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

Pronti a partire? → Iscriviti oggi a CometAPI !