DeepSeek, una startup cinese di intelligenza artificiale che ha fatto notizia per la prima volta con il suo modello di ragionamento R1 all'inizio del 2025, ha scatenato un intenso dibattito sullo stato dell'intelligenza artificiale open source e sulle sue implicazioni più ampie. Sebbene gran parte dell'attenzione si sia concentrata sulle sue prestazioni impressionanti – in grado di rivaleggiare con modelli di aziende statunitensi come OpenAI e Alibaba – permangono dubbi sull'autenticità di DeepSeek come "open source" nello spirito e nella pratica. Questo articolo approfondisce gli ultimi sviluppi riguardanti DeepSeek, esplorandone le credenziali open source, confrontandolo con modelli come GPT-4.1 e valutandone le implicazioni per il panorama globale dell'intelligenza artificiale.
Cos'è DeepSeek e come è nato?
Origine e ambizione di DeepSeek
DeepSeek è stata fondata con il nome di Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., con Liang Wenfeng (noto anche come Wenfeng Liang) a guidarne la carica in qualità di principale visionario. La sua filosofia divergeva da quella di molte startup della Silicon Valley: anziché dare priorità alla rapida commercializzazione, DeepSeek enfatizzava l'efficienza della ricerca e l'economicità. All'inizio del 2025, il modello R1 di DeepSeek aveva già attirato l'attenzione per aver eguagliato o superato i principali benchmark nel ragionamento matematico e nella generazione di codice, nonostante fosse stato sviluppato sotto i vincoli dei controlli sulle esportazioni statunitensi sui chip di intelligenza artificiale di fascia alta.
Svolta nei modelli di ragionamento
Nel gennaio 2025, DeepSeek ha presentato R1 con licenza MIT, una licenza open source permissiva, affermando che R1 ha ottenuto il "79.8% di Pass@1 su AIME 2024, superando di poco OpenAI-o1-1217" e il "97.3% su MATH-500, alla pari con o1 e superiore ad altri modelli pubblici". Nelle attività di programmazione, R1 ha ottenuto un punteggio Elo di 2,029 su Codeforces, superando il 96.3% dei partecipanti umani, a indicare che il modello non era un mero esercizio teorico, ma uno strumento ad alte prestazioni adatto ad applicazioni nel mondo reale.
Sfruttando tecniche come i livelli di mix di esperti (MoE) e l'addestramento su chip di intelligenza artificiale più deboli – resi necessari dalle restrizioni commerciali – DeepSeek ha ridotto drasticamente i costi di formazione. Gli osservatori hanno notato che il suo approccio non solo ha messo in discussione la presunta dipendenza dall'hardware di fascia alta, ma ha anche generato "onde d'urto" nel settore, causando un calo del valore di mercato di Nvidia di circa 600 miliardi di dollari in una sola sessione – "il più grande calo di una singola azienda nella storia del mercato azionario statunitense".
DeepSeek è davvero open source?
Licenza e disponibilità
Il modello R1 di DeepSeek è stato rilasciato con licenza MIT su Hugging Face nel gennaio 2025, consentendo l'uso commerciale illimitato, la modifica e la ridistribuzione dei pesi del modello e del codice associato. Questa scelta di licenza classifica tecnicamente R1 come un progetto open source, ma nella pratica emergono delle sfumature. Sebbene i pesi del modello e il codice di inferenza siano disponibili al pubblico, non è stato rilasciato il set di dati di training completo né le pipeline di training precise. Questa omissione solleva dubbi sulla sua qualificazione come "completamente" open source, allo stesso modo dei progetti che condividono dettagli di riproducibilità end-to-end. Ad esempio, sebbene chiunque possa scaricare e perfezionare R1, non può replicare la procedura di training originale di DeepSeek senza accesso ai dati proprietari e alle configurazioni dei cluster (ad esempio, i cluster Fire-Flyer che utilizzano 5,000 GPU A100).
Trasparenza dei dati di formazione
I puristi dell'open source spesso enfatizzano non solo la disponibilità dei pesi e del codice del modello, ma anche la trasparenza relativa ai dati di training, agli script di pre-elaborazione e ai benchmark di valutazione. Nel suo caso, l'azienda ha condiviso dettagli di alto livello, come l'utilizzo di "dati sintetici generati da R1" per perfezionare le varianti distillate e l'incorporazione di funzioni di ricompensa basate su regole per R1-Zero, ma ha omesso dettagli specifici sulla provenienza dei dati e sui processi di cura. Senza queste informazioni, i ricercatori esterni non possono verificare a fondo potenziali bias, contaminazioni dei dati o perdite indesiderate di privacy, lasciando aperte questioni sulle implicazioni etiche e di sicurezza del modello.
Coinvolgimento della comunità e forchette
Sin dal suo rilascio open source, DeepSeek-R1 ha attirato fork ed esperimenti guidati dalla comunità su piattaforme come Hugging Face. Gli sviluppatori hanno segnalato di aver adattato varianti "distillate" più piccole (da 1.5 miliardi a 70 miliardi di parametri) per l'esecuzione su hardware commerciale, come le GPU consumer, ampliando così l'accesso. Tuttavia, non c'è ancora stata una sfida completamente indipendente per riprodurre R1 da zero, in parte a causa delle enormi risorse di calcolo richieste e dell'assenza di set di dati grezzi condivisi pubblicamente. A differenza di LLaMA, che ha generato molteplici sforzi di riproduzione ufficiali da parte della comunità, la rivendicazione "open source" di DeepSeek si basa principalmente sulla disponibilità dei pesi piuttosto che sulla piena trasparenza della ricerca guidata dalla comunità.
Come si confronta DeepSeek con altri modelli di intelligenza artificiale?
Benchmarking con OpenAI o1, o3 e GPT-4.1
Le metriche prestazionali di DeepSeek-R1 lo posizionano tra i migliori modelli di ragionamento. Secondo i benchmark interni di LiveCodeBench (sviluppato da UC Berkeley, MIT e Cornell), la versione aggiornata di DeepSeek R1-0528 si posiziona appena sotto o4-mini e o3 di OpenAI nella generazione di codice, ma supera Grok 3-mini di xAI e Qwen 3 mini di Alibaba. Nel frattempo, GPT-4.1 di OpenAI, rilasciato il 14 aprile 2025, vanta una finestra di contesto di un milione di token ed eccelle nella codifica, nel seguire le istruzioni e nelle attività a contesto lungo rispetto al suo predecessore GPT-4o.
Confrontando R1 con GPT-4.1, emergono diversi fattori:
- Prestazioni nei benchmark di codice e matematica: R1 ottiene il 79.8% di Pass@1 su AIME 2024 e un punteggio del 97.3% su MATH-500, superando di poco o1. GPT-4.1, a sua volta, raggiunge un punteggio stimato di circa il 54.6% nella codifica (verificato da SWE-bench) e il 72% nei compiti a contesto lungo: parametri che, seppur impressionanti, non sono direttamente paragonabili ai benchmark di ragionamento specializzato di R1.
- Finestra di contesto: GPT-4.1 supporta fino a un milione di token, consentendo di elaborare interi libri o lunghe basi di codice in un unico passaggio. R1 di DeepSeek non supporta questa lunghezza di contesto, concentrandosi invece sull'efficienza di ragionamento e inferenza su input più brevi.
- Razionalizzazione dei costi: Su Hugging Face, l'accesso all'API di R1 costa fino al 95% in meno rispetto a o1 di OpenAI, rendendolo interessante per startup e ricercatori con budget limitati. Il prezzo base di GPT-4.1 è di 2 dollari per milione di token in input e 8 dollari per milione di token in output, con le varianti mini e nano a prezzi ancora più bassi (rispettivamente 0.40 dollari/1.60 dollari e 0.10 dollari/0.40 dollari). I modelli distillati di DeepSeek possono essere eseguiti su laptop, offrendo un ulteriore livello di risparmio sui costi nella fase di requisiti hardware.
Differenze architettoniche
Il modello R1 di DeepSeek sfrutta un'architettura a mix di esperti (MoE), in cui ampie porzioni della rete vengono attivate solo quando necessario, riducendo significativamente i costi di elaborazione dell'inferenza. Questi livelli MoE, combinati con librerie di comunicazione asincrone (ad esempio, hfreduce) e il framework Fire-Flyer DDP consentono a DeepSeek di scalare le attività di ragionamento su cluster hardware più deboli soggetti a restrizioni commerciali.
Al contrario, GPT-4.1 utilizza strati di trasformatori densi su tutta la sua rete per gestire la finestra di contesto di un milione di token. Sebbene ciò garantisca prestazioni superiori nelle attività a contesto lungo, richiede anche un'elaborazione sostanziale per l'addestramento e l'inferenza, da qui il posizionamento premium di GPT-4.1 rispetto a modelli più piccoli come GPT-4.1 mini e nano.
Quali sono le implicazioni dell'approccio open source di DeepSeek?
Impatto sulla competizione globale dell'intelligenza artificiale
La versione open source di DeepSeek indebolisce il tradizionale schema di Silicon Valley basato su modelli proprietari e embarghi sui dati. Rendendo R1 disponibile al pubblico con una licenza MIT, DeepSeek ha sfidato l'idea che l'IA ad alte prestazioni debba rimanere chiusa o concessa in licenza esclusiva. Le conseguenze immediate sono state palpabili: i giganti della tecnologia statunitensi hanno modificato i prezzi (ad esempio, OpenAI ha lanciato GPT-4.1 mini e nano a costi inferiori) e accelerato lo sviluppo dei propri modelli incentrati sul ragionamento, come o4-mini, per mantenere la quota di mercato. I commentatori del settore hanno definito l'emergere di DeepSeek un possibile "momento Sputnik" per l'IA statunitense, segnalando un cambiamento nel controllo egemonico sulle capacità fondamentali dell'IA.
La strategia open source di DeepSeek ha influenzato anche il sentiment del capitale di rischio. Mentre alcuni investitori temevano che sostenere le aziende di intelligenza artificiale statunitensi avrebbe potuto produrre rendimenti decrescenti in caso di proliferazione di alternative open source cinesi, altri la consideravano un'opportunità per diversificare le collaborazioni globali per la ricerca sull'intelligenza artificiale. Il capitalista di rischio Marc Andreessen ha elogiato R1 definendolo "una delle scoperte più sorprendenti e impressionanti" e "un dono profondo al mondo". Nel frattempo, il rilascio di GPT-4.1 da parte di OpenAI nell'aprile 2025 può essere visto in parte come una contromisura al modello open source conveniente di DeepSeek, a dimostrazione del fatto che l'accesso aperto non deve necessariamente sacrificare prestazioni all'avanguardia.
Preoccupazioni per la sicurezza e la privacy
Nonostante l'entusiasmo per la democratizzazione dell'intelligenza artificiale open source, l'origine di DeepSeek ha sollevato dubbi tra i sostenitori della privacy e le agenzie governative. Nel gennaio 2025, la Commissione per la protezione delle informazioni personali (PIPC) della Corea del Sud ha confermato che il suo servizio online inviava dati di utenti sudcoreani ai server di ByteDance in Cina, imponendo il divieto di download di nuove app fino alla risoluzione dei problemi di conformità. Una successiva violazione dei dati alla fine di gennaio 2025 ha esposto oltre un milione di voci sensibili (messaggi di chat, chiavi API e registri di sistema) a causa di un database di archiviazione cloud configurato in modo errato, aggravando le preoccupazioni sulle pratiche di sicurezza dei dati di DeepSeek.
Considerate le normative cinesi che possono obbligare le aziende a condividere i dati con le autorità statali, alcuni governi e aziende occidentali rimangono diffidenti nell'integrare DeepSeek nei flussi di lavoro critici. Sebbene DeepSeek abbia adottato misure per proteggere la propria infrastruttura (ad esempio, applicando patch al database esposto entro un'ora), persiste lo scetticismo riguardo a potenziali backdoor o usi impropri per operazioni di influenza. Wired ha riportato che il servizio online di DeepSeek che invia dati al suo paese d'origine "potrebbe preparare il terreno per un controllo più approfondito", e gli enti regolatori in Europa e negli Stati Uniti hanno accennato a un esame più approfondito nell'ambito dei framework GDPR e CCPA.
Influenza sui costi hardware e infrastrutturali
La capacità di DeepSeek di addestrare e implementare modelli di ragionamento ad alte prestazioni su hardware non ottimale ha un impatto a catena sul mercato più ampio delle infrastrutture di intelligenza artificiale. Dimostrando che i livelli MoE e il parallelismo ottimizzato (ad esempio, HaiScale DDP) può offrire un'accuratezza di ragionamento paragonabile a quella dei modelli completamente densi, DeepSeek ha spinto i principali provider cloud – Microsoft Azure, AWS e Google Cloud – a valutare l'integrazione delle tecniche di ottimizzazione di DeepSeek. Microsoft e Amazon avrebbero iniziato a offrire DeepSeek-R1 come parte dei loro cataloghi di servizi di intelligenza artificiale, rivolgendosi ai clienti che cercano alternative più economiche alle API GPT-4.1 o o1.
Inoltre, NVIDIA, storicamente il fornitore di GPU dominante, ha reagito all'efficienza derivante dal MoE puntando su hardware specializzato (ad esempio, GPU con supporto HBM3 e topologie NVLink) per mantenere il proprio vantaggio competitivo. La volatilità del prezzo delle azioni NVIDIA a seguito della sua ascesa sottolinea come le innovazioni nell'efficienza algoritmica possano rimodellare le previsioni della domanda di hardware. Pertanto, anche senza svelare hardware proprietario, DeepSeek ha indirettamente influenzato la roadmap per i futuri acceleratori di intelligenza artificiale.
Cosa rivela l'ultimo aggiornamento R1-0528 sull'impegno di DeepSeek verso l'apertura?
Miglioramenti tecnici in R1-0528
Annunciato il 28 maggio 2025, l'aggiornamento R1-0528 di DeepSeek promette miglioramenti significativi nel ragionamento matematico, nelle attività di programmazione e nella mitigazione delle allucinazioni, ovvero errori nelle informazioni generate dall'IA. Sebbene DeepSeek abbia descritto questa versione come un "aggiornamento di prova minore", i benchmark effettuati su LiveCodeBench di UC Berkeley, MIT e Cornell indicano che R1-0528 offre prestazioni competitive rispetto ai modelli o3 e o4-mini di OpenAI. L'aggiornamento ribadisce inoltre la sua politica di trasparenza open source rilasciando i nuovi pesi e il codice di inferenza su Hugging Face poco dopo l'annuncio, rafforzando il suo impegno per lo sviluppo guidato dalla comunità e l'ottimizzazione collaborativa.
Accoglienza e feedback della comunità
La comunità degli sviluppatori ha risposto positivamente alla R1-0528, citando la riduzione dei tassi di allucinazioni e una migliore coerenza logica negli output. Discussioni su forum come Hugging Face e GitHub indicano che i ricercatori apprezzano i tangibili miglioramenti delle prestazioni senza sacrificare la permissività della licenza MIT. Tuttavia, alcuni contributori hanno segnalato preoccupazioni circa l'opacità dei dati di training e la potenziale influenza delle direttive statali nella messa a punto, sottolineando che la licenza open source da sola non garantisce la piena trasparenza. Questi dialoghi sottolineano la necessità di un coinvolgimento costante della comunità per garantire che la sua filosofia open source si traduca in sistemi di intelligenza artificiale verificabili e affidabili.
Conclusioni
L'incursione di DeepSeek nell'intelligenza artificiale open source ha ridefinito le aspettative in termini di accessibilità, prestazioni ed efficienza dei costi. Sebbene il suo modello R1 sia tecnicamente open source con licenza MIT, l'assenza di dati di training completi e di trasparenza della pipeline ne complica la classificazione come "completamente" open. Ciononostante, i suoi successi – l'addestramento di potenti modelli di ragionamento con vincoli hardware e la loro ampia diffusione – hanno suscitato entusiasmo e al contempo un cauto esame nella comunità globale dell'intelligenza artificiale.
I confronti con GPT-4.1 di OpenAI rivelano un panorama variegato: DeepSeek eccelle in attività di ragionamento mirato e in contesti con costi contenuti, mentre l'ampia finestra di contesto di GPT-4.1 e la sua ampia superiorità nei benchmark lo rendono la scelta ideale per applicazioni aziendali di fascia alta. Con lo sviluppo del modello R2 di DeepSeek e l'espansione delle collaborazioni con i provider cloud, il suo destino dipenderà dalla gestione delle problematiche relative alla privacy dei dati, dalla conformità normativa e, potenzialmente, dall'adozione di una trasparenza ancora maggiore nel suo processo di ricerca.
In definitiva, l'ascesa di DeepSeek evidenzia che l'IA open source non è più un ideale teorico, ma una forza pratica che sta rimodellando la concorrenza. Sfidando gli operatori storici, DeepSeek ha accelerato il ciclo dell'innovazione, spingendo sia le aziende consolidate che i nuovi entranti a ripensare le modalità di sviluppo, licenza e implementazione dei sistemi di IA. In questo contesto dinamico, in cui GPT-4.1 rappresenta un punto di riferimento e DeepSeek-R1 un altro, il futuro dell'IA open source appare più promettente e turbolento che mai.
Iniziamo
CometAPI fornisce un'interfaccia REST unificata che aggrega centinaia di modelli di intelligenza artificiale, sotto un endpoint coerente, con gestione integrata delle chiavi API, quote di utilizzo e dashboard di fatturazione. Invece di destreggiarsi tra URL e credenziali di più fornitori, è possibile indirizzare il client all'URL di base e specificare il modello di destinazione in ogni richiesta.
Gli sviluppatori possono accedere all'API di DeepSeek come DeepSeek-V3 (nome modello: deepseek-v3-250324) e Deepseek R1 (nome del modello: deepseek-r1-0528) Attraverso CometaAPIPer iniziare, esplora le capacità del modello nel Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.
Nuovo su CometAPI? Inizia una prova gratuita da 1$ e scatena Sora nei tuoi compiti più difficili.
Non vediamo l'ora di vedere cosa costruisci. Se qualcosa non ti convince, clicca sul pulsante di feedback: dirci cosa non funziona è il modo più veloce per migliorarlo.
