Deepseek R1: il nuovo modello AI cinese è davvero meglio di ChatGPT o1?

Bandiere della Cina e degli Stati Uniti insieme
AI NEWS
30 Gen 2025
Tempo di lettura: 4 minuti
Indice Contenuti
Tempo di lettura: 4 minuti

Negli ultimi mesi, il panorama dell’Intelligenza Artificiale ha visto emergere un nuovo protagonista direttamente dalla Cina: il laboratorio Deepseek con il suo modello Deepseek R1. Molti sviluppatori e ricercatori lo hanno già definito la più grande novità dopo ChatGPT di OpenAI e i nuovi modelli “reasoning” (ragionamento) come o1. Ma è davvero così rivoluzionario? In questo articolo esamineremo le principali caratteristiche di Deepseek R1, confrontandolo con modelli come OpenAI o1 e altri grandi LLM, grazie ai test pubblicati da diversi esperti e community tecniche.


Deepseek R1: panoramica

Deepseek R1 è un modello di intelligenza artificiale open-source di nuova generazione, progettato per il “reasoning” (ovvero la capacità di ragionare e risolvere problemi complessi). È stato sviluppato in tempi record e con costi notevolmente inferiori rispetto ai competitor occidentali: si parla di circa 5-6 milioni di dollari, contro i miliardi investiti da colossi come OpenAI, Google o Meta.

Caratteristica chiave: Deepseek R1 è basato su un’architettura “Mixture of Experts” (MoE) con 671 miliardi di parametri e numerose ottimizzazioni in termini di training su GPU meno performanti (come le NVIDIA H-800). Ciò dimostra come la necessità di superare restrizioni e limitazioni hardware abbia spinto i ricercatori cinesi a inventare nuove tecniche, più efficienti e meno costose.


Il confronto con OpenAI o1

OpenAI o1 (e la versione “mini”), fa parte di una nuova generazione di modelli “reasoning” rilasciati da OpenAI. Questi modelli puntano meno sulla semplice “predizione della parola successiva” e molto di più sulla logica e sull’analisi per fornire risposte più coerenti e approfondite.

Ecco alcuni risultati pubblicati dalla community tecnica che ha messo Deepseek R1 e OpenAI o1 alla prova su svariati compiti di ragionamento e simulazioni, tra cui un test di scacchi contro un bot casuale (random). Sotto, troverai un riepilogo in cui vengono misurate vittorie, pareggi, tasso di errori e numero di token utilizzati per ogni mossa:


ModelloVittoriePareggiErrori*Tokens/mossa
o1-preview46.67%43.33%3.742660
o1-mini30.00%50.00%2.341221
Deepseek-R122.58%19.35%18.634585

*Errori = numero di risposte errate ogni 1000 mosse

Come si vede, R1 ha ottenuto un discreto tasso di vittorie, anche se OpenAI o1 mantiene punteggi più elevati nelle partite di scacchi. D’altro canto, Deepseek R1 genera più tokens (parte del suo meccanismo di “thinking”), risultando al contempo meno “stabile” e più incline a errori di protocollo o di hallucination durante la partita.


Durata delle partite e differenza di “materiale”

Nell’analisi degli esperti, un altro dato interessante è la differenza di materiale (pezzi conquistati o persi) al termine di ogni partita a scacchi.

ModelloDifferenza MaterialeDurata Media (mosse)
o1-preview-2024-09-129.99124.8
o1-mini-2024-09-1210.77142.73
Deepseek-R110.8391.77
Altri modelli “non-reasoning”<= 0 (spesso)< 20

Da notare che Deepseek R1 mostra una differenza di materiale di circa +10, simile ai modelli o1, il che significa che riesce effettivamente a giocare e a catturare pezzi, nonostante abbia un tasso di errori più alto.


Distilled R1: le versioni ridotte

Deepseek ha anche rilasciato versioni “distillate” e quantizzate di R1 (70B, 14B, 8B, ecc.), pensate per essere eseguite localmente con meno risorse. Tuttavia, i test mostrano che queste versioni “Distilled R1” faticano a mantenere le performance di ragionamento del modello principale.

ModelloVittoriePareggiErroriTokens/mossa
deepseek-r1-distill-qwen-32b@q4_k_m0.00%0.00%727.272173.83
deepseek-r1-distill-qwen-14b@q8_00.00%0.00%1153.853073.06
deepseek-reasoner-r1 (full)22.58%19.35%18.634585

Motivi del successo di Deepseek

  1. Approccio open-source: il codice aperto favorisce la collaborazione tra ricercatori e sviluppatori, attirando l’attenzione di migliaia di contributori e miglioramenti continui.
  2. Efficienza sui GPU limitati: a causa delle restrizioni all’export di chip come H-100, Deepseek ha dovuto inventare e perfezionare nuove soluzioni di training a costi e tempi ridotti.
  3. Architettura Mix of Experts (MoE): gestisce i parametri in maniera più scalabile, senza dover puntare esclusivamente su cluster di GPU costose di ultima generazione.

Domina o1 di OpenAI? Pro e contro

  • Pro Deepseek R1
    • Open-source, flessibile per gli sviluppatori
    • Costo di training molto più basso
    • Buona capacità di ragionamento sugli scacchi e in altre benchmark logiche
  • Contro Deepseek R1
    • Maggior tasso di errori e “hallucination” in contesti lunghi
    • Instabilità quando si tratta di seguire rigorosamente il prompt
    • Necessità di un costante perfezionamento delle versioni distillate

Nota: OpenAI o1 resta più stabile in compiti di ragionamento prolungato e con meno errori di conformità, ma Deepseek R1 dimostra come sia possibile avvicinarsi alle performance di un modello “reasoning” top spendendo e impiegando molte meno risorse.


Riflessioni finali

La competizione tra Deepseek e i modelli “reasoning” di OpenAI (come o1) testimonia la rapida evoluzione dell’AI e come la ricerca possa fiorire anche con budget e hardware limitati, se ben ottimizzati. Sebbene R1 non superi ancora o1 in tutte le metriche, di certo ha aperto gli occhi a molte realtà occidentali sul potenziale dell’innovazione cinese.

Con la crescente commoditizzazione dei modelli LLM, assisteremo probabilmente a un continuo rilascio di versioni open-source sempre più potenti e performanti, in grado di competere con i giganti più tradizionali. La domanda più grande resta: riusciranno Deepseek e altri nuovi player a mantenere la propria competitività, soprattutto nel campo del reasoning avanzato e dell’innovazione di frontiera?


Conclusioni

  • Deepseek R1 rappresenta un significativo passo in avanti per i modelli open-source cinesi.
  • Nonostante un tasso di errori maggiore e qualche problema di stabilità, le performance ragguardevoli nei test di ragionamento mostrano il potenziale di questa nuova ondata di AI fuori dagli Stati Uniti.
  • OpenAI o1 conserva ancora una leadership in termini di stabilità e affidabilità, ma la sfida è appena iniziata, e il 2025 si preannuncia come l’anno dell’accelerazione dei modelli di ragionamento a basso costo.
Categorie
Rimaniamo in contatto
Scopri come puoi crescere con noi: compila il form e prenota la tua consulenza gratuita.
Short Contact Form