Negli ultimi mesi, il panorama dell’Intelligenza Artificiale ha visto emergere un nuovo protagonista direttamente dalla Cina: il laboratorio Deepseek con il suo modello Deepseek R1. Molti sviluppatori e ricercatori lo hanno già definito la più grande novità dopo ChatGPT di OpenAI e i nuovi modelli “reasoning” (ragionamento) come o1. Ma è davvero così rivoluzionario? In questo articolo esamineremo le principali caratteristiche di Deepseek R1, confrontandolo con modelli come OpenAI o1 e altri grandi LLM, grazie ai test pubblicati da diversi esperti e community tecniche.
Deepseek R1 è un modello di intelligenza artificiale open-source di nuova generazione, progettato per il “reasoning” (ovvero la capacità di ragionare e risolvere problemi complessi). È stato sviluppato in tempi record e con costi notevolmente inferiori rispetto ai competitor occidentali: si parla di circa 5-6 milioni di dollari, contro i miliardi investiti da colossi come OpenAI, Google o Meta.
Caratteristica chiave: Deepseek R1 è basato su un’architettura “Mixture of Experts” (MoE) con 671 miliardi di parametri e numerose ottimizzazioni in termini di training su GPU meno performanti (come le NVIDIA H-800). Ciò dimostra come la necessità di superare restrizioni e limitazioni hardware abbia spinto i ricercatori cinesi a inventare nuove tecniche, più efficienti e meno costose.
OpenAI o1 (e la versione “mini”), fa parte di una nuova generazione di modelli “reasoning” rilasciati da OpenAI. Questi modelli puntano meno sulla semplice “predizione della parola successiva” e molto di più sulla logica e sull’analisi per fornire risposte più coerenti e approfondite.
Ecco alcuni risultati pubblicati dalla community tecnica che ha messo Deepseek R1 e OpenAI o1 alla prova su svariati compiti di ragionamento e simulazioni, tra cui un test di scacchi contro un bot casuale (random). Sotto, troverai un riepilogo in cui vengono misurate vittorie, pareggi, tasso di errori e numero di token utilizzati per ogni mossa:
Modello | Vittorie | Pareggi | Errori* | Tokens/mossa |
---|---|---|---|---|
o1-preview | 46.67% | 43.33% | 3.74 | 2660 |
o1-mini | 30.00% | 50.00% | 2.34 | 1221 |
Deepseek-R1 | 22.58% | 19.35% | 18.63 | 4585 |
*Errori = numero di risposte errate ogni 1000 mosse
Come si vede, R1 ha ottenuto un discreto tasso di vittorie, anche se OpenAI o1 mantiene punteggi più elevati nelle partite di scacchi. D’altro canto, Deepseek R1 genera più tokens (parte del suo meccanismo di “thinking”), risultando al contempo meno “stabile” e più incline a errori di protocollo o di hallucination durante la partita.
Nell’analisi degli esperti, un altro dato interessante è la differenza di materiale (pezzi conquistati o persi) al termine di ogni partita a scacchi.
Modello | Differenza Materiale | Durata Media (mosse) |
---|---|---|
o1-preview-2024-09-12 | 9.99 | 124.8 |
o1-mini-2024-09-12 | 10.77 | 142.73 |
Deepseek-R1 | 10.83 | 91.77 |
Altri modelli “non-reasoning” | <= 0 (spesso) | < 20 |
Da notare che Deepseek R1 mostra una differenza di materiale di circa +10, simile ai modelli o1, il che significa che riesce effettivamente a giocare e a catturare pezzi, nonostante abbia un tasso di errori più alto.
Deepseek ha anche rilasciato versioni “distillate” e quantizzate di R1 (70B, 14B, 8B, ecc.), pensate per essere eseguite localmente con meno risorse. Tuttavia, i test mostrano che queste versioni “Distilled R1” faticano a mantenere le performance di ragionamento del modello principale.
Modello | Vittorie | Pareggi | Errori | Tokens/mossa |
---|---|---|---|---|
deepseek-r1-distill-qwen-32b@q4_k_m | 0.00% | 0.00% | 727.27 | 2173.83 |
deepseek-r1-distill-qwen-14b@q8_0 | 0.00% | 0.00% | 1153.85 | 3073.06 |
deepseek-reasoner-r1 (full) | 22.58% | 19.35% | 18.63 | 4585 |
Nota: OpenAI o1 resta più stabile in compiti di ragionamento prolungato e con meno errori di conformità, ma Deepseek R1 dimostra come sia possibile avvicinarsi alle performance di un modello “reasoning” top spendendo e impiegando molte meno risorse.
La competizione tra Deepseek e i modelli “reasoning” di OpenAI (come o1) testimonia la rapida evoluzione dell’AI e come la ricerca possa fiorire anche con budget e hardware limitati, se ben ottimizzati. Sebbene R1 non superi ancora o1 in tutte le metriche, di certo ha aperto gli occhi a molte realtà occidentali sul potenziale dell’innovazione cinese.
Con la crescente commoditizzazione dei modelli LLM, assisteremo probabilmente a un continuo rilascio di versioni open-source sempre più potenti e performanti, in grado di competere con i giganti più tradizionali. La domanda più grande resta: riusciranno Deepseek e altri nuovi player a mantenere la propria competitività, soprattutto nel campo del reasoning avanzato e dell’innovazione di frontiera?