Negli ultimi mesi, il panorama dell’Intelligenza Artificiale ha visto emergere un nuovo protagonista direttamente dalla Cina: il laboratorio Deepseek con il suo modello Deepseek R1. Molti sviluppatori e ricercatori lo hanno già definito la più grande novità dopo ChatGPT di OpenAI e i nuovi modelli “reasoning” (ragionamento) come o1. Ma è davvero così rivoluzionario? In questo articolo esamineremo le principali caratteristiche di Deepseek R1, confrontandolo con modelli come OpenAI o1 e altri grandi LLM, grazie ai test pubblicati da diversi esperti e community tecniche.
Deepseek R1 è un modello di intelligenza artificiale open-source di nuova generazione, progettato per il “reasoning” (ovvero la capacità di ragionare e risolvere problemi complessi). È stato sviluppato in tempi record e con costi notevolmente inferiori rispetto ai competitor occidentali: si parla di circa 5-6 milioni di dollari, contro i miliardi investiti da colossi come OpenAI, Google o Meta.
Caratteristica chiave: Deepseek R1 è basato su un’architettura “Mixture of Experts” (MoE) con 671 miliardi di parametri e numerose ottimizzazioni in termini di training su GPU meno performanti (come le NVIDIA H-800). Ciò dimostra come la necessità di superare restrizioni e limitazioni hardware abbia spinto i ricercatori cinesi a inventare nuove tecniche, più efficienti e meno costose.
OpenAI o1 (e la versione “mini”), fa parte di una nuova generazione di modelli “reasoning” rilasciati da OpenAI. Questi modelli puntano meno sulla semplice “predizione della parola successiva” e molto di più sulla logica e sull’analisi per fornire risposte più coerenti e approfondite.
Ecco alcuni risultati pubblicati dalla community tecnica che ha messo Deepseek R1 e OpenAI o1 alla prova su svariati compiti di ragionamento e simulazioni, tra cui un test di scacchi contro un bot casuale (random). Sotto, troverai un riepilogo in cui vengono misurate vittorie, pareggi, tasso di errori e numero di token utilizzati per ogni mossa:
Modello | Vittorie | Pareggi | Errori* | Tokens/mossa |
---|---|---|---|---|
o1-preview | 46.67% | 43.33% | 3.74 | 2660 |
o1-mini | 30.00% | 50.00% | 2.34 | 1221 |
Deepseek-R1 | 22.58% | 19.35% | 18.63 | 4585 |
*Errori = numero di risposte errate ogni 1000 mosse
Come si vede, R1 ha ottenuto un discreto tasso di vittorie, anche se OpenAI o1 mantiene punteggi più elevati nelle partite di scacchi. D’altro canto, Deepseek R1 genera più tokens (parte del suo meccanismo di “thinking”), risultando al contempo meno “stabile” e più incline a errori di protocollo o di hallucination durante la partita.
Nell’analisi degli esperti, un altro dato interessante è la differenza di materiale (pezzi conquistati o persi) al termine di ogni partita a scacchi.
Modello | Differenza Materiale | Durata Media (mosse) |
---|---|---|
o1-preview-2024-09-12 | 9.99 | 124.8 |
o1-mini-2024-09-12 | 10.77 | 142.73 |
Deepseek-R1 | 10.83 | 91.77 |
Altri modelli “non-reasoning” | <= 0 (spesso) | < 20 |
Da notare che Deepseek R1 mostra una differenza di materiale di circa +10, simile ai modelli o1, il che significa che riesce effettivamente a giocare e a catturare pezzi, nonostante abbia un tasso di errori più alto.
Deepseek ha anche rilasciato versioni “distillate” e quantizzate di R1 (70B, 14B, 8B, ecc.), pensate per essere eseguite localmente con meno risorse. Tuttavia, i test mostrano che queste versioni “Distilled R1” faticano a mantenere le performance di ragionamento del modello principale.
Modello | Vittorie | Pareggi | Errori | Tokens/mossa |
---|---|---|---|---|
deepseek-r1-distill-qwen-32b@q4_k_m | 0.00% | 0.00% | 727.27 | 2173.83 |
deepseek-r1-distill-qwen-14b@q8_0 | 0.00% | 0.00% | 1153.85 | 3073.06 |
deepseek-reasoner-r1 (full) | 22.58% | 19.35% | 18.63 | 4585 |
Nota: OpenAI o1 resta più stabile in compiti di ragionamento prolungato e con meno errori di conformità, ma Deepseek R1 dimostra come sia possibile avvicinarsi alle performance di un modello “reasoning” top spendendo e impiegando molte meno risorse.
La competizione tra Deepseek e i modelli “reasoning” di OpenAI (come o1) testimonia la rapida evoluzione dell’AI e come la ricerca possa fiorire anche con budget e hardware limitati, se ben ottimizzati. Sebbene R1 non superi ancora o1 in tutte le metriche, di certo ha aperto gli occhi a molte realtà occidentali sul potenziale dell’innovazione cinese.
Con la crescente commoditizzazione dei modelli LLM, assisteremo probabilmente a un continuo rilascio di versioni open-source sempre più potenti e performanti, in grado di competere con i giganti più tradizionali. La domanda più grande resta: riusciranno Deepseek e altri nuovi player a mantenere la propria competitività, soprattutto nel campo del reasoning avanzato e dell’innovazione di frontiera?
Alibaba ha recentemente annunciato il rilascio di Qwen 2.5-Max, una versione avanzata del suo modello di intelligenza artificiale, dichiarando che supera i principali concorrenti, tra cui DeepSeek-V3, GPT-4o di OpenAI e Llama-3.1-405B di Meta, in numerosi benchmark. Questo aggiornamento rappresenta una risposta diretta alla rapida ascesa di DeepSeek, una startup cinese che ha guadagnato fama per i suoi modelli IA altamente efficienti e a basso costo [1].
Il lancio di Qwen 2.5-Max è avvenuto il primo giorno del Capodanno Lunare cinese, un momento insolito ma strategico per massimizzare l'attenzione mediatica e rispondere alla crescente pressione esercitata da DeepSeek sul mercato domestico e internazionale. Questo riflette la competizione serrata tra i giganti tecnologici cinesi come Alibaba, Tencent e Baidu per dominare il settore dell'IA.
Alibaba deve ancora pubblicare dettagli completi sui parametri del modello, sui costi di addestramento e sul consumo energetico, aspetti che potrebbero influenzare la percezione della comunità tecnologica riguardo alle sue affermazioni. Nel frattempo, DeepSeek continua a innovare rapidamente, mirando alla creazione di un'IA Generale (Artificial General Intelligence), mantenendo alta la pressione sui concorrenti.In sintesi, mentre Qwen 2.5-Max rappresenta un passo significativo per Alibaba nella corsa all'IA, la mancanza di dati indipendenti sui benchmark potrebbe limitare l'impatto dell'annuncio fino a ulteriori verifiche. La competizione tra Alibaba e DeepSeek promette comunque di definire il futuro dell'intelligenza artificiale in Cina e oltre.