Tempo di lettura: 4 minuti

Negli ultimi mesi, il panorama dell’Intelligenza Artificiale ha visto emergere un nuovo protagonista direttamente dalla Cina: il laboratorio Deepseek con il suo modello Deepseek R1. Molti sviluppatori e ricercatori lo hanno già definito la più grande novità dopo ChatGPT di OpenAI e i nuovi modelli “reasoning” (ragionamento) come o1. Ma è davvero così rivoluzionario? In questo articolo esamineremo le principali caratteristiche di Deepseek R1, confrontandolo con modelli come OpenAI o1 e altri grandi LLM, grazie ai test pubblicati da diversi esperti e community tecniche.


Deepseek R1: panoramica

Deepseek R1 è un modello di intelligenza artificiale open-source di nuova generazione, progettato per il “reasoning” (ovvero la capacità di ragionare e risolvere problemi complessi). È stato sviluppato in tempi record e con costi notevolmente inferiori rispetto ai competitor occidentali: si parla di circa 5-6 milioni di dollari, contro i miliardi investiti da colossi come OpenAI, Google o Meta.

Caratteristica chiave: Deepseek R1 è basato su un’architettura “Mixture of Experts” (MoE) con 671 miliardi di parametri e numerose ottimizzazioni in termini di training su GPU meno performanti (come le NVIDIA H-800). Ciò dimostra come la necessità di superare restrizioni e limitazioni hardware abbia spinto i ricercatori cinesi a inventare nuove tecniche, più efficienti e meno costose.


Il confronto con OpenAI o1

OpenAI o1 (e la versione “mini”), fa parte di una nuova generazione di modelli “reasoning” rilasciati da OpenAI. Questi modelli puntano meno sulla semplice “predizione della parola successiva” e molto di più sulla logica e sull’analisi per fornire risposte più coerenti e approfondite.

Ecco alcuni risultati pubblicati dalla community tecnica che ha messo Deepseek R1 e OpenAI o1 alla prova su svariati compiti di ragionamento e simulazioni, tra cui un test di scacchi contro un bot casuale (random). Sotto, troverai un riepilogo in cui vengono misurate vittorie, pareggi, tasso di errori e numero di token utilizzati per ogni mossa:


ModelloVittoriePareggiErrori*Tokens/mossa
o1-preview46.67%43.33%3.742660
o1-mini30.00%50.00%2.341221
Deepseek-R122.58%19.35%18.634585

*Errori = numero di risposte errate ogni 1000 mosse

Come si vede, R1 ha ottenuto un discreto tasso di vittorie, anche se OpenAI o1 mantiene punteggi più elevati nelle partite di scacchi. D’altro canto, Deepseek R1 genera più tokens (parte del suo meccanismo di “thinking”), risultando al contempo meno “stabile” e più incline a errori di protocollo o di hallucination durante la partita.


Durata delle partite e differenza di “materiale”

Nell’analisi degli esperti, un altro dato interessante è la differenza di materiale (pezzi conquistati o persi) al termine di ogni partita a scacchi.

ModelloDifferenza MaterialeDurata Media (mosse)
o1-preview-2024-09-129.99124.8
o1-mini-2024-09-1210.77142.73
Deepseek-R110.8391.77
Altri modelli “non-reasoning”<= 0 (spesso)< 20

Da notare che Deepseek R1 mostra una differenza di materiale di circa +10, simile ai modelli o1, il che significa che riesce effettivamente a giocare e a catturare pezzi, nonostante abbia un tasso di errori più alto.


Distilled R1: le versioni ridotte

Deepseek ha anche rilasciato versioni “distillate” e quantizzate di R1 (70B, 14B, 8B, ecc.), pensate per essere eseguite localmente con meno risorse. Tuttavia, i test mostrano che queste versioni “Distilled R1” faticano a mantenere le performance di ragionamento del modello principale.

ModelloVittoriePareggiErroriTokens/mossa
deepseek-r1-distill-qwen-32b@q4_k_m0.00%0.00%727.272173.83
deepseek-r1-distill-qwen-14b@q8_00.00%0.00%1153.853073.06
deepseek-reasoner-r1 (full)22.58%19.35%18.634585

Motivi del successo di Deepseek

  1. Approccio open-source: il codice aperto favorisce la collaborazione tra ricercatori e sviluppatori, attirando l’attenzione di migliaia di contributori e miglioramenti continui.
  2. Efficienza sui GPU limitati: a causa delle restrizioni all’export di chip come H-100, Deepseek ha dovuto inventare e perfezionare nuove soluzioni di training a costi e tempi ridotti.
  3. Architettura Mix of Experts (MoE): gestisce i parametri in maniera più scalabile, senza dover puntare esclusivamente su cluster di GPU costose di ultima generazione.

Domina o1 di OpenAI? Pro e contro

Nota: OpenAI o1 resta più stabile in compiti di ragionamento prolungato e con meno errori di conformità, ma Deepseek R1 dimostra come sia possibile avvicinarsi alle performance di un modello “reasoning” top spendendo e impiegando molte meno risorse.


Riflessioni finali

La competizione tra Deepseek e i modelli “reasoning” di OpenAI (come o1) testimonia la rapida evoluzione dell’AI e come la ricerca possa fiorire anche con budget e hardware limitati, se ben ottimizzati. Sebbene R1 non superi ancora o1 in tutte le metriche, di certo ha aperto gli occhi a molte realtà occidentali sul potenziale dell’innovazione cinese.

Con la crescente commoditizzazione dei modelli LLM, assisteremo probabilmente a un continuo rilascio di versioni open-source sempre più potenti e performanti, in grado di competere con i giganti più tradizionali. La domanda più grande resta: riusciranno Deepseek e altri nuovi player a mantenere la propria competitività, soprattutto nel campo del reasoning avanzato e dell’innovazione di frontiera?


Conclusioni

Tempo di lettura: 2 minuti

Alibaba ha recentemente annunciato il rilascio di Qwen 2.5-Max, una versione avanzata del suo modello di intelligenza artificiale, dichiarando che supera i principali concorrenti, tra cui DeepSeek-V3GPT-4o di OpenAI e Llama-3.1-405B di Meta, in numerosi benchmark. Questo aggiornamento rappresenta una risposta diretta alla rapida ascesa di DeepSeek, una startup cinese che ha guadagnato fama per i suoi modelli IA altamente efficienti e a basso costo [1].

Caratteristiche principali di Qwen 2.5-Max

  1. Architettura avanzata: Qwen 2.5-Max utilizza un modello Mixture-of-Experts (MoE), pre-addestrato su oltre 20 trilioni di token e ulteriormente migliorato attraverso tecniche come il Supervised Fine-Tuning (SFT) e il Reinforcement Learning from Human Feedback (RLHF).
  2. Performance nei benchmark: Secondo Alibaba, Qwen 2.5-Max eccelle in test come:
    • Arena-Hard (preferenze umane),
    • LiveBench (capacità generali),
    • LiveCodeBench (programmazione),
    • GPQA-Diamond (domande complesse).
      Ha ottenuto anche risultati competitivi in test accademici come MMLU-Pro, che valuta conoscenze di livello universitario.
  3. Efficienza e scalabilità: Il modello è progettato per offrire prestazioni elevate con costi operativi inferiori rispetto ai concorrenti, rendendolo adatto a un'ampia gamma di applicazioni.

Confronto con DeepSeek e altri modelli

Qwen 2.5 Max vs DeepSeek vs Llama 405B

Strategia e tempistica

Il lancio di Qwen 2.5-Max è avvenuto il primo giorno del Capodanno Lunare cinese, un momento insolito ma strategico per massimizzare l'attenzione mediatica e rispondere alla crescente pressione esercitata da DeepSeek sul mercato domestico e internazionale. Questo riflette la competizione serrata tra i giganti tecnologici cinesi come Alibaba, Tencent e Baidu per dominare il settore dell'IA.

Prospettive future

Alibaba deve ancora pubblicare dettagli completi sui parametri del modello, sui costi di addestramento e sul consumo energetico, aspetti che potrebbero influenzare la percezione della comunità tecnologica riguardo alle sue affermazioni. Nel frattempo, DeepSeek continua a innovare rapidamente, mirando alla creazione di un'IA Generale (Artificial General Intelligence), mantenendo alta la pressione sui concorrenti.In sintesi, mentre Qwen 2.5-Max rappresenta un passo significativo per Alibaba nella corsa all'IA, la mancanza di dati indipendenti sui benchmark potrebbe limitare l'impatto dell'annuncio fino a ulteriori verifiche. La competizione tra Alibaba e DeepSeek promette comunque di definire il futuro dell'intelligenza artificiale in Cina e oltre.