DeepSeek R1: il nuovo campione dell'AI che sfida OpenAI a costi ridotti

La startup cinese conquista il mercato con un modello di ragionamento efficiente che richiede solo il 4% delle risorse dei concorrenti

DeepSeek sta ridefinendo il panorama dell'intelligenza artificiale con una rapida evoluzione che ha portato al suo ultimo successo: DeepSeek R1. La startup cinese ha catturato l'attenzione globale conquistando il primato come app gratuita più scaricata negli Stati Uniti sull'App Store di Apple, superando persino OpenAI.

Il percorso evolutivo di DeepSeek è stato rapido e significativo. Partendo dal modello base da 67 miliardi di parametri a gennaio 2024, l'azienda ha rapidamente scalato con la versione da 236 miliardi a giugno 2024, introducendo innovazioni come l'attenzione multi-testa e il sistema "mix of experts" (MoE). A dicembre 2024, il lancio della versione 3 ha portato il modello a 671 miliardi di parametri, implementando l'apprendimento per rinforzo.

La vera rivoluzione è arrivata con DeepSeek R1-Zero e successivamente R1, modelli focalizzati sul ragionamento. A differenza dei tradizionali sistemi AI che forniscono risposte immediate, R1 utilizza un processo di "catena di pensiero", analizzando i problemi passo dopo passo e mostrando all'utente il proprio percorso di ragionamento.

L'aspetto più sorprendente è l'efficienza: mentre Meta utilizza oltre 100.000 GPU NVIDIA per addestrare Llama 4, DeepSeek necessita di sole 2.000 GPU per il suo modello V3. Questo risultato è ottenuto grazie all'architettura MoE, che suddivide il modello in "esperti" specializzati, attivando solo quelli necessari per specifici compiti.

Il sistema combina apprendimento per rinforzo e supervisionato, permettendo al modello di imparare attraverso tentativi ed errori senza supervisione umana diretta. Questa tecnologia, non esclusiva di DeepSeek ma utilizzata anche da Mistral e IBM Granite, sta dimostrando di poter eguagliare e talvolta superare le prestazioni dei modelli leader del settore con una frazione dei costi.

DeepSeek ha anche implementato un innovativo processo di "distillazione" del modello, dove un modello "studente" più piccolo apprende da un modello "insegnante" più grande, permettendo non solo la compressione della conoscenza ma anche la traduzione tra diverse architetture.

L'impatto di questa tecnologia sul mercato dell'AI è significativo: DeepSeek sta dimostrando che è possibile sviluppare modelli di intelligenza artificiale altamente performanti ottimizzando le risorse computazionali, aprendo la strada a un'AI più accessibile e sostenibile.