DeepSeek V4 arriva a un quinto del prezzo di GPT-5 e senza chip Nvidia

Un piccolo laboratorio di Hangzhou torna a far tremare il mercato dell’intelligenza artificiale. DeepSeek ha pubblicato la versione preview di V4-Pro e V4-Flash, due modelli di linguaggio open source che portano una tesi precisa — elaborare un milione di token di contesto non è più un problema di capacità, ma solo di efficienza. V4-Pro riunisce 1.600 miliardi di parametri totali, di cui 49 miliardi attivi per ciascuna richiesta — abbastanza per leggere un intero codice sorgente o un libro completo in un solo prompt. Per la prima volta un modello aperto compete seriamente con i migliori modelli chiusi in matematica, programmazione e compiti di agenti — a una frazione del costo.

Entrambi i modelli arrivano con licenza MIT e i pesi sono già pubblicati su Hugging Face. V4-Flash è la versione efficiente, con 284 miliardi di parametri totali e 13 miliardi attivi — abbastanza compatta da far girare una variante quantizzata su un portatile di fascia alta. V4-Pro è l’ammiraglia: 865 gigabyte sul disco, pensata per il deployment in cloud e per i laboratori di ricerca. Entrambi condividono la stessa finestra di contesto da un milione di token — un salto che raggiunge Gemini di Google e raddoppia quanto offerto dalla maggior parte dei modelli aperti concorrenti.

Il movimento architetturale di fondo si chiama Hybrid Attention: DeepSeek combina due tecniche di compressione per comprimere la memoria con tale aggressività che V4-Pro, a parità di lunghezza di contesto, consuma soltanto il 27% del calcolo e il 10% della cache che V3.2 richiedeva. V4-Flash si spinge ancora oltre. In pratica: servire un prompt da un milione di token con V4-Pro costa oggi meno che servirne uno da 100.000 con la generazione precedente. Non è un dettaglio tecnico — è la condizione economica perché i modelli a contesto lungo smettano di essere una dimostrazione da laboratorio e diventino un prodotto commerciale sostenibile.

La rottura sul prezzo è il punto in cui il lancio colpisce più forte. V4-Flash è tariffato a 0,14 dollari per milione di token in input, sotto perfino il GPT-5.4 Nano di OpenAI. V4-Pro costa 1,74 dollari per milione di token in input e 3,48 dollari per milione di token in output — un terzo di quanto Anthropic chiede per Claude Opus 4.7, un quinto di quanto OpenAI chiede per GPT-5.5. Nei benchmark di programmazione V4-Pro raggiunge un punteggio Codeforces di 3.206 — secondo DeepSeek, un valore che collocherebbe il modello al 23° posto tra i programmatori umani nelle competizioni mondiali. Il messaggio al mercato è netto: le prestazioni di frontiera non sono più monopolio di un duopolio americano.

La lettura geopolitica pesa quanto i benchmark. DeepSeek ha ottimizzato V4 per i chip Ascend 950 di Huawei e per il silicio del produttore cinese Cambricon, e non ha concesso accesso preventivo né a Nvidia né ad AMD per la messa a punto — un’inversione della prassi industriale standard. Il lancio funziona da stress test commerciale per l’intera catena tecnologica cinese, che opera da anni sotto le restrizioni all’export imposte da Washington. Per l’Europa la domanda si fa più scomoda: mentre Pechino costruisce uno stack sovrano completo — pesi aperti, chip domestici, software di inferenza proprietario — e Washington blinda il proprio per legge, la sovranità digitale europea resta strutturalmente dipendente dalle infrastrutture dei due blocchi.

Alcune riserve si impongono. V4 è una versione preview, non una release di produzione, e i benchmark indipendenti di terze parti non sono ancora stati completati. Il rapporto tecnico della stessa DeepSeek ammette che il modello viaggia tra i tre e i sei mesi dietro GPT-5.4 e Gemini 3.1 Pro in capacità di frontiera. Il predecessore R1 fu bandito o limitato poche settimane dopo il lancio in diversi stati americani, in Australia, a Taiwan, in Corea del Sud, in Danimarca e — va ricordato — in Italia, dove il Garante della privacy ne bloccò l’app per il trattamento dei dati degli utenti. V4 eredita intatta la stessa esposizione regolatoria in questi mercati, e i contraenti del Pentagono hanno il divieto di utilizzare modelli DeepSeek ai sensi della legge NDAA 2026 salvo autorizzazione espressa.

Fuori da queste zone sottoposte a restrizioni, l’accesso è immediato. Il chatbot web di DeepSeek espone V4-Pro tramite la modalità Expert e V4-Flash tramite la modalità Instant senza costi, mentre gli sviluppatori possono interrogare l’API cambiando semplicemente il nome del modello in deepseek-v4-pro o deepseek-v4-flash.

Il rilascio è caduto esattamente a un anno di distanza dal lancio di DeepSeek-R1, che il 20 gennaio 2025 scosse i mercati globali dell’intelligenza artificiale — il calendario è stato cesellato con cura. Il listino definitivo dell’API oltre la fase preview resta sospeso, e i vecchi endpoint deepseek-chat e deepseek-reasoner saranno ritirati il 24 luglio 2026, data in cui tutto il traffico verrà dirottato automaticamente su V4. Ciò che questa uscita porta in evidenza va oltre il singolo benchmark: è la prima dimostrazione pubblica che una potenza concorrente può consegnare uno stack completo, competitivo e a basso costo senza dipendere dai fornitori americani — e questa sola dimostrazione ridisegna la griglia di lettura per ogni strategia sovrana di intelligenza artificiale da qui in avanti.

DeepSeek V4 arriva a un quinto del prezzo di GPT-5 e senza chip Nvidia

Altri articoli simili

Apple approva TinyGPU e il Mac Mini diventa una macchina IA sul serio

Maestro: il gioco di direzione d’orchestra VR si espande con Star Wars e l’uscita su PSVR2

I link naturali e l’amore romantico

Advantech e Qualcomm: La Rivoluzione AI per l’Industria con Snapdragon X Elite

Comcast svela per la prima volta una straordinaria esperienza di visione in 4K per le Olimpiadi su Xfinity X1

Cultura pop e tecnologia dell’intrattenimento

Discussione