Il linguaggio che usiamo per la tecnologia è spesso fuorviante, progettato per addomesticare, per domare. Ci dicono che Google ha un nuovo “chip”. È una parola comoda, familiare. Un chip è un piccolo e inanimato quadrato di silicio, qualcosa che si può tenere in mano.
Questo supercomputer è costruito con un’architettura modulare. Un singolo host fisico contiene quattro chip Ironwood e un rack di questi host forma un “cubo” di 64 chip. Per scalare ulteriormente, questi cubi sono connessi da una rete dinamica di switch ottici (Optical Circuit Switch – OCS), che permette al sistema di collegare fino a 144 cubi nel “superpod” da 9.216 chip. Questa architettura a scala di pod non serve solo per le dimensioni; fornisce 42,5 ExaFLOPS di potenza di calcolo FP8 e accesso a 1,77 Petabyte di memoria condivisa ad alta larghezza di banda.
Per capire cosa ha costruito Google, bisogna prima abbandonare l’idea di un prodotto discreto e individuale. La vera unità di calcolo non è più il processore; è il data center stesso. Ironwood, la Tensor Processing Unit (TPU) di settima generazione di Google, esiste come un “superpod”: un singolo supercomputer coeso che interconnette 9.216 di questi nuovi chip. Questa architettura colossale non è raffreddata da semplici ventole, ma da una “soluzione avanzata di raffreddamento a liquido” su scala industriale, un sistema circolatorio essenziale per dissipare l’immenso calore di scarto generato dai suoi 10 megawatt di consumo energetico.
Per intenderci, 10 megawatt è il consumo energetico approssimativo di una piccola città o di una grande fabbrica. Questa è la pura scala di “forza bruta” dell’intelligenza artificiale moderna. L’IA non è una “cloud” eterea e astratta. È un’industria fisica, pesante, che consuma materie prime (in questo caso, energia su scala planetaria) per produrre un nuovo bene invisibile: l’intelligenza sintetica. Il pod Ironwood, con la sua configurazione da 9.216 chip, è il nuovo motore di questa industria, un colosso raffreddato a liquido progettato per un unico scopo: pensare a una scala che, fino ad ora, era inimmaginabile.
Questo presenta immediatamente il conflitto centrale della tecnologia che definisce il 21° secolo. Questo livello di consumo energetico, esteso a un’intera industria, è intrinsecamente insostenibile. Questo pod da 10 megawatt è una meraviglia tecnologica, ma è anche un pesante fardello ambientale. Il resto della storia dell’IA è un tentativo di fare i conti con questo singolo, fondamentale fatto.
L’Era dell’Inferenza
Durante l’ultimo decennio, la sfida principale dell’IA è stata “l’addestramento” (training). Questo è il processo costoso e lungo di insegnare a un modello, nutrendolo con l’interezza di Internet per “imparare” il linguaggio, la logica e il ragionamento. Ma quell’era sta finendo. La nuova frontiera è “l’era dell’inferenza”—il pensiero costante, ad alto volume e in tempo reale che il modello esegue dopo essere stato addestrato.
Ogni volta che un’IA risponde a una domanda, genera un’immagine o “recupera e genera dati proattivamente”, sta eseguendo un’inferenza. Ironwood è, per ammissione di Google, il suo “primo acceleratore progettato specificamente per l’inferenza”. Ciò segnala un cambiamento di mercato critico. La battaglia non è più solo per costruire i modelli più grandi, ma per eseguire in modo efficiente il “servizio di modelli e l’inferenza IA ad alto volume e bassa latenza” che alimenteranno la prossima ondata di “agenti IA” come Gemini di Google.
È qui che si svela la vera strategia di Google. Ironwood non è un prodotto da vendere; è un componente fondamentale dell'”AI Hypercomputer” di Google. Non si tratta solo di hardware, ma di un sistema verticalmente integrato in cui l’hardware (le TPU Ironwood e le nuove CPU Axion basate su Arm) è “co-progettato” (co-designed) con uno stack software proprietario.
Questo stack co-progettato è il fossato strategico di Google. Sebbene offra supporto “pronto all’uso” per framework open-source come PyTorch per attirare gli sviluppatori, lo stack è realmente ottimizzato per l’ecosistema JAX di Google.
- Il compilatore XLA (Accelerated Linear Algebra) agisce come traduttore cruciale, convertendo codice di alto livello in istruzioni iper-efficienti che girano direttamente sul silicio della TPU. Questo fornisce un’ampia ottimizzazione “pronta all’uso”, traducendo codice da framework come JAX e PyTorch.
- Il nuovo “Cluster Director” per Google Kubernetes Engine (GKE) è l’orchestratore, un software in grado di gestire il superpod da 9.216 chip come un’unica unità resiliente. Questo software fornisce consapevolezza della topologia per una pianificazione intelligente, semplificando la gestione di cluster su larghissima scala e abilitando operazioni resilienti e auto-riparanti.
- E il supporto nativo per vLLM massimizza il throughput dell’inferenza, un componente critico per servire i modelli nell'”era dell’inferenza”. Questo supporto è cruciale, poiché vLLM utilizza tecniche di gestione della memoria altamente efficienti per massimizzare il rendimento e consente ai team di sviluppo di spostare i carichi di lavoro tra GPU e TPU con modifiche minime.
Nell’ultimo decennio, il dominio di NVIDIA si è basato non solo sulle sue GPU, ma sulla sua piattaforma software proprietaria CUDA, un “fossato” in cui gli sviluppatori sono bloccati. L’AI Hypercomputer di Google è un tentativo diretto di costruire un ecosistema chiuso rivale. Offrendo un rapporto prestazioni/prezzo superiore solo a coloro che si affidano al suo stack, Google si sta posizionando per diventare l’utility fondamentale per l’economia dell’IA. Non sta vendendo le auto (come NVIDIA); mira a vendere l’elettricità che le alimenta.
Il Kingmaker e la Guerra Multi-Cloud
La convalida definitiva di questa strategia è arrivata alla fine del 2025. Anthropic, un laboratorio di IA leader e principale rivale di OpenAI, ha annunciato una storica espansione della sua partnership con Google, impegnandosi a utilizzare la sua infrastruttura TPU, incluso il nuovo Ironwood, su una scala sbalorditiva: “fino a un milione di TPU”.
Non si tratta di un investimento casuale. È un accordo da “decine di miliardi di dollari” che porterà “ben oltre un gigawatt di capacità” online per Anthropic entro il 2026. Questo singolo accordo serve come giustificazione definitiva per la scommessa decennale e multimiliardaria di Google sul silicio personalizzato. La giustificazione dichiarata da Anthropic per questo impegno massiccio è stata “il rapporto prezzo-prestazioni e l’efficienza”, un chiaro segnale che lo stack verticalmente integrato e co-progettato di Google può offrire un’alternativa economica convincente al dominio di NVIDIA.
Ma questa storia ha un risvolto critico, che rivela le vere dinamiche di potere dell’industria IA. Anthropic non è un’esclusiva di Google. Nel suo stesso annuncio, Anthropic è stata attenta a notare che Amazon Web Services (AWS) rimane il suo “principale partner di addestramento e provider cloud”. Questa partnership con AWS si basa sul “Progetto Rainier”, un enorme cluster che utilizza centinaia di migliaia di acceleratori Trainium2 di Amazon. L’azienda sta perseguendo un “approccio diversificato”, mettendo strategicamente in competizione le TPU di Google, i chip Trainium di Amazon e le GPU di NVIDIA.
Questa non è indecisione; è un brillante atto di sopravvivenza. Dati trapelati mostrano che i costi di calcolo di Anthropic solo su AWS consumavano fino all’88,9% delle sue entrate. L’esistenza stessa dei laboratori di IA dipende dalla riduzione di questo costo astronomico. Forzando questa guerra di offerte, gli analisti stimano che Anthropic stia probabilmente assicurandosi la sua capacità di calcolo — la singola parte più costosa del suo business — con uno sconto massiccio del 30-50%. Associandosi pubblicamente con entrambi, Google e Amazon, Anthropic si è resa il “kingmaker”. Sta costringendo i giganti del cloud a una guerra al ribasso, sfruttando il suo status di laboratorio di IA “premio” per farsi sovvenzionare le sue enormi fatture di calcolo.
Questa dinamica ha cambiato radicalmente il mercato. Il vincitore finale non sarà chi ha il chip più veloce, ma chi ha il miglior rapporto tra calcolo, potenza e costo. Il “Performance-per-watt” (prestazioni per watt) non è più un semplice slogan ambientale; è il principale campo di battaglia strategico ed economico dell’intera industria.
I Nuovi Titani del Silicio: Un’Oligarchia Inquieta
Il lancio di Ironwood è un colpo diretto a NVIDIA, ma il campo di battaglia è affollato. La corsa agli armamenti dell’IA è combattuta da una nuova oligarchia di titani del silicio, una manciata di aziende con il capitale e l’esperienza tecnica per costruire le “pale” per questa nuova corsa all’oro.
- Il Re in Carica (NVIDIA): Le GPU della generazione Blackwell di NVIDIA, la B100 e la B200, e il loro predecessore, l’H100, rimangono lo standard del settore. Il loro dominio è protetto dal profondo fossato software di CUDA, su cui la maggior parte dei ricercatori e sviluppatori di IA è formata.
- I Pretendenti (Gli Hyperscaler e AMD):
- Amazon (AWS): L’operazione di silicio personalizzato più matura tra i provider cloud, AWS impiega una strategia a doppio chip: “Trainium” per l’addestramento conveniente e “Inferentia” per l’inferenza ad alta velocità e basso costo. Questa strategia è tenuta insieme dall’AWS Neuron SDK, lo strato software progettato per ottimizzare i carichi di lavoro PyTorch e TensorFlow per il suo silicio personalizzato.
- Microsoft (Azure): Per servire le massicce esigenze del suo partner chiave, OpenAI, Microsoft ha sviluppato il proprio acceleratore IA “Maia 100”, co-progettandolo per i carichi di lavoro di ChatGPT e GPT-4. Uno dei più grandi processori costruiti sul nodo a 5nm di TSMC, Maia 100 è un chip da 500W-700W che, come i suoi rivali, è co-progettato con il proprio stack software per portare modelli da framework come PyTorch.
- AMD: Il rivale tradizionale di NVIDIA, AMD, compete direttamente sulle prestazioni con il suo acceleratore Instinct MI300X, che eguaglia i chip di nuova generazione su metriche chiave come la capacità di memoria (192 GB).
Questa corsa agli armamenti aziendale è guidata da tre semplici fattori:
- Costo: Progettare il proprio chip è l’unico modo per sfuggire ai margini di profitto “intorno al 70%” di NVIDIA e ai suoi prezzi premium.
- Approvvigionamento: Fornisce indipendenza strategica dalle croniche carenze di GPU NVIDIA che hanno creato un collo di bottiglia per l’intera industria.
- Ottimizzazione: Permette quel tipo di vantaggio “prestazioni-per-watt” che Google sta cercando: un chip perfettamente “co-progettato” per il suo software specifico e i suoi carichi di lavoro cloud.
I giganti del cloud non hanno bisogno di uccidere NVIDIA. Devono semplicemente creare un’alternativa interna valida che sia abbastanza buona. Questo trasforma il mercato in una commodity, dà ai clienti una scelta e costringe NVIDIA a ridurre i prezzi, facendo risparmiare agli hyperscaler miliardi sulle proprie spese in conto capitale.
La scala di questo consolidamento è difficile da comprendere. I principali giganti tecnologici, tra cui Google, Meta, Amazon e Microsoft, si apprestano a spendere fino a 375 miliardi di dollari in un solo anno per la costruzione di questi data center e l’hardware IA per riempirli. La barriera all’ingresso in questo nuovo mercato è sbalorditiva. La rivoluzione dell’IA non sarà decisa da un algoritmo intelligente in un garage; sarà decisa dalle cinque corporazioni che possono permettersi di costruire questi cervelli da 10 megawatt.
Il Confronto tra Acceleratori AI del 2025
Google Ironwood (TPU v7): Tipo: ASIC. Max HBM (Memoria): 192 GB HBM3e. Max Larghezza di Banda Mem.: 7,4 TB/s. Architettura di Scaling Chiave: Superpod da 9.216 chip (9,6 Tb/s ICI). Caso d’Uso Primario: Inferenza e Addestramento.
NVIDIA Blackwell B200: Tipo: GPU. Max HBM (Memoria): 192 GB HBM3e. Max Larghezza di Banda Mem.: 8 TB/s. Architettura di Scaling Chiave: NVLink 5 (1,8 TB/s). Caso d’Uso Primario: Addestramento e Inferenza Generici.
AMD Instinct MI300X: Tipo: GPU. Max HBM (Memoria): 192 GB HBM3. Max Larghezza di Banda Mem.: 5,3 TB/s. Architettura di Scaling Chiave: Anello a 8 GPU. Caso d’Uso Primario: Addestramento e Inferenza Generici.
AWS Trainium / Inferentia 2: Tipo: ASIC. Max HBM (Memoria): (Trn) N/A / (Inf2) 32 GB HBM. Max Larghezza di Banda Mem.: (Inf2) N/A. Architettura di Scaling Chiave: AWS Neuron SDK / Cluster. Caso d’Uso Primario: Diviso: Addestramento (Trn) / Inferenza (Inf).
Microsoft Maia 100: Tipo: ASIC. Max HBM (Memoria): 64 GB HBM2E. Max Larghezza di Banda Mem.: N/A. Architettura di Scaling Chiave: Rete basata su Ethernet. Caso d’Uso Primario: Addestramento e Inferenza Interni (OpenAI).
L’Ombra della Guerra dei Chip
La battaglia aziendale tra Google, NVIDIA e Amazon si combatte all’ombra di un conflitto molto più ampio e gravido di conseguenze: la “Guerra dei Chip” geopolitica tra Stati Uniti e Cina.
L’intero mondo moderno, dai nostri smartphone ai nostri sistemi militari più avanzati, è costruito su una catena di approvvigionamento di una fragilità mozzafiato. Lo “Scudo di Silicio” di Taiwan, sede di TSMC, produce “circa il 90% dei semiconduttori più avanzati al mondo”. Questa concentrazione di produzione nello Stretto di Taiwan, un “punto critico geopolitico”, è la singola più grande vulnerabilità dell’economia globale.
Negli ultimi anni, gli Stati Uniti hanno usato questa dipendenza come un’arma, implementando “controlli sulle esportazioni” per “privare la Cina di… chip avanzati” nel tentativo di rallentare la sua ascesa tecnologica e militare. In risposta, la Cina sta “versando miliardi nelle sue ambizioni di costruzione di chip”, accelerando la sua “strategia di fusione militare-civile” in una disperata ricerca di “autosufficienza nei semiconduttori”.
Questa ricerca è personificata da aziende sostenute dallo stato come Huawei. Il suo lavoro nello sviluppo di chip IA autoctoni, come l’Ascend 910C, rappresenta una sfida diretta al dominio di NVIDIA all’interno della Cina. Questa integrazione verticale, combinata con la “strategia di fusione militare-civile” cinese, rende sempre più difficile per le nazioni alleate dell’Occidente identificare con quali parti della catena di approvvigionamento cinese sia sicuro impegnarsi.
Questa instabilità globale crea un rischio esistenziale per le grandi aziende tecnologiche. Un conflitto militare a Taiwan potrebbe fermare l’industria dell’IA da un giorno all’altro. Le croniche carenze di NVIDIA sono un inconveniente minore rispetto a un cataclisma della catena di approvvigionamento.
Visto da questa prospettiva, Ironwood di Google è più di un prodotto competitivo; è un atto di “sovranità aziendale”. Progettando il proprio silicio personalizzato, aziende come Google, Amazon e Microsoft “mitigano i rischi della catena di approvvigionamento” e “riducono la dipendenza da fornitori terzi”. Possiedono la proprietà intellettuale. Non dipendono più da una singola azienda (NVIDIA) o da una singola regione vulnerabile (Taiwan). Possono diversificare i loro partner di produzione, assicurando che il loro modello di business sopravviva a uno shock geopolitico.
La corsa agli armamenti aziendale e quella geopolitica sono ora due facce della stessa medaglia. Gli investimenti massicci di Google e Amazon stanno, di fatto, implementando la politica industriale degli Stati Uniti. Stanno creando la spina dorsale industriale di una sfera tecnologica alleata dell’Occidente (l’alleanza “Chip 4”) e stabilendo una “distanza tecnologica” che le soluzioni autoctone cinesi, come l’Ascend 910C di Huawei, stanno cercando di colmare.
L’Insostenibile Peso del Calcolo
Questo ci riporta al pod da 10 megawatt. La corsa agli armamenti dell’IA, alimentata dall’ambizione aziendale e geopolitica, sta ora affrontando i suoi limiti fisici. Il prezzo ambientale della scalabilità a “forza bruta” è sbalorditivo.
L’accordo di Anthropic per le TPU di Google prevede “oltre un gigawatt” di potenza. È l’equivalente di 100 pod Ironwood che funzionano simultaneamente, o l’intera produzione di una centrale nucleare a pieno regime, dedicata a una singola azienda. E quell’azienda è solo una delle tante.
L’impronta di carbonio di un singolo “pensiero” sta diventando allarmante:
- L’addestramento di un singolo grande modello di IA può emettere oltre 626.000 libbre (circa 284.000 kg) di CO2, “più o meno l’equivalente delle emissioni a vita di cinque auto americane”.
- Una singola query a un’IA come ChatGPT utilizza “circa 100 volte più energia di una tipica ricerca su Google”.
- L’impronta energetica totale dell’industria dell’IA generativa sta “crescendo esponenzialmente” ed è già “equivalente a quella di un paese a basso reddito”.
Non è solo energia. I data center stanno anche “divorando” una risorsa più limitata: l’acqua. Richiedono “vaste quantità di acqua per il raffreddamento”, esercitando un’enorme pressione sulle risorse locali, spesso in regioni già a corto di acqua. Stime del settore suggeriscono che il data center medio utilizzi già 1,7 litri di acqua per ogni kilowattora di energia consumata.
L’industria, inclusa Google, tenta di deviare questa crisi vantando guadagni di “efficienza”. Google afferma che Ironwood è “quasi 30 volte più efficiente dal punto di vista energetico rispetto alla nostra prima Cloud TPU del 2018”. Questo, tuttavia, è uno specchietto per le allodole. È un chiaro esempio del Paradosso di Jevons: i guadagni di efficienza tecnologica, quando applicati a una risorsa desiderabile, non diminuiscono il consumo. Lo aumentano, rendendo quella risorsa più economica e accessibile.
L’efficienza di Ironwood non risolve il problema ambientale; lo accelera. Rende economicamente e tecnicamente fattibile costruire modelli ancora più grandi e gestire ancora più query, spingendo il consumo energetico totale sempre più in alto. La corsa dell’industria a “dare priorità alla velocità rispetto alla sicurezza e all’etica” — una fretta che ha portato a fallimenti documentati come i risultati distorti di Gemini di Google — sta creando una crisi etica su scala planetaria, con il danno ambientale come un’enorme esternalità fuori bilancio.
Questa crisi etica deriva dal potenziale dei sistemi di IA di incorporare e amplificare i pregiudizi umani, minacciare i diritti umani e manipolare l’opinione pubblica attraverso la disinformazione. Il Government Accountability Office degli Stati Uniti ha notato che, anche con il monitoraggio, questi sistemi, quando immessi sul mercato frettolosamente, rimangono suscettibili ad attacchi che generano output fattualmente errati o distorti. Questa dinamica da “corsa agli armamenti”, in cui gli obiettivi aziendali di rapida implementazione prevalgono sui protocolli di sicurezza, crea una tensione fondamentale tra innovazione e responsabilità.
Coda: Il Suncatcher nel Cielo
Gli ingegneri di Google non sono ciechi di fronte a questo paradosso. Vedono i grafici del consumo energetico. Comprendono che la scalabilità a “forza bruta” dell’IA ha un limite terrestre. La loro soluzione proposta è la metafora perfetta e surreale per l’intera industria.
È un “moonshot” di ricerca a lungo termine chiamato “Project Suncatcher”.
Il piano è lanciare data center di IA nello spazio. Queste “costellazioni compatte di satelliti a energia solare”, dotate di TPU di Google e connesse da “collegamenti ottici in spazio libero”, verrebbero posizionate in un'”orbita terrestre bassa eliosincrona alba-tramonto”. Lì, riceverebbero “luce solare quasi continua”, risolvendo il problema energetico, mentre il vuoto dello spazio offrirebbe una soluzione per il raffreddamento senza acqua.
Non è fantasia. Google ha già testato le sue TPU di generazione Trillium in un acceleratore di particelle per simulare le radiazioni dell’orbita terrestre bassa, e i chip sono “sopravvissuti senza danni”. Un lancio di prototipo in collaborazione con Planet Labs è previsto per l’inizio del 2027.
Il Progetto Suncatcher è un’ammissione tacita di fallimento terrestre. È la confessione che il percorso scelto dall’industria — il percorso alimentato da cervelli da 10 megawatt come Ironwood — è insostenibile sul pianeta Terra. L’obiettivo del progetto, nelle parole di Google, è “minimizzare l’impatto sulle risorse terrestri” perché “l’onere ambientale” della loro stessa roadmap sta diventando troppo pesante da sopportare.
Questa è l’espressione massima del sublime tecnologico. La corsa agli armamenti dell’IA, nella sua ricerca di un’intelligenza divina, sta creando un futuro in cui il costo computazionale della nostra stessa curiosità è così grande che dobbiamo letteralmente fuggire dal nostro pianeta per sostenerlo. Il chip Ironwood è il motore. L’Hypercomputer è la fabbrica. La Guerra dei Chip è l’ombra. E il Progetto Suncatcher è la via di fuga: un salto disperato, brillante e terrificante logico nel vuoto.
Questa logica, tuttavia, non è priva di profonde sfide tecniche ed economiche. Gli scettici sottolineano che lo spazio non è una soluzione magica per il raffreddamento; è il “miglior isolante termico che esista”. Un data center spaziale non si raffredderebbe passivamente, ma richiederebbe radiatori massicci e complessi di dimensioni paragonabili ai suoi pannelli solari. Questi sistemi dovrebbero anche fare i conti con i costi estremi di manutenzione e il costante bombardamento di radiazioni che distrugge i processori: ostacoli che rendono questa “via di fuga” un azzardo di proporzioni veramente astronomiche.
