Un’IA di Google ha risolto problemi di matematica aperti da 56 anni per poche centinaia di dollari

Un sistema di ricerca di Google DeepMind ha prodotto dimostrazioni complete e verificate dalla macchina per nove problemi aperti posti dal matematico Paul Erdős, due dei quali irrisolti da 56 anni. Lo stesso sistema ha chiuso 44 congetture tratte dall’Enciclopedia in linea delle sequenze di interi, risolto una questione di geometria algebrica aperta da 15 anni e affinato un limite noto nell’ottimizzazione convessa. Il numero che colpisce conta meno del metodo. Ognuna di queste dimostrazioni è stata verificata da una macchina, non solo affermata da una.

Erdős, morto nel 1996, ha lasciato centinaia di domande precise e ostinate, molte facili da enunciare e tremendamente difficili da chiudere. Nei decenni sono diventate una sorta di esame permanente per la disciplina. Le congetture delle sequenze provengono da una banca dati pubblica che i matematici setacciano in cerca di schemi, dove una formula intuita può restare senza prova per anni. Non sono test costruiti per lusingare un modello. Sono l’arretrato reale della matematica aperta.

Questa distinzione è tutta la storia. Il sistema, chiamato AlphaProof Nexus, scrive i suoi argomenti in Lean, un linguaggio formale il cui compilatore respinge ogni passo che non può confermare. Una dimostrazione passa o non passa, senza spazio per un paragrafo sicuro di sé che poi si rivela sbagliato. Per chi cerca di giudicare se una ‘scoperta’ dell’IA è reale, questo è il confine tra un comunicato stampa e un risultato.

Sotto il cofano, il dimostratore gira su Gemini 3.1 Pro, con un modello più leggero che si occupa della classificazione. Il ciclo è quasi noioso. Il modello stende una prova in Lean, il compilatore restituisce gli errori e quegli errori alimentano il tentativo successivo. Ciò che mantiene l’onestà è il riscontro simbolico, non la prosa scorrevole. Il gruppo ha costruito quattro versioni di complessità crescente, una capace di generare e ordinare bozze di dimostrazione rivali. Eppure la versione più semplice, un semplice ciclo di modello e compilatore, ha risolto da sola tutti e nove i problemi di Erdős.

L’economia è la parte silenziosamente sorprendente. Ogni problema risolto è costato poche centinaia di dollari di tempo di calcolo. Domande che avevano divorato carriere intere sono state chiuse a circa il prezzo di una gita di un fine settimana. Questo non manda in pensione il matematico. Qualcuno deve ancora scegliere quali problemi valga la pena affrontare, formularli in una forma leggibile dal sistema e decidere cosa significhi una risposta. Ciò che cambia è l’aritmetica di ciò che vale la pena tentare.

Le riserve pesano più del titolo. Nove risolti su 353 problemi di Erdős tentati è un tasso di successo di circa il 2,5 per cento. Il dato delle sequenze, 44 su 492, sta sotto il nove per cento. Gli autori ammettono senza giri di parole che la maggior parte di questi problemi resta fuori portata, tanto più quelli che richiedono teoria nuova ed estesa, e che i successi si concentrano dove la libreria matematica di Lean è già profonda. Togli quell’impalcatura costruita dagli umani e l’elenco curato di obiettivi, e al sistema resta poco terreno solido.

La cautela è meritata. In un episodio molto deriso, un laboratorio rivale annunciò che il suo modello aveva risolto dieci problemi di Erdős, finché i matematici fecero notare che le risposte erano già nella letteratura pubblicata. Il modello le aveva trovate, non dimostrate. AlphaProof Nexus è costruito per essere immune a quell’errore. Una prova in Lean di un risultato noto resta valida, e una prova in Lean di qualcosa di davvero nuovo non si può fingere. Demis Hassabis, alla guida di DeepMind, ha tenuto a dire che il lavoro non è intelligenza artificiale generale, una nota di prudenza insolita per un’azienda raramente timida con i propri modelli.

C’è un guadagno più sottile che i ricercatori sottolineano. Anche i fallimenti sono serviti. Poiché ogni prova parziale è verificata formalmente, i matematici hanno potuto vedere con esattezza quali sotto-obiettivi il sistema riusciva e quali no a chiudere, senza ricontrollare a mano l’intero argomento. La macchina smette di essere un oracolo e diventa una collaboratrice instancabile che mostra il proprio lavoro e indica dove si nasconde ancora la parte difficile.

Il risultato non arriva da solo. Cade nello stesso periodo di un’altra affermazione, quella di un modello di ragionamento rivale che avrebbe confutato una congettura di Erdős di circa 80 anni nella geometria discreta, una scoperta che matematici in attività hanno affinato e avallato. Due laboratori, due metodi, uno appoggiato alla verifica formale e l’altro a catene di ragionamento grezze, hanno raggiunto la stessa frontiera a poche settimane di distanza. La gara non riguarda più chatbot che suonano svegli.

Il lavoro è stato illustrato in un articolo pubblicato questo mese, e i metodi si appoggiano a strumenti aperti, vale a dire Lean e la sua libreria costruita dalla comunità, così che gruppi esterni possano ispezionare e rieseguire le dimostrazioni invece di fidarsi di un blog aziendale. DeepMind non ha detto se il sistema arriverà a ricercatori esterni all’azienda. Il numero da tenere d’occhio non è nove. È se quel 2,5 per cento diventa dieci, e poi venti, perché il giorno in cui accadrà, la discussione su a cosa servano queste macchine dovrà ricominciare da capo.

Tag: intelligenza artificiale, Google, Gemini, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving