Claude Opus 4.8 individua quattro volte più errori nel proprio codice

Anthropic ha aggiornato il suo modello più capace a Claude Opus 4.8, e il cambiamento principale non è un cervello più grande ma uno più prudente. L’azienda afferma che il modello ha circa quattro volte meno probabilità del predecessore di lasciar passare senza commento i difetti nel codice che scrive, e che è più propenso a segnalare le parti di un compito di cui non è sicuro. Per chi affida un lavoro reale a un’IA, che si tratti di programmare, condurre un’analisi o usare un computer, questa affidabilità è la caratteristica che conta davvero.

Il punto debole degli agenti di IA odierni non è la stupidità ma la sicurezza. Producono risultati che sembrano finiti e si leggono senza intoppi mentre si portano dietro errori in silenzio, e un sistema lasciato a se stesso tende a costruire il passo successivo sull’errore precedente. Se a un agente si dà un compito in più fasi, una sola ipotesi sbagliata all’inizio può propagarsi in tutto ciò che segue, così il lavoro arriva con l’aria di essere completo e si rivela rotto senza che si noti. Un modello che mostra i propri dubbi, invece di mascherarli, è più facile da supervisionare, perché la persona sa dove guardare.

La prova più chiara è nel codice. Anthropic riferisce che Opus 4.8 lascia passare molti meno difetti nel codice che produce senza segnalarli, quel bug silenzioso che salta fuori in produzione e non in revisione. La società di investimenti Bridgewater Associates, tra le prime a provarlo, ha detto che il modello indicava di sua iniziativa problemi sia negli input sia nei risultati di un’analisi, qualcosa che altri sistemi mancavano di regola. Nel lavoro di conoscenza e nella finanza, l’errore pericoloso è proprio quello che nessuno coglie in tempo.

I numeri dei benchmark sostengono l’impostazione senza esserne il fulcro. Opus 4.8 avrebbe ottenuto il 69,2 per cento su SWE-Bench Pro, un test costruito su compiti reali di ingegneria del software, davanti a GPT-5.5 di OpenAI e a Gemini 3.1 Pro di Google. Nelle misurazioni di Anthropic batte ogni modello Opus precedente in un test di programmazione a ogni livello di sforzo e ha segnato il miglior risultato mai registrato dall’azienda in un esame di ragionamento giuridico. I vantaggi sono reali ma stretti, e le vittorie nei benchmark prevedono male come si comporta un modello quando svolge lavoro grigio tutto il giorno.

Il modello arriva con strumenti nuovi. Una funzione in anteprima di ricerca dentro Claude Code, chiamata dynamic workflows, permette a Opus di pianificare un grande lavoro e poi eseguire centinaia di subagenti in parallelo in una sola sessione, pensata per migrazioni che coprono centinaia di migliaia di righe di codice e usando come metro la suite di test già presente nel progetto. Inoltre, un nuovo comando in Claude.ai e nell’ambiente Cowork dell’azienda consente di regolare quanto sforzo, e quanti token, il modello dedica a una risposta.

Le riserve stanno attaccate alle promesse. I guadagni di affidabilità poggiano in gran parte sui test interni di Anthropic, e una cifra come quattro volte meno è una misurazione propria, non verificata in modo indipendente. Anche l’onestà è difficile da accertare dall’esterno, perché un modello può annunciare la propria incertezza e sbagliare lo stesso, o alzare la bandiera sulla cosa sbagliata. Dynamic workflows arriva solo come anteprima, non come funzione finita, e il racconto sulla velocità è meno generoso di quanto sembri, perché la modalità rapida costa il doppio della tariffa standard ed è detta più economica solo rispetto a prezzi premium precedenti.

Per chi guarda al costo, l’accesso standard resta a cinque dollari per milione di token in ingresso e venticinque per milione in uscita, come l’Opus precedente. La modalità rapida gira a circa due volte e mezza la velocità per dieci e cinquanta dollari per milione, il che rende il nuovo comando dello sforzo tanto uno strumento di budget quanto una manopola di qualità. Claude Opus 4.8 è disponibile da subito tramite l’API per sviluppatori di Anthropic con il nome claude-opus-4-8, e l’azienda dice di distribuirlo ovunque lo stesso giorno. È arrivato giovedì, circa sei settimane dopo Opus 4.7, un intervallo insolitamente breve seguito a un’accoglienza tiepida per quella versione e a una serie di lanci rivali di OpenAI e Google. La vera prova è se un modello addestrato a dubitare di sé risulti più utile nel quotidiano di uno addestrato a brillare in una classifica, e quel verdetto verrà dagli agenti che le persone lasciano davvero lavorare.

Tag: Anthropic, Claude Code, Generative AI, AI reasoning, Claude Opus 4.8, LLM