Due punti sotto Opus 4.6, cinque volte più economico: Gemini 3.5 Flash rifà i conti

Google ha rilasciato Gemini 3.5 Flash lunedì a 1,50 dollari per milione di token in ingresso e 9 dollari per milione in uscita. Il nuovo modello tiene oltre 280 token in uscita al secondo, conserva la stessa finestra di contesto da un milione di token del suo predecessore e si piazza sull’Artificial Analysis Intelligence Index a 55 punti, nove sopra Gemini 3 Flash. Martedì mattina un thread r/Anthropic aveva già messo il grafico accanto a quello di Claude Opus 4.6 e posto la domanda che il mercato gira intorno da sei mesi: a quale punto un vantaggio di due punti su un benchmark smette di valere un prezzo cinque volte più alto?

L’Intelligence Index aggrega un paniere di valutazioni pubbliche — ragionamento, conoscenza, programmazione, matematica e completamento di compiti agentici — in un singolo voto da 1 a 100. Claude Opus 4.6, in modalità ragionamento adattivo, sta a 57. Gemini 3.5 Flash, rilasciato il 19 maggio, sta a 55. Il salto di nove punti tra versioni è il maggiore mai registrato da Flash in un singolo passaggio, abbastanza da far eguagliare al nuovo modello l’ultimo Sonnet di Anthropic sull’intelligenza grezza, a una frazione del costo di Sonnet.

L’inquadramento “più intelligente” usato dal thread Reddit gonfia il divario a favore di Flash. Sull’Intelligence Index puro, Opus 4.6 resta avanti di due punti. Il grafico che ha rotto il thread non è l’Intelligence Index isolato. È la vista efficienza-intelligenza contro costo, dove l’asse fa un lavoro diverso e dove Flash 3.5 non si limita a battere Opus 4.6. Sta in una classe in cui nessun altro è nelle vicinanze.

Opus 4.6 chiede intorno a 6,25 dollari per milione di token in ingresso e 25 per milione in uscita. Flash chiede 1,50 e 9. Per un carico di chat con peso due a uno a favore dell’uscita, il rapporto effettivo si avvicina a 4,5x più che al rotondo “cinque volte” del titolo del thread. L’arrotondamento è onesto. La velocità peggiora il quadro per l’ammiraglia: Flash 3.5 regge oltre 280 token in uscita al secondo, Opus 4.6 in modalità ragionamento massimo va intorno a un decimo di quel ritmo sulla stessa suite di benchmark. Per prodotti in cui un utente fissa un cursore — assistenti di codice, agenti di supporto, qualsiasi flusso interattivo — la latenza è una caratteristica che il prezzo non ricompra.

Un anno fa l’argomento per comprare il modello più caro stava in una riga. Il salto qualitativo verso il livello successivo era abbastanza ampio da fare della differenza di prezzo un errore di arrotondamento rispetto al valore consegnato. Il grafico che il thread ha incollato è un altro grafico. Il costo marginale degli ultimi due punti di intelligenza è diventato l’intera decisione di prezzo per i carichi di produzione, e l’errore di arrotondamento ora si avvicina a 4,75 dollari ogni sei spesi.

Esiste un argomento pulito per tenere Opus 4.6 nello stack. Ragionamento a contesto lungo su centinaia di pagine, loop di agente in cui gli errori si sommano passo dopo passo, analisi documentale in cui un divario di due punti su un voto aggregato nasconde vantaggi specifici molto più grandi. Opus è ancora il modello a cui un ingegnere si rivolge quando la modalità di fallimento è “la risposta era sbagliata”, non “la risposta è arrivata in ritardo”. La quota di carichi di produzione che assomigliano a quello si sta restringendo. Non è zero, ed è proprio la fascia in cui i 25 dollari per milione si guadagnano lo stipendio.

I turni di chat che muovono la maggior parte dei token fatturabili — redazione, riassunto, classificazione, traduzione, autocompletamento di codice, ragionamento rivolto al cliente — stanno tutti nella portata di Flash. La domanda che i team di ingegneria si fanno ogni trimestre non è più “quale modello è il migliore”. È “quale modello rende di più per dollaro a latenza accettabile”. Quella seconda domanda Flash la vince adesso con un margine che non chiede sottigliezze per essere interpretato.

L’inquadramento secondario del thread, secondo cui ovunque il consenso è che Opus 4.6 sia migliore del 4.7, merita un trattamento più morbido. È aneddotico. Le ultime due versioni di Opus di Anthropic hanno ricevuto recensioni divise sulle valutazioni di codice e sul rigore d’uso degli strumenti, con squadre che riportano regressioni su loop di agente lunghi sotto 4.7 e altre che riportano vittorie nette su carichi identici. Entrambe le cose possono essere vere quando il comportamento viene messo a punto su molti assi tra versioni minori. I due modelli stanno inoltre a meno di un punto l’uno dall’altro sull’indice pubblico, quindi la frattura della community somiglia più a una questione di gusto che di capacità. Ciò che non è in discussione è che il prezzo di nessuno dei due Opus si muove.

Il segnale più profondo nella conversazione Reddit è ciò di cui gli utenti non stavano discutendo. Nessuno nel thread ha difeso il prezzo di Opus sui principi. Le difese proposte erano specifiche per carico. “Opus mi batte ancora su questo loop di agente.” “Opus resta nel nostro pipeline di revisione documenti.” Sono reali, ma sono difese di carico, non difese di ammiraglia. Un’ammiraglia dovrebbe vincere sullo spettro, non su una singola corsia.

Due punti di gap di intelligenza. Cinque volte il prezzo. Sei volte il vantaggio di velocità nell’altra direzione. Una finestra di contesto da un milione di token a 1,50 dollari al milione in ingresso. Input multimodale, Elo su compiti agentici sopra 1650, sconto del novanta per cento sull’input messo in cache. La risposta di Anthropic nel prossimo trimestre racconterà la propria storia. L’argomento più difficile da scrivere, nel maggio 2026, è quello che un venditore deve portare con sé in una riunione con un cliente.

Tag: tech-en1, Anthropic, Google, ia, Artificial Analysis, benchmark LLM