Tecnologia

Il nuovo modello vocale di OpenAI ragiona dentro il loop audio, e il silenzio che tradiva l’IA scompare

La pausa è l'indizio. Fino a oggi, l'IA vocale lavorava trascrivendo il parlato, passando il testo a un modello linguistico, recuperando la risposta e sintetizzandola di nuovo in audio. Ogni passaggio costa tempo. L'utente sente silenzio, capisce che dall'altra parte qualcosa si sta elaborando, percepisce la cucitura. Il nuovo GPT-Realtime-2 di OpenAI fa collassare quel pipeline in un solo modello in cui il ragionamento avviene dentro il loop audio stesso, e la cucitura sparisce.
Susan Hill

OpenAI ha lanciato in settimana tre nuovi modelli audio nella sua Realtime API — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. La testa di serie è il primo. L’azienda lo descrive come il primo modello vocale con “ragionamento di classe GPT-5”, costruito perché un solo modello gestisca audio in entrata e audio in uscita, con il pensiero intrecciato nella conversazione anziché incastrato fra i passaggi di trascrizione e sintesi. I numeri che lo sostengono sono concreti. Il punteggio Big Bench Audio è salito dall’81,4 per cento al 96,6 per cento rispetto al modello di riferimento precedente. Audio MultiChallenge è cresciuto dal 34,7 per cento al 48,5 per cento. La finestra di contesto è passata da 32.000 token a 128.000 — abbastanza spazio per tenere uno storico cliente intero dentro una telefonata.

Il cambiamento strutturale si vede meno nei benchmark. Per tre anni, chiunque mettesse in piedi un agente vocale di produzione ha dovuto cucire lo stack a mano — Whisper o Deepgram per la trascrizione, un LLM per il ragionamento, ElevenLabs o Cartesia per la voce, e prompting per coprire la latenza. Ogni passaggio fra pezzi costava millisecondi e nitidezza. L’utente sentiva un “fammi controllare” infilato da uno script, poi sentiva nulla mentre il modello pensava, infine sentiva la risposta. GPT-Realtime-2 porta quegli appoggi come comportamento nativo. I preamboli permettono all’agente di dire “fammi controllare” mentre richiama strumenti, così l’utente non resta seduto nel silenzio. Le chiamate parallele agli strumenti consentono al modello di lanciare più richieste al backend simultaneamente e raccontare quale è in corso. Il comportamento di recovery cattura i fallimenti e li espone invece di gelare la conversazione.

La superficie di controllo che si apre per gli sviluppatori è la parte più interessante. Lo “sforzo di ragionamento” è configurabile — minimal, low, medium, high e xhigh — con low di default per tenere la latenza bassa nelle richieste semplici. Un agente che risponde “a che ora chiudete?” non ha bisogno di ragionamento di classe GPT-5. Un agente che accompagna un cliente in una contestazione di rimborso sì. Lo stesso modello può essere istruito su quanto pensare turno per turno, ed è un cambio reale rispetto al modello precedente, in cui la profondità di ragionamento era fissa e lo sviluppatore sceglieva fra veloce e intelligente al deploy.

Lo scetticismo ha il suo posto. “Ragionamento di classe GPT-5” è una formula di marketing, non un’affermazione verificabile — senza benchmark indipendenti su dialogo realistico la comparazione resta interna. Gli agenti vocali hanno una modalità di fallimento separata che i benchmark colgono male — il momento in cui l’agente dice qualcosa di sbagliato con voce calma e naturale. Ragionare meglio aiuta, ma non elimina il problema. Conta anche il prezzo. GPT-Realtime-2 costa 32 dollari per milione di token audio in input e 64 per milione in output. GPT-Realtime-Translate gira a 0,034 dollari al minuto, GPT-Realtime-Whisper a 0,017. Abbastanza economico per il customer service ad alto volume. Non così economico da usarlo in prodotti consumer di conversazione senza pensare bene la durata della sessione.

Il contesto di deployment racconta il resto. Zillow ha messo online la ricerca casa via voce lo stesso giorno. Deutsche Telekom ha schierato supporto vocale tradotto dal vivo in quattordici mercati europei. I due sono esattamente il caso d’uso per cui OpenAI fa il prezzo — conversazioni lunghe, transazionali, dense di contesto, in cui l’utente trae un beneficio reale da un agente che ragiona davvero invece che limitarsi a recuperare. Priceline sta costruendo sistemi che permettono ai viaggiatori di gestire prenotazioni alberghiere e seguire ritardi di volo interamente a voce. Il pattern dietro i nomi che OpenAI sgancia per primi è chiaro — i clienti citati sono quelli i cui sistemi vocali precedenti funzionavano peggio — call center, linee di supporto, viaggi transazionali. I posti in cui l’utente oggi urla “operatore” al telefono.

I modelli sono disponibili nella Realtime API ora. Gli upgrade vocali per ChatGPT restano in arrivo — “Restate sintonizzati, lo stiamo cucinando”, ha detto OpenAI. Sam Altman ha inquadrato il lancio attorno a uno spostamento di comportamento — gli utenti ricorrono sempre più alla voce con l’IA quando devono “scaricare” molto contesto. Se quel pattern regge, lo scarto fra IA vocale e IA testuale comincia a chiudersi — e la cucitura che tradiva l’IA al telefono diventa più difficile da sentire.

Discussione

Ci sono 0 commenti.