Un’IA da 1.000 dollari ha trovato 21 falle zero-day in FFmpeg

Un agente di IA autonomo ha letto circa 1,5 milioni di righe del codice C di FFmpeg ed è tornato con 21 vulnerabilità zero-day funzionanti, ciascuna accompagnata da un input riproducibile che la innesca. FFmpeg è il motore che decodifica video e audio dentro browser, lettori multimediali, telefoni e smart TV, quindi un buco lì è un buco quasi ovunque.

Per chiunque abbia mai aperto un link a un video, è proprio questo il punto. FFmpeg non compare quasi mai sullo schermo, ma gira sotto VLC, Chrome, innumerevoli app Android e i server che elaborano i caricamenti sulle piattaforme più grandi. Un errore in uno dei suoi parser può, in linea di principio, essere raggiunto da un singolo file malevolo: una clip, uno stream, una traccia di sottotitoli costruita per mandare in crash il programma o eseguire codice sul dispositivo che sta decodificando.

L’agente arriva da DepthFirst AI, una startup di sicurezza che ha costruito un sistema per dare la caccia agli errori di memoria senza che un umano legga prima il codice. Secondo l’azienda, l’intera campagna è costata circa 1.000 dollari, una cifra che presenta di proposito come il 10 per cento di quanto Anthropic ha speso quando il suo modello Claude Mythos ha setacciato software importanti in cerca di vulnerabilità all’inizio di quest’anno. La vera notizia sta sotto il cartellino del prezzo. Trovare bug reali e sfruttabili in infrastrutture critiche sta diventando abbastanza economico da farlo quasi per capriccio.

I 21 ritrovamenti sono per lo più le ferite classiche del vecchio codice C: overflow del buffer nello heap e nello stack, overflow e underflow di interi. Si annidano nelle parti di FFmpeg che ricevono dati non attendibili, tra cui il demuxer MPEG-TS, il decoder VP9, vari depacketizer RTP, lo scaler swscale e i demuxer DASH e AVI. Sono esattamente i componenti che toccano un file o un flusso di rete prima di ogni altra cosa.

Una delle falle stava nel codice dal 2003. Un overflow dello stack legato a una tabella di descrizione dei servizi, ora tracciato come CVE-2026-39214, è rimasto inosservato per 23 anni nonostante innumerevoli revisioni e audit. La prima serie di identificativi di DepthFirst va da CVE-2026-39210 a CVE-2026-39218, mentre i problemi rimanenti sono corretti ma non ancora numerati. Che una macchina abbia portato a galla in pochi giorni ciò che due decenni di occhi umani avevano mancato è il titolo scomodo per la professione della sicurezza.

Il bottino di FFmpeg è arrivato nella stessa settimana in cui Google ha distribuito Chrome 149, che ha corretto un record di 429 vulnerabilità in una sola versione. Più di 100 sono state giudicate critiche o alte, in gran parte errori use-after-free e casi in cui il browser si è fidato di dati che avrebbe dovuto controllare. La peggiore, CVE-2026-10881, è una lettura e scrittura fuori dai limiti nel livello grafico ANGLE di Chrome, con un punteggio di gravità di 9,6 su 10. Una pagina web confezionata ad arte potrebbe usarla per evadere dalla sandbox del browser ed eseguire codice sulla macchina, e Google ha pagato 97.000 dollari al ricercatore che l’ha segnalata.

Due numeri, 21 e 429, raccontano la stessa storia dai due lati opposti. La ricerca di vulnerabilità si sta industrializzando. Che a trovare i difetti sia un agente di IA o un programma di bug bounty ben finanziato, il volume di errori scoperti cresce molto più in fretta del numero di persone disponibili a correggerli.

Quel volume è anche il punto in cui l’entusiasmo incontra la realtà. La caccia ai bug con l’IA ha un problema di falsi positivi, perché un modello può descrivere con sicurezza una vulnerabilità che non esiste, o una che nessun attaccante potrebbe mai innescare. Quando Anthropic ha annunciato che Claude Mythos aveva trovato migliaia di zero-day nei principali sistemi operativi e browser, alcuni critici hanno notato che il numero da titolo poggiava su un insieme molto più piccolo di casi rivisti a mano, e hanno letto l’annuncio tanto come un argomento di vendita quanto come un risultato di ricerca. DepthFirst sostiene che il suo agente è costruito proprio per evitarlo, con barriere che gli impediscono di inventare le condizioni di cui un bug ha bisogno e l’obbligo che ogni scoperta arrivi con un input che dimostri di raggiungere la falla. La prova di concetto riproducibile è ciò che separa un rapporto reale dal rumore.

Eppure, anche i bug verificati creano un problema. FFmpeg è mantenuto in gran parte da volontari, e un’improvvisa ondata di segnalazioni generate dalle macchine, per quanto accurate, sposta il collo di bottiglia dal trovare i difetti al classificarli e correggerli. Il costo della scoperta crolla mentre quello della risposta umana no. Uno strumento capace di produrre 21 bug validi per 1.000 dollari può anche produrli più in fretta di quanto una piccola squadra possa assorbirne con responsabilità.

Per ora le falle di FFmpeg sono corrette nel codice sorgente del progetto, con i numeri CVE rimanenti ancora da assegnare, e Chrome 149 si sta distribuendo agli utenti in automatico nei prossimi giorni. DepthFirst ha lasciato intendere che FFmpeg era una dimostrazione e non un punto d’arrivo, e che altre librerie open source molto diffuse sono le prossime in lista per lo stesso trattamento. La prossima volta che un agente di IA leggerà un milione di righe di codice che gira in silenzio su miliardi di dispositivi, l’unica vera domanda sarà quanto in fretta gli umani dall’altra parte riusciranno a stare al passo.

Tag: cybersicurezza, Zero-day, AI Agent, Chrome, Claude Mythos, DepthFirst AI