Tecnologia

Ollama 0.22.1 porta il tool calling di Gemma 4 sul portatile senza chiave API

Susan Hill

Ollama 0.22.1 introduce un renderer Gemma 4 aggiornato che finalmente supporta le due capacità che contavano per il lavoro serio di IA locale: la modalità di pensiero esplicito e la chiamata di funzioni, o tool calling. Il tool calling lascia che sia il modello a decidere quando invocare una funzione esterna — aprire una pagina web, interrogare un database, eseguire un calcolo — e poi integra il risultato nel proprio ragionamento. La modalità di pensiero mette in chiaro i passi intermedi del modello, così che un’applicazione possa intercettarli e reagirvi. Entrambe sono state finora funzioni che le grandi API in cloud facevano pagare. Entrambe adesso girano in locale contro Gemma 4 senza nessun servizio esterno di mezzo.

Il motivo per cui questa notizia pesa più dell’ennesima uscita di un modello è la matematica dell’hardware. La famiglia Gemma 4 pubblicata da Google con licenza Apache-2.0 copre quattro taglie: E2B, E4B, 26B A4B e 31B. Le varianti più leggere girano su un portatile recente con grafica integrata e dodici-sedici gigabyte di RAM. Le versioni 26B A4B e 31B chiedono una GPU da desktop, ma restano comodamente nel territorio del consumatore. La stessa architettura che prima imponeva un contratto API a pagamento o un server domestico da quattro cifre diventa così un’installazione di un sabato pomeriggio per chiunque abbia una macchina ragionevolmente moderna.

La conseguenza pratica per chi non programma è che un’intera categoria di applicazioni-agente — quelle che leggono la posta, redigono risposte, scaricano documenti, compilano moduli, riassumono riunioni — non deve più mandare quei dati a un server di terze parti. Chi teneva alla privacy e voleva una vera automazione agentica aveva fino a ieri due strade: fidarsi della politica sui dati di un provider in cloud oppure far girare in locale un modello molto più debole senza tool calling. La via di mezzo era un buco, e Ollama 0.22.1 lo chiude per la fascia di peso di Gemma 4.

La lettura scettica è che Ollama e Gemma 4 non sono equivalenti della frontiera in cloud. Un 31B ospitato in locale non arriva al livello di Claude di Anthropic o di GPT-5 di OpenAI sul ragionamento complesso. L’accuratezza delle chiamate a strumenti su catene lunghe è nettamente peggiore sulle varianti piccole. Gli input multimodali funzionano, ma più lenti. E il carico di integrazione resta sull’utente: nessuno ha ancora costruito un’app-agente Gemma 4 più Ollama abbastanza rifinita da reggere il confronto con un flusso SaaS pronto. Il soffitto hardware e la rifinitura del software sono ancora due falle reali.

La versione è disponibile da subito tramite l’installer standard di Ollama per macOS, Linux e Windows. I pesi di Gemma 4 sono ospitati nella libreria di modelli di Ollama sotto il namespace gemma4, e il cambio di runtime di 0.22.1 si applica in automatico a qualsiasi taglia una volta scaricata.

Discussione

Ci sono 0 commenti.