Cos’è davvero un’allucinazione nei modelli linguistici
Il termine “allucinazione” in ambito di intelligenza artificiale generativa indica un errore in cui un modello, come ChatGPT di OpenAI o Gemini di Google, fornisce un’informazione falsa come se fosse vera. Questo tipo di errore può assumere diverse forme: una risposta può sembrare corretta ma non pertinente, oppure seguire un ragionamento illogico o non attenersi alle istruzioni ricevute.
L’espressione, mutuata dal linguaggio clinico, è oggi contestata da diversi esperti, come Emily Bender dell’Università di Washington, per due motivi. Primo, trasmette l’illusione che tali errori siano rari e gestibili. Secondo, antropomorfizza la macchina, suggerendo una percezione soggettiva che i modelli non possiedono.
I nuovi modelli OpenAI peggiorano nel mantenere l’accuratezza
Secondo un rapporto tecnico recente, OpenAI ha rilevato che i suoi modelli più nuovi – o3 e o4-mini, pubblicati nell’Aprile 2025 – hanno tassi di allucinazione sensibilmente superiori rispetto al modello o1, rilasciato alla fine del 2024. Nel compito di riassumere informazioni pubbliche su individui, o3 ha allucinato nel 33% dei casi, mentre o4-mini ha toccato il 48%. In confronto, il vecchio o1 si fermava al 16%.
Questo dato ribalta la narrativa proposta finora dalle aziende di IA, che promettevano miglioramenti progressivi. L’idea che più potenza computazionale e più dati garantiscano una migliore affidabilità si sta dimostrando non sempre fondata.
Anche Google e DeepSeek non sono immuni
Il problema non riguarda solo OpenAI. Una classifica indipendente stilata da Vectara, che valuta i tassi di allucinazione nei modelli, ha evidenziato che anche i modelli cosiddetti “di ragionamento”, come DeepSeek-R1, sono peggiorati. Il modello DeepSeek-R1, ad esempio, ha registrato un tasso del 14,3%, ma il team ha sottolineato che molte di queste erano “benigne”, ovvero logicamente plausibili ma non realmente presenti nel testo fornito.
Ragionamento o no, le allucinazioni restano
OpenAI nega che il problema sia dovuto ai modelli di ragionamento: secondo l’azienda, il processo stesso di deduzione logica non porta necessariamente a un aumento degli errori. Tuttavia, i dati raccolti e i test indipendenti mostrano che i modelli recenti, anche quelli ottimizzati per ragionare, producono contenuti meno affidabili di quanto ci si aspettasse.
Forrest Sheng Bao di Vectara ha affermato che, nei loro test, i tassi di allucinazione nei modelli di ragionamento e non erano “quasi identici”, almeno per quanto riguarda OpenAI e Google. Questo mette in discussione l’efficacia dell’approccio ragionativo come soluzione strutturale agli errori.
Limiti strutturali dei LLM e il problema della verifica
I modelli linguistici di grandi dimensioni non elaborano realmente informazioni, ma si limitano a predire la parola successiva più probabile. Questa struttura, come sottolinea Bender, non consente una reale comprensione del contesto o delle fonti.
Inoltre, molte applicazioni reali rischiano di essere compromesse: un bot legale che cita casi inesistenti, un assistente clienti che riporta politiche obsolete, o un sistema di ricerca che richiede verifiche continue perdono rapidamente la loro utilità.
Verso un’accettazione degli errori?
Secondo Arvind Narayanan dell’Università di Princeton, dobbiamo iniziare a convivere con l’idea che l’IA sarà sempre soggetta a errori. Aggiungere più dati o più potenza di calcolo non garantisce un miglioramento lineare. Forse la strada migliore, per alcuni casi d’uso, è utilizzare l’IA solo quando la verifica delle sue risposte è più veloce che condurre ricerche manuali. Ma per i compiti che richiedono precisione assoluta, affidarsi ai chatbot potrebbe non essere mai una soluzione adeguata.