Coerenza senza verità: il problema epistemico delle allucinazioni coerenti nell’AI decisionale

Innovation

Technology

Consulting

19
Novembre
2025

19 Novembre 2025

Vincenzo Gioia

Vincenzo Gioia

Le allucinazioni dei modelli linguistici non sono solo errori da correggere ma anche sintomi di come questi sistemi costruiscono coerenza. I framework di explainability e evaluation attuali misurano coerenza formale, non corrispondenza semantica, aprendo un problema epistemico che richiede approcci diversi. Quando un LLM genera una risposta fattualmente scorretta ma perfettamente integrata nel ragionamento, ci troviamo in una zona grigia nella quale il sistema ha prodotto coerenza interna senza corrispondenza semantica. In contesti decisionali legati a safety e security, come l’healthcare o il farmaceutico, questa “allucinazione coerente” può funzionare come nudging che orienta le scelte sfruttando bias preesistenti, senza che l’utente percepisca l’errore.

Un caso concreto

Consideriamo un LLM utilizzato per supporto decisionale in ambito ospedaliero. Il sistema potrebbe inferire una controindicazione tra due farmaci basandosi su correlazioni statistiche apparenti nel training data, integrandola coerentemente nel ragionamento clinico. L’output mostra dipendenze logiche tracciate, citazioni di letteratura formalmente pertinenti e una struttura argomentativa solida. Il decisore, vedendo questa coerenza, può accettare la raccomandazione senza verifiche incrociate, ma la premessa fattuale è falsa. La controindicazione non esiste, o esiste in condizioni diverse da quelle del caso specifico. Il sistema ha prodotto validità formale senza corrispondenza semantica.

Il framework teorico: Davidson sulla coerenza

Questo caso rivela un problema strutturale: il sistema ha costruito validità formale senza verificare corrispondenza fattuale. La coerenza argomentativa (es.: dipendenze logiche tracciate, citazioni pertinenti, struttura solida) ha mascherato l’errore semantico. Qui emerge una distinzione epistemica fondamentale, formalizzata da Donald Davidson (1983): coerenza come criterio di giustificazione vs corrispondenza come condizione di verità. La coerenza ti dice se una credenza si integra nel sistema di credenze; la corrispondenza ti dice se quella credenza è vera. Davidson mantiene distinti questi due piani: puoi essere giustificato nel credere qualcosa (perché è coerente) anche se quella credenza è falsa. La coerenza autorizza, ma non garantisce verità. I modelli linguistici ottimizzano per coerenza: massimizzano la consistenza interna delle rappresentazioni, minimizzano le contraddizioni logiche, producono output che si integrano nel contesto. Ma non hanno meccanismi nativi per validare la corrispondenza semantica: non possono verificare se le loro rappresentazioni intermedie mappano stati di cose reali. Il risultato: allucinazioni che sono epistemicamente giustificate (dal punto di vista della coerenza sistemica) ma semanticamente false. Quando queste allucinazioni si inseriscono in flussi decisionali diventa fondamentale capire con quale criterio le invalidiamo, chi definisce i criteri di coerenza accettabile, con quale legittimità e in vista di quali obiettivi.

I limiti degli approcci tecnici attuali

Gli strumenti di explainability post-hoc come SHAP e LIME generano approssimazioni probabilistiche delle dipendenze input-output, ma non rivelano i meccanismi causali interni del modello. Sono ricostruzioni statistiche esterne che mappano correlazioni: possono indicare quali input contribuiscono a un output, ma non validano la corrispondenza semantica delle rappresentazioni intermedie con la realtà. Anche strumenti di ispezione diretta come l’attention visualization mostrano dove il modello alloca attenzione, ma non spiegano perché quella configurazione produca quell’output semantico specifico. Un’analogia concettuale—non tecnica—emerge dallo scandalo Horizon-Fujitsu del Post Office britannico. In quel caso, 900 gestori di uffici postali furono ingiustamente condannati basandosi sugli output di un sistema contabile (Horizon) i cui meccanismi interni erano inaccessibili e inverificabili. Il sistema mostrava discrepanze nei bilanci, ma non poteva dimostrare la loro corrispondenza con transazioni reali. Le “spiegazioni” fornite erano ricostruzioni retroattive che mascheravano l’impossibilità di accedere ai processi computazionali effettivi, quello che potremmo chiamare “trasparenza descrittiva senza validazione semantica”. Il risultato: un disastro giudiziario basato su output che sembravano verificabili ma erano il prodotto di meccanismi opachi. Non diversamente, SHAP e LIME generano visualizzazioni che sembrano trasparenti ma sono esse stesse modelli interpretativi aggiuntivi, non finestre dirette sul modello originale. Queste ricostruzioni creano un’illusione di trasparenza descrittiva senza risolvere il problema della validazione semantica: possiamo vedere correlazioni statistiche, non verificare corrispondenza fattuale.

Governance e validazione semantica

Non possiamo delegare la validazione alla sola architettura del modello. La coerenza interna non può diventare alibi epistemico per legittimare risposte scorrette. Serve un framework di validazione semantica esterno, ma costruirlo richiede governance esplicita basata su criteri normativi chiari, trasparenza sulle dipendenze inferenziali e meccanismi di attribuzione. In assenza di questo framework, la “spiegabilità” diventa giustificazione formale: il sistema produce coerenza argomentativa senza garanzia di corrispondenza fattuale.

Implicazioni normative

La costruzione di framework di validazione semantica solleva questioni di responsabilità distribuita: chi certifica i validatori esterni? Con quali standard di audit? Come si gestisce il trade-off tra verifica rigorosa e latenza decisionale in contesti time-critical come diagnosi medica o decisioni finanziarie ad alta frequenza? E come si previene che i criteri di validazione stessi diventino vettori di bias, sostituendo una forma di opacità (quella del modello) con un’altra (quella del validatore)? Qualcuno potrebbe addurre la non-soluzione dello human-in-the-loop. Ma questo framework è fragile quanto lo è l’uomo che valida il risultato del modello e la dimostrazione è nei paradossi che nascono dall’esperimento della stanza cinese.

Domande aperte

Ritengo che la relazione coerenza-verità non abbia ancora trovato una soluzione epistemica senza passare attraverso semplificazioni tecniche, spesso care ai data scientists, o assunti filosofici con basi logiche fragili. Per questo mi chiedo come facciano a validare risposte coerenti ma fattualmente errate quanti sono chiamati a lavorare con gli LLM in ambiti decisionali critici (sanità, legal, finance). Mi chiedo in che modo tracciano il confine tra errore accettabile e manipolazione strutturale. Il viaggio nell’universo AI è di fronte a una nuova frontiera che trovo affascinante.

Foto:
L’immagine è la rappresentazione coerente di una visione distorta. Il messaggio è profondamente legato alla natura delle allucinazioni che sono coerenti alla realtà pur essendo una distorsione della stessa.Foto di Ehimetalor Akhere Unuabona su Unsplash

Indice

Iscriviti alla newsletter
Indice
Iscriviti alla newsletter

Ottieni maggiori informazioni

Compila il modulo per metterti in contatto con noi. Saremo lieti di rispondere a tutte le tue domande.

Abbiamo bisogno del tuo consenso per poter dare seguito alla tua richiesta:

Potrai interrompere la ricezione delle nostre comunicazioni in qualsiasi momento, attraverso l'apposito link che troverai nelle email.