Quando l’IA capisce le parole senza capire il mondo

Avete presente quando dite a qualcuno “Se hai smesso di mangiare di nascosto la Nutella, allora la dieta sta funzionando”.

In apparenza è una frase innocua. Ma nasconde un’insidia linguistica che usiamo senza pensarci: state dando per scontato che il vostro interlocutore, in effetti, la Nutella la mangiasse di nascosto.

È una presupposizione, un’informazione implicita che incastriamo nelle pieghe del discorso senza mai dichiararla apertamente.

E funziona. Funziona perché il nostro cervello non si limita a decodificare parole: pesca a piene mani dal contesto, dal buon senso, da tutto quello che sa del mondo e della gola umana.

by Roosteram – 24 Mag. 2026

Ora, un gruppo di ricercatori si è chiesto: le intelligenze artificiali che chiacchierano con noi tutto il giorno (ChatGPT, Gemini e altre) sanno fare lo stesso gioco? Capiscono davvero queste sottigliezze pragmatiche, oppure si limitano a un bluff statistico molto ben riuscito?

La risposta, pubblicata in un recente studio firmato da Tara Azin, Yongan Yu, Raj Singh e Olessia Jouravlev, è tanto affascinante quanto spiazzante: le IA ci somigliano, ma per le ragioni sbagliate. E quelle che invece ragionano meglio, paradossalmente, ci somigliano di meno.

Se Carlo ha smesso di fumare (e altre storie)

Mettiamola così. Prendete la frase: “Se Carlo ha smesso di fumare, allora risparmierà molti soldi”. Domanda: Carlo fumava? La risposta è sì, lo avete capito tutti. Ma quanto siete sicuri di questa risposta? Dipende.

Se la frase è proprio così, nuda e cruda, la vostra certezza è altissima: “smettere” implica per definizione che prima si faceva qualcosa. Ma i ricercatori hanno giocato con varianti più subdole. Immaginate: “Se l’azienda ha licenziato il dipendente disonesto, allora farà causa”. Qui la presupposizione è che l’azienda avesse un dipendente disonesto. Quanto siete sicuri che sia vero? Un po’ meno, forse. Perché “licenziare il dipendente disonesto” non è come “smettere di fumare”: il legame logico è meno stringente, e il nostro cervello inizia a soppesare altri indizi. Se l’azienda fa causa, magari è perché il dipendente disonesto esisteva davvero. Se invece non fa nulla, il dubbio si insinua.

È esattamente questo il meccanismo che lo studio ha indagato. I ricercatori hanno costruito un dataset di frasi condizionali attentamente calibrate e hanno chiesto a 120 partecipanti umani di valutare, su una scala di probabilità, quanto fosse vera la presupposizione nascosta. Poi hanno fatto la stessa domanda a quattro modelli linguistici di grandi dimensioni (LLM).

Il risultato? Gli umani si sono dimostrati, come previsto, maestri di pragmatismo: integrano indizi probabilistici, valutano la plausibilità della conseguenza, soppesano il contesto. Le IA, invece, sono andate un po’ a corrente alternata. Alcuni modelli hanno centrato abbastanza bene le risposte umane, altri meno. Fin qui, nulla di sorprendente.

Il colpo di scena: risposte giuste, ragionamenti sbagliati

Il bello viene dopo. Perché i ricercatori non si sono accontentati di guardare le risposte finali. Hanno fatto una mossa da veri detective della mente artificiale: hanno usato un framework chiamato “LLM-as-a-Judge”, chiedendo ai modelli di spiegare il loro ragionamento. E qui hanno scoperto il cortocircuito.

I modelli che meglio imitavano i giudizi umani erano anche quelli che mostravano la minore coerenza pragmatica nelle loro spiegazioni. In pratica, azzeccavano la risposta ma per i motivi sbagliati, arrampicandosi su giustificazioni traballanti o logicamente fragili. Come uno studente che copia il risultato del compito dal vicino di banco e poi, interrogato, inventa un procedimento a casaccio.

Al contrario, i modelli che mostravano una migliore capacità di ragionamento (quelli che articolavano spiegazioni più solide, più vicine a una reale competenza pragmatica) erano quelli le cui risposte finali si allontanavano di più dal giudizio umano. Capiscono meglio, ma ci somigliano meno.

Il quadro che emerge è tanto chiaro quanto scomodo: la performance delle IA su compiti linguistici sofisticati come questo potrebbe essere il frutto non di una vera comprensione pragmatica, ma di un pattern matching superficiale. Ovvero: i modelli non afferrano davvero la logica della presupposizione; riconoscono configurazioni statistiche già viste durante l’addestramento e restituiscono la risposta che “suona più probabile” in base a quelle configurazioni. Una scimmia statistica molto, molto evoluta.

Perché questa ricerca è importante (e non solo per i linguisti)

Lo studio di Azin e colleghi non è solo un esercizio accademico per addetti ai lavori. Mette il dito su una questione che riguarda tutti noi, mentre deleghiamo porzioni crescenti della nostra comunicazione e delle nostre decisioni a questi modelli.

Se un’IA sembra capire l’ironia, le sfumature, le implicature del linguaggio umano (ma lo fa senza una reale competenza pragmatica) siamo di fronte a un’illusione. Un’illusione molto pericolosa, perché ci porta a fidarci di risposte che sembrano sensate ma che potrebbero sgretolarsi di fronte a una minima variazione del contesto, a un’eccezione non prevista, a una presupposizione leggermente più nascosta del solito.

Gli autori lo dicono chiaramente nelle loro conclusioni: servono benchmark fondati sulla teoria linguistica, non solo test basati sulla similarità statistica con le risposte umane. Perché un conto è indovinare cosa direbbe una persona, un altro conto è capire perché lo direbbe. E mentre noi umani continuiamo a litigare su chi abbia mangiato l’ultimo cucchiaio di Nutella, le macchine potrebbero limitarsi a contare le calorie senza averne mai assaggiato il sapore.

fonti:

Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

https://arxiv.org/abs/2605.18352

Quando l’IA capisce le parole senza capire il mondo

Se Carlo ha smesso di fumare (e altre storie)

Il colpo di scena: risposte giuste, ragionamenti sbagliati

Perché questa ricerca è importante (e non solo per i linguisti)

suggeriti

Il riconoscimento delle nostre emozioni: IA e Biometria

BRICS PAY, SWIFT, Dollari ed Oro.

Il Vaticano, potenza segreta e sorvegliato speciale

Latest Articles

Magnoni e qubit: il tallone d’Achille sono i materiali, non la fisica

I Muse e l’arte di spaccare il rock (e 140 chitarre)

La moda dei “report estetici” con l’IA

L’Imprevedibilità di un Chicco di Riso

Karma Chameleon, versione 2.0: vinile, vintage e un po’ di IA