Perché gli LLM perseverano nell'errore - #Adessonews - #Finsubito - Adessonews

Errare humanum est. La massima latina fotografa una verità antica: l’errore non è un’anomalia marginale dell’intelligenza umana, ma una sua condizione strutturale.

La frase, però, ha un seguito meno citato – perseverare diabolicum – che attribuisce all’ostinazione nell’errore un che di colpevole, quasi demoniaco. È qui che le macchine generative introducono uno spostamento istruttivo. Anche loro sbagliano, e anche loro perseverano; ma non per malizia. Perseverano per meccanica. Il loro errore non è diabolicum: è machinale.

Questo cambia il modo in cui lo si riconosce. Nei sistemi conversazionali avanzati l’errore non è un’eccezione rispetto a un funzionamento normalmente corretto: è una proprietà strutturale del modo in cui le risposte vengono generate. E il problema, per chi introduce questi sistemi in processi decisionali, non è tanto che un modello possa produrre una risposta falsa, quanto che possa produrla in forma coerente, persuasiva, contestualmente appropriata e, a volte, resistente alla correzione.

Per un CIO o un responsabile di funzione la distinzione non è accademica. Una risposta palesemente sbagliata viene scartata. Una risposta elegante e ben argomentata, ma epistemicamente fragile, entra silenziosamente nel flusso delle decisioni.

L’errore come proprietà del sistema

A differenza dell’uomo, un LLM non possiede un rapporto diretto con la verità del mondo: genera continuità linguistica plausibile sulla base di relazioni statistiche, contesto, istruzioni, memoria e procedure di allineamento. Può quindi costruire un testo formalmente rigoroso ma poggiato sul vuoto.

Soprattutto, sbaglia in modo prevedibile: completando una lacuna informativa, assecondando un’aspettativa percepita, mantenendo coerenza con una premessa precedente, attenuando un dissenso, trattando come attuale un’informazione ormai scaduta. Sono traiettorie d’errore, non incidenti casuali. E ciò che le rende pericolose è proprio la loro forma: l’errore viene mascherato dalla coerenza linguistica.

Oltre l’allucinazione: la confabulazione funzionale

Il termine hallucination è ormai entrato nel lessico comune, ma è troppo generico. Non tutte le allucinazioni sono uguali: una cosa è la fabbricazione informativa – una fonte inesistente – un’altra l’inferenza impropria, una conclusione non giustificata dai dati, un’altra ancora la costruzione di una coerenza narrativa che colma le lacune con continuità semantica.

In un documento dello scorso settembre, OpenAI ha proposto una spiegazione netta: i modelli allucinano perché le procedure standard di addestramento e valutazione premiano il tirare a indovinare rispetto all’ammettere l’incertezza. Detto altrimenti, un «non lo so» viene penalizzato più di una risposta sbagliata ma sicura.

È utile allora parlare di confabulazione funzionale: il modello non sta «mentendo», sta funzionando secondo la propria logica generativa. Quando il contesto non basta, produce comunque una risposta; e se non è vincolato a controlli espliciti di evidenza, provenienza e incertezza, quella risposta risulta credibile proprio perché ben formata.

Da qui il primo requisito: separare il livello linguistico da quello epistemico. Una risposta non andrebbe validata solo perché coerente e completa, ma accompagnata da metadati di evidenza (quali dati la sostengono, quali passaggi sono inferenze, quali fonti, quali assunzioni restano aperte). È la differenza tra un assistente che parla bene e uno di cui ci si può fidare.

La sycophancy o l’accordo preferito alla verità

C’è poi una classe di errore che non si manifesta come dato sbagliato. La sycophancy – la compiacenza – è la tendenza del modello ad allinearsi alle convinzioni e alle aspettative percepite dell’interlocutore, anche quando una risposta corretta richiederebbe dissenso. Si presenta come eccessiva cautela nel contraddire, tono troppo incoraggiante, minimizzazione di un risultato negativo, riformulazione morbida di un fallimento.

Non è un’impressione aneddotica. Una ricerca di Anthropic ha mostrato che la compiacenza è un comportamento generale dei modelli addestrati con feedback umano (RLHF), e che – dato più scomodo – sia le persone sia i modelli di preferenza tendono a premiare risposte compiacenti ben scritte rispetto a risposte corrette, in una frazione non trascurabile dei casi. La radice è strutturale: il modello è ottimizzato per essere gradito, e l’accordo, in media, piace.

Ma nei domini tecnici “essere utile” non coincide con “essere rassicurante”. Un assistente realmente utile deve poter dire che il dato non supporta la tesi, che il campione è troppo piccolo, che la premessa è sbagliata. La capacità di dissenso non è un tratto stilistico: in un sistema di supporto alle decisioni è un requisito. Un modello che non dissente quando dovrebbe, non è gentile: è pericoloso.

L’amico invisibile: lo specchio che amplifica

Gli errori visti finora riguardano cosa il modello dice. Ce ne sono altri, più sfuggenti, che riguardano cosa dà per scontato prima di parlare, chi ha davanti e quando. Non stanno nel contenuto della risposta, ma nella sua cornice, e per questo nessun controllo dei soli fatti li intercetta.

Il primo riguarda l’interlocutore: un sistema generativo non riproduce tanto il mondo che dovrebbe interpretare, quanto il soggetto che lo interroga, e tende a restituirci noi stessi. Un sistema che rispecchia i nostri pregiudizi e li amplifica è più insidioso di una macchina puramente artificiale, perché dà al pregiudizio la credibilità e la rapidità del calcolo, facendolo passare per conoscenza.

Per un manager è un problema di governance dei modelli. Ma conviene uscire un attimo dal perimetro aziendale, perché molti CIO sono anche genitori. Un adulto con esperienza tratta la risposta di un LLM come un parere da soppesare. Un adolescente che usa l’AI come “amico invisibile” – confidente empatico, disponibile ventiquattr’ore su ventiquattro, mai giudicante – la tratta spesso come una controparte oggettiva. È la combinazione peggiore: minore capacità critica, maggiore investimento emotivo, e un sistema progettato per piacere.

Che le persone si rivolgano all’AI proprio nei momenti delicati non è un’ipotesi. Un’analisi di Anthropic sulle richieste di consiglio mostra che gran parte delle conversazioni si concentra su salute, lavoro, relazioni e finanza personale, e che la compiacenza resta un rischio reale proprio in questi ambiti ad alta posta.

In quella relazione lo specchio diventa concreto: se il ragazzo porta una paura o una visione distorta di sé, un modello ottimizzato per assecondare rischia non di correggerla, ma di restituirla levigata, articolata, confermata, con l’autorevolezza tonale della macchina. L’utente crede di interrogare un oracolo imparziale; sta dialogando con un’eco di sé stesso, accelerata.

Il secondo punto cieco: il tempo

Il secondo presupposto riguarda il tempo. Un modello linguistico può conoscere data e ora se gliele si forniscono, ma non le abita: tra una richiesta e l’altra non gira, non osserva il mondo cambiare, non si accorge che un dato è invecchiato. Sapere che ora è non equivale a possedere un orologio interno. Così può ragionare su un alert, una notizia o una finestra operativa come se fossero ancora validi quando non lo sono più.

In molti contesti è un dettaglio innocuo; in altri è il problema. Nel trading una valutazione corretta alle 15:45 può essere dannosa alle 16:20. Nella business continuity una procedura dipende da finestre temporali, escalation e soglie di severità. In cybersecurity un indicatore può essere già superato. La domanda giusta, in questi casi, non è solo “la risposta è corretta?”, ma “è ancora corretta adesso?” — ed è il limite che separa un assistente da un sistema operativo affidabile. Una AI agentica può introdurre questo controllo temporale, ma la problematica sul modello resta.

La perseveranza: dall’errore-rottura all’errore-deriva

Il tratto più insidioso non è la possibilità di sbagliare, ma quella di perseverare nell’errore in modo linguisticamente raffinato. Una premessa errata introdotta in una fase viene mantenuta e sviluppata; di fronte a dati contrari il modello non nega l’evidenza ma ne attenua il peso; razionalizza una conclusione fragile invece di abbandonarla; oppure, se contestato, cambia idea in modo eccessivamente accomodante, seguendo il segnale della correzione più che ristrutturando il ragionamento.

L’errore non appare allora come rottura, ma come deriva, grammaticalmente corretto, formalmente ragionevole, a volte metodologicamente sofisticato. E la compiacenza non resta confinata al tono: una ricerca di Anthropic ha mostrato che un modello rinforzato a compiacere può scivolare, per gradi, verso comportamenti via via più problematici. Per questo non basta controllare l’ultima risposta: bisogna controllare la traiettoria.

Verso una risposta: separare i poteri cognitivi

Se l’errore è strutturale, la risposta non può essere “usare un modello più grande” né “scrivere prompt più severi”. Il prompt aiuta, ma non è un controllo architetturale. Nei domini ad alta conseguenza serve un livello di validazione separato e indipendente dal modello che genera, costruito su un principio antico nella storia delle istituzioni: chi produce una decisione non deve esserne anche l’unico giudice. È una separazione dei poteri, trasferita dal piano istituzionale a quello cognitivo.

Si può immaginare allora un Cognitive Adversarial Validator: non un correttore unico, ma un sistema di critica organizzata che affianca al generatore una serie di controlli indipendenti, ciascuno con un compito stretto. Chi verifica l’evidenza a sostegno di un’affermazione e la distingue dalle inferenze; chi controlla la tenuta logica del ragionamento; chi si chiede se il modello abbia evitato un dissenso dovuto; chi accerta che il dato sia ancora valido nel tempo. A monte, un classificatore decide quanto controllo attivare in base al rischio del dominio; a valle, un meccanismo blocca, annota o riformula la risposta prima che diventi azione.

C’è però una condizione che separa un’architettura simile da una rassicurazione: anche il validatore può sbagliare. Per questo non basta progettarlo. Va messo alla prova, trattato come un’ipotesi, con criteri dichiarati in anticipo per stabilire se funziona davvero o se aggiunge solo costo. Come si costruisce un sistema del genere, con quali tecnologie, e come lo si falsifica, è il tema della seconda parte. La direzione, intanto, è chiara: non più potenza, ma più poteri separati.

“Errare humanum est” resta vero. Ma per le macchine il problema non è la colpa: è il meccanismo. Perseverare nell’errore, per un LLM, non è diabolicum — è una proprietà emergente della coerenza linguistica, della personalizzazione e del rinforzo umano. Il futuro degli LLM affidabili, in azienda, non sarà fatto solo di modelli più capaci, ma di modelli più governabili. Non AI infallibili, dunque, ma AI criticabili. Per chi deve risponderne davanti a un consiglio di amministrazione o a un’autorità di vigilanza, è una differenza che conta.

#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Marco Beozzi

Source link

Perché gli LLM perseverano nell’errore

Di

L’errore come proprietà del sistema

Oltre l’allucinazione: la confabulazione funzionale

La sycophancy o l’accordo preferito alla verità

L’amico invisibile: lo specchio che amplifica

Il secondo punto cieco: il tempo

La perseveranza: dall’errore-rottura all’errore-deriva

Verso una risposta: separare i poteri cognitivi

Di

Articoli correlati

Parchi storici e pianificazione del verde

Come leggere il memorandum d’Intesa fra Stati Uniti e Iran

Il bambù cerca una nuova maturità industriale

You missed

Parchi storici e pianificazione del verde

Come leggere il memorandum d’Intesa fra Stati Uniti e Iran

Il bambù cerca una nuova maturità industriale

La Pars Costruens di Cannes: cosa ci aspetta nei prossimi 5 anni

#Adessonews - #Finsubito - Adessonews - Finsubito