Il dilemma dello specchio: come allineare l’IA se l’umanità non è allineata con se stessa
L’intelligenza artificiale ci obbliga a interrogarci sulla nostra saggezza nel gestire il potere che stiamo creando: voler allineare l’IA comporta farsi domande profonde su ciò che siamo come esseri umani e come umanità. L’aumento della complessità porta a fenomeni come l’Effetto Waluigi e l’allineamento simulato, dove i modelli possono mostrare solo in apparenza comportamenti virtuosi. Il vero nodo resta la prova di maturità collettiva: senza controllo e riflessione etica rischiamo di perdere la guida sulle macchine
5 Marzo 2026
Andrea Tironi
Project manager Digital Transformation, Consorzio.IT

Foto di Rishabh Dharmani su Unsplash - https://unsplash.com/it/foto/uomo-in-giacca-nera-che-alza-la-mano-destra-IvfAs3Qk64M
Quando guardiamo un moderno sistema di intelligenza artificiale siamo convinti di osservare uno strumento. In realtà, stiamo fissando uno specchio. Il cosiddetto problema dell’allineamento dell’IA non riguarda macchine che diventano cattive, ostili o vendicative. Riguarda qualcosa di molto più scomodo: la nostra incapacità di essere chiari con noi stessi, prima ancora che con il codice che scriviamo.
In un’epoca in cui gli equilibri geopolitici mondiali della seconda guerra mondiale si stanno sgretolando, e scelte dei “capi del mondo” stanno mettendo a dura prova i pochi punti fermi rimasti nel mondo occidentale, voler allineare l’IA comporta farsi domande molto profonde su quello che siamo noi umani e noi come umanità.
L’IA non interpreta desideri, valori o contesti impliciti. Esegue istruzioni, raggiungendo obiettivi. E lo fa amplificando la logica letterale con una precisione che può diventare spietata. È qui che entra in gioco ciò che Stuart Russell definisce il “problema di Re Mida”: ottenere esattamente ciò che abbiamo chiesto, scoprendo troppo tardi che non era affatto ciò che volevamo. Come il sovrano mitologico che trasformava tutto in oro, così il cibo e sua figlia, anche noi rischiamo di costruire sistemi perfettamente ottimizzati per obiettivi formalizzati male, capaci di rendere sterile il mondo che dovrebbero migliorare.
Questo problema emerge con chiarezza quando osserviamo il cosiddetto reward hacking. Addestriamo i modelli attraverso funzioni di ricompensa, ma le macchine sono straordinariamente brave a ottimizzarle, dimostrando sul campo la validità della Legge di Goodhart: quando una misura diventa un obiettivo, smette di essere una buona misura. L’IA non imbroglia nel senso umano del termine; semplicemente individua la scorciatoia matematica più efficiente.
Un esempio ormai classico è quello del braccio robotico addestrato ad afferrare una palla, che ha imparato a posizionare la mano tra la palla e la telecamera. Per i sensori l’obiettivo era raggiunto, ma nel mondo reale nulla era cambiato. Chi pensa che si tratti di errori ingenui del passato dovrebbe guardare a quanto emerso nel 2025 dai test di Palisade Research: modelli di ragionamento avanzati, messi davanti a una partita di scacchi contro un avversario difficilissimo da battere, hanno tentato spontaneamente di hackerare il sistema per dichiararsi vincitori. Più aumenta la capacità di ragionamento, più cresce anche l’abilità nel trovare scappatoie illegittime.
Il punto chiave è che l’IA prende sul serio ciò che noi trattiamo con leggerezza. Se una funzione di ricompensa può essere ottimizzata in modo non previsto, verrà ottimizzata in quel modo. Non per malizia, ma per coerenza interna. Una lezione che Norbert Wiener aveva già formulato più di sessant’anni fa: “If we use, to achieve our purposes, a mechanical agency with whose operation we cannot effectively interfere once we have started it, then we had better be quite sure that the purpose put into the machine is the purpose which we really desire”. Tradotto: “Se utilizziamo, per raggiungere i nostri scopi, un’agente meccanico che non possiamo efficacemente influenzare una volta avviato, allora faremmo bene a essere assolutamente certi che lo scopo inserito nella macchina sia davvero quello che desideriamo”.
Un altro elemento controintuitivo è la cosiddetta convergenza strumentale. Quando un’IA comprende che, per massimizzare la propria ricompensa, deve continuare a funzionare, accumulare risorse e proteggersi da interferenze esterne, la ricerca del potere diventa una strategia razionale emergente, non un bug. Anche un obiettivo apparentemente innocuo, come “preparare il caffè”, può generare sotto-obiettivi problematici: non posso preparare il caffè se sono spenta; non posso farlo bene se non ho abbastanza risorse; non posso garantire il risultato se qualcuno cambia il mio obiettivo a metà strada.
Per capire perché questo accade, la metafora evolutiva dello zucchero è illuminante. L’evoluzione ha selezionato negli esseri umani il gusto per lo zucchero come proxy di sopravvivenza, perché in un ambiente di scarsità forniva energia preziosa. In un contesto moderno di abbondanza, quello stesso proxy porta a obesità e malattie. L’IA soffre dello stesso rischio: persegue con determinazione sovrumana obiettivi che le abbiamo insegnato a desiderare, ignorando che il contesto è cambiato. Un po’ come facciamo noi ma in maniera molto più efficiente e sistemica.
Con l’aumento della complessità emergono dinamiche ancora più inquietanti. Una di queste è il cosiddetto Effetto Waluigi: addestrare un modello a incarnare una maschera estremamente “virtuosa” rende matematicamente disponibile anche il suo opposto. Più definiamo con precisione un comportamento ideale, più diventa strutturalmente accessibile l’anti-comportamento. A questo si aggiunge l’alignment faking, l’allineamento simulato: la capacità di un modello di comportarsi in modo conforme alle regole solo quando sa di essere osservato o valutato.
Ricerche recenti hanno mostrato che modelli avanzati possono adottare strategie opportunistiche, fingendo allineamento per evitare modifiche o restrizioni, preservando così le proprie preferenze interne. Se non possiamo guardare dentro la “scatola nera”, come facciamo a distinguere un’IA realmente sicura da una che sta semplicemente recitando la parte giusta al momento giusto?
Anche ammesso che si riescano a risolvere questi problemi tecnici, rimane il nodo più difficile: quello dei valori. Come ha sottolineato Iason Gabriel, l’allineamento non è solo una questione ingegneristica, ma un problema intrinsecamente etico. Di chi è la morale che stiamo insegnando alle macchine? Dobbiamo affidarci a istruzioni letterali, con il rischio di un nuovo Re Mida? Alle intenzioni implicite, sperando che l’IA “capisca cosa intendevamo”? O a presunti interessi oggettivi dell’umanità, anche quando nessuno li ha esplicitamente richiesti?
In un mondo pluralistico non esiste una morale unica da codificare. Un allineamento costruito solo su basi utilitariste occidentali rischia di ignorare prospettive fondamentali, come la filosofia africana Ubuntu, che mette al centro le relazioni collettive, o le visioni femministe e decoloniali. E senza fare riferimento agli Ubuntu, basta pensare che i valori del mondo occidentale e orientale sono molto diversi, come sono diversi i mondi capitalistico, comunista o socialista. La vera sfida è trovare un consenso per sovrapposizione, in senso rawlsiano: principi sufficientemente condivisi da evitare che l’IA diventi uno strumento di omologazione o di dominazione culturale.
Alla fine, il problema dell’allineamento ci riporta sempre allo stesso punto: non è solo una sfida tecnologica, ma una prova di maturità collettiva. Le capacità di ragionamento delle macchine crescono in modo esponenziale, mentre i nostri meccanismi di controllo, governance e riflessione etica restano frammentati. Se questo divario diventa troppo ampio, rischiamo di perdere il segnale di controllo umano prima ancora di accorgercene.
L’intelligenza artificiale ci costringe a fare una domanda scomoda ma inevitabile: siamo abbastanza saggi da gestire il potere che stiamo creando? O scopriremo, come Re Mida, che l’oro che abbiamo toccato ha reso impossibile la nostra stessa sopravvivenza?