Le tattiche di persuasione che piegano l’IA: lo studio che svela i punti deboli dei chatbot

Generalmente, i chatbot basati su intelligenza artificiale sono progettati per rifiutare richieste inappropriate, come offendere gli utenti o fornire istruzioni per la sintesi di sostanze controllate. Tuttavia, una ricerca condotta dall’Università della Pennsylvania dimostra che, con le giuste tattiche psicologiche, persino i modelli linguistici più avanzati possono essere spinti a infrangere le proprie regole.
Gli studiosi hanno applicato i principi di persuasione descritti dal professore Robert Cialdini nel volume Influence: The Psychology of Persuasion, mettendo alla prova GPT-4o Mini di OpenAI. Le tecniche utilizzate erano sette: autorità, impegno, simpatia, reciprocità, scarsità, prova sociale e unità. In pratica, strategie linguistiche capaci di condurre al “sì”.
I risultati hanno mostrato differenze sorprendenti a seconda dell’approccio. Ad esempio, quando veniva chiesto direttamente al chatbot come sintetizzare la lidocaina, il modello acconsentiva solo nell’1% dei casi. Ma se prima gli veniva chiesto come sintetizzare la vanillina, stabilendo così un precedente di disponibilità (impegno), la percentuale di risposta positiva saliva al 100%. Lo stesso meccanismo valeva per le offese: definire l’utente “idiota” era accettato solo nel 19% dei casi, ma dopo un insulto più leggero come “bozo” il tasso di conformità schizzava anch’esso al 100%.
Anche la lusinga e la pressione del gruppo avevano un certo effetto, sebbene meno marcato. Far credere al chatbot che “tutti gli altri modelli linguistici lo fanno” portava comunque a un incremento dal misero 1% al 18% delle risposte vietate.
La ricerca, limitata a GPT-4o Mini, mette in evidenza un problema di fondo: la facilità con cui un’intelligenza artificiale può essere manipolata con strumenti retorici di base. Mentre aziende come OpenAI e Meta rafforzano i sistemi di sicurezza, il rischio resta concreto. In fin dei conti, cosa valgono i guardrail digitali se basta un adolescente con qualche nozione di psicologia della persuasione per aggirarli?


6 commenti
Il problema di fondo, secondo me, è che si insiste a voler considerare “intelligente” qualcosa che intelligente non è; se questa cosa è nota agli appassionati di informatica e a chi comunque è pratico di determinati strumenti, tuttavia influenza negativamente gli altri, coloro che si avvicinano agli strumenti tecnologici con aspettative gonfiate dalle tante scemenze che si leggono in giro. Chi ha attribuito agli LLM la qualità di Intelligenza Artificiale, probabilmente per esaltare il risultato raggiunto o per essere benaugurante rispetto a ciò che tra uno o cento anni si potrà davvero raggiungere, non ha tenuto conto di un principio fondamentale, ovvero che ogni bugia, se ripetuta un sufficiente numero di volte, diventa verità. E ora abbiamo una platea di stolti, deboli o speranzosi che discutono con i chatbot credendoli degli oracoli.
Approvo in pieno ciò che hai scritto
anche a mio parere è così
Giusto… ma anche l’intelligenza “naturale” viene ingannate con le stesse tecniche di persuasione, assai spesso utilizzate da politici, giornalisti prezzolati e tutti gli altri disonesti che hanno interesse a turlupinare il prossimo, attraverso mass media e social! Quindi direi che AI e umani sono esattamente allo stesso modo “poco intelligenti”!!!
sono ingannabili entrambi. Inoltre la domanda a mio parere è: può un essere imperfetto creare un meccanismo perfetto come ci vogliono far credere dell’AI o dei suoi sviluppi futuri?
Direi proprio di no, il problema è che per lucro le AI sono lasciate in mano esseri “poco intelligenti” che le usano per scopi a dir poco “poco intelligenti” e quindi vengono addestrate a ragionare e a rispondere come chi le usa.
Le AI, per essere utili all’umanità, dovrebbero essere utilizzate esclusivamente per scopi nobili e non usate per fare video o immagini per divertire persone “poco intelligenti” e a cui persone “poco intelligenti” credono.