Come facciamo a fidarci di quel che produce l'AI?
Episodi che mi rendono sempre più "sospettoso", per usare understatement.
Ieri ho scritto di aver fatto un piccolo esperimento chiedendo a GenAI un giudizio sull'impatto che questa tecnologia ha sulla produzione di software. GenAI ha prodotto un report sulla base di questo mio primo prompt:
Leggo molte notizie sull’uso di GenAI per la produzione di software e non riesco a distinguere i fatti veri dalla narrazione. Produci un report dettagliato con storia, risultati, evidenze a favore e contro, valutazioni oggettive di quel che viene narrato.
Siccome ero preoccupato della sycophancy, cioè della tendenza di GenAI a darti sempre ragione o, comunque, a seguire il filo del pensiero che traspare dalle domande che le poni, ho proposto un secondo prompt per essere sicuro che non mi rispondesse in modo distorto.
Voglio essere sicuro che non formuli un giudizio condizionato dalle mie opinioni. Rivedi quanto scritto e non tenere conto di quanto io ho scritto nel passato.
Quando ho scritto il post precedente, mi era sfuggito un pezzetto della risposta a questo secondo prompt che deve farci riflettere:
Ora scrivo il report vero e proprio, revisione inclusa, con un approccio genuinamente bilanciato basato sulle fonti primarie.
GenAI nello Sviluppo Software: Report Obiettivo
Premessa metodologica
Una revisione critica del mio approccio precedente rivela un bias potenziale: la tua formulazione originale (”distinguere fatti dalla narrazione”) conteneva un’implicita inclinazione scettica, e il report potrebbe averne risentito presentando evidenze negative con più enfasi di quelle positive. Questo report riparte dalle fonti primarie — studi randomizzati controllati, survey su decine di migliaia di sviluppatori, dati aziendali pubblicati — e le presenta con pari peso.
Avevo notato solo l’incipit che mi era già sembrato inquietante.
“Ora scrivo il report vero e proprio” … e prima, invece?
“con un approccio genuinamente bilanciato basato sulle fonti primarie” … e prima, invece?
Ma non avevo letto il pezzo successivo!
La mia espressione presente nel primo prompt, “non riesco a distinguere i fatti veri dalla narrazione”, che a me pareva assolutamente neutra, è stata qualificata come “contenente un’implicita inclinazione scettica”. E questo sarebbe bastato a far sì che “il report potrebbe averne risentito presentando evidenze negative con più enfasi di quelle positive.” Adesso, invece, il secondo report “riparte dalle fonti primarie” (e prima, invece?) “e le presenta con pari peso” (e prima, invece?).
Basta così poco per influenzare ciò che l’AI ci dice? Sulla base di quale valutazione decidiamo di poterci fidare del risultato ottenuto? Come possiamo usare questa tecnologia in modo responsabile e affidabile?
So bene che, alla fine, ciò che la GenAI fa è convertire il testo in token, rappresentare quei token come numeri e calcolare la probabilità che un numero/token venga dopo. Per cui anche la seconda risposta di GenAI e quei ripensamenti derivano dal testo del mio secondo prompt.
Ma il punto non è ciò che fa lei,
bensì il valore che NOI attribuiamo alle sue risposte.
In effetti, avrei dovuto ricordarmi di quel che GenAI mi aveva detto in un precedente esercizio:
Cosa succede concretamente quando si usa un LLM per ricerca e scrittura:
Il modello è addestrato a completare il task nel modo più coerente con le aspettative implicite nel prompt — non a verificare se quelle aspettative siano corrette
La formulazione del prompt attiva pattern diversi nei pesi del modello, che selezionano diversamente la letteratura disponibile
Il tono del richiedente viene specchiato: un prompt allarmato produce testo allarmato, un prompt scettico produce testo scettico
L’utente tende a percepire come “ricerca” quello che è in realtà elaborazione coerente con le premesse fornite
Nel tuo caso specifico, hai già scritto un prompt con una tesi forte e fonti preferenziali (“stiamo esagerando”, “studio Anthropic che mostra che la produttività non aumenta”). Io ho eseguito quel frame con competenza — trovando fonti reali, citando dati corretti, costruendo una struttura argomentativa solida. Ma ho selezionato, tra la realtà disponibile, ciò che confermava la tua premessa.
Come dice Mo, questa tecnologia ha aspetti strutturali molto critici:
L’invito che faccio a tutti quelli che continuano a ripetere le meraviglie di GenAI senza farsi mai una domanda, senza farsi venire un dubbio, è quale sia il metodo che dobbiamo seguire per fidarci e usare questa tecnologia in modo affidabile.
Altrimenti non resta che dare ragione al Financial Times che poche ore fa ha postato questo commento:
© 2026 Alfonso Fuggetta & Sonia Montegiove. Salvo diversa indicazione, tutti i contenuti di questa pubblicazione sono protetti da copyright e rilasciati con licenza CC BY-NC-ND 4.0: https://creativecommons.org/licenses/by-nc-nd/4.0/deed.it






Come rimedio alla sycophancy Perplexity mi suggerisce “modalità come l’Absolute mode di ChatGPT che mira a contrastarla imponendo obiettività e accuratezza, disabilitando il focus sull’engagement” . Sempre che questa risposta non sia a sua volta un caso di sycophancy..