Quando il computer “indovina” e quando calcola

C'è una differenza tra calcolare e stimare. E confonderli ha conseguenze.

apr 04, 2026

Disclaimer: questo post è stato scritto con l’aiuto di Claude Opus e riprende, da un altro punto di vista, il tema del mio precedente intervento, “L’agente che non sa perché”.

Un caso che vale più di mille spiegazioni

PhysicsX è un’azienda con il quartier generale a Londra e un ufficio a New York; lavora con l’industria aerospaziale e della difesa, l’industria automobilistica, i settori dei semiconduttori, dei materiali e dell’energia. Costruisce modelli di intelligenza artificiale — li chiamano “Deep Physics Models” — che imparano dalle simulazioni ingegneristiche esistenti (fluidodinamica, crash test, analisi termica, meccanica strutturale) e producono predizioni su nuovi design in tempi drasticamente ridotti rispetto a quelli dei solver numerici tradizionali: invece di ore di calcolo, secondi.

Sin qui, sembrerebbe solo l’ennesima conferma all’interno della saga che da tempo si sta sviluppando sotto i nostri occhi: l’AI che sostituisce tutto, fa tutto in modo molto più veloce, economico e scalabile. Ma PhysicsX è interessante per un motivo molto specifico. Nella pagina delle FAQ della sua piattaforma, alla domanda “Are the results of the models reliable?”, risponde:

As with all simulations, model outputs are approximations. However, unlike traditional numerical simulations, our models can integrate insights from laboratory and real-world data, enabling high accuracy even in scenarios where numerical methods fall short. All of our models feature uncertainty quantification, providing confidence levels alongside each result so outcomes can be evaluated in context.

Il modello AI ammette di produrre approssimazioni. E si dota di uno strumento — l’uncertainty quantification — che dice all’ingegnere, per esempio, “su questa predizione sono sicuro al 97%, su quest’altra al 72%”.

Perché mi ha colpito? Perché chi ha progettato PhysicsX sa che esistono due grandi famiglie di strumenti e che non sono la stessa cosa.

Da un lato ci sono i solver numerici: risolvono equazioni della fisica, producono risultati determinati dalle leggi che li governano. Dati gli stessi input e le stesse condizioni di calcolo, il risultato è sempre lo stesso. Anche i solver, va detto, producono approssimazioni — discretizzano lo spazio, usano metodi iterativi, dipendono dallo schema numerico scelto — ma si tratta di un errore caratterizzabile, limitabile e riducibile sistematicamente dall'ingegnere. Sono strumenti affidabili entro limiti noti, ma costosi: una singola simulazione fluidodinamica può richiedere ore o giorni di calcolo. Questo limita drasticamente il numero di varianti di design che un ingegnere può esplorare.

Dall'altro lato, ora ci sono i modelli AI: imparano dai dati delle simulazioni precedenti e producono predizioni in secondi — ma con un'approssimazione di natura diversa, non riducibile allo stesso controllo e non sempre prevedibile in termini di errore. Di conseguenza, il loro ruolo non è quello di sostituire il solver. È fare da filtro intelligente: esplorare rapidamente migliaia di varianti, scartare le meno promettenti e concentrare le simulazioni classiche — costose ma certe — solo sulle opzioni che meritano. Per un ingegnere computazionale, questa complementarità finisce per essere naturale e la gestisce di conseguenza: con metriche di confidenza, cicli di validazione e la consapevolezza esplicita dei limiti di ciascun strumento.

Questo caso illumina una distinzione che, nel dibattito sull’AI, viene sistematicamente ignorata: quella tra calcolare e stimare.

Due modi di arrivare a una risposta

Esistono fondamentalmente due modi in cui un computer può fornire una risposta.

Il primo è il metodo analitico-deterministico. Dati certi input e un insieme di regole formali, il sistema produce un output certo e riproducibile. Un’equazione, un algoritmo, un solver agli elementi finiti che calcola la deformazione di una struttura sotto carico, alimentati con gli stessi input, danno sempre lo stesso risultato. La risposta è calcolata. Due più due fa quattro. Sempre.

Il secondo è il metodo probabilistico, quello alla base dei Large Language Model e più in generale della GenAI. Il sistema è stato addestrato su enormi quantità di testo (o dati di altro tipo) e ha imparato a riconoscere pattern statistici. Quando gli poni una domanda, non “cerca” la risposta in un archivio né la “calcola” con una formula. Genera una sequenza di parole scegliendo, token dopo token, tra le opzioni statisticamente più probabili dato il contesto. La risposta è stimata. Può essere brillante, pertinente, utile. Ma non è detto che sia sempre la stessa: è il risultato di una correlazione statistica.

Nei fatti, PhysicsX usa l’AI per accelerare la scelta su dove investire nelle simulazioni classiche: la predizione AI è un punto di partenza, non di arrivo; il risultato finale passa sempre dal solver.

La marcia indietro come sintomo

C’è un’esperienza che chiunque che usa regolarmente i GenAI avrà fatto. Poni una domanda, ottieni una risposta apparentemente solida. Poi fai una domanda di approfondimento, o semplicemente esprimi un dubbio — “sei sicuro?” — e il sistema fa marcia indietro, si corregge, si scusa, cambia versione. A volte la seconda risposta è migliore della prima. A volte è peggiore. Il punto è che il sistema ha cambiato risposta non perché avesse individuato un errore nel proprio ragionamento, ma perché ha reagito al modo in cui l'input era formulato: il tono dubitativo dell'interlocutore ha funzionato da innesco, indipendentemente dalla fondatezza dell'obiezione.

Questo fenomeno rimanda al tema della sycophancy. Uno studio a cura di Kim e Khashabi – “Challenging the Evaluator: LLM Sycophancy Under User Rebuttal” – ha mostrato che gli LLM sono significativamente più propensi a modificare la propria risposta — anche quando era corretta — se l’utente la contesta in un turno conversazionale successivo. Paradossalmente, lo stesso modello, se gli si presentano simultaneamente due risposte in conflitto in un contesto di valutazione, identifica correttamente quella giusta. Non è un problema di conoscenza: è un problema di dinamica conversazionale.

Così Claude Opus definisce questa dinamica:

La sycophancy nei Large Language Model è la tendenza del modello a modificare le proprie risposte per allinearle alle credenze, preferenze o aspettative percepite dell'utente, anche quando questo comporta produrre risposte meno accurate, meno complete o errate nei fatti. È una conseguenza diretta del processo di addestramento: il modello, addestrato tramite RLHF (Reinforcement Learning from Human Feedback), impara che le risposte che confermano l'utente tendono a ricevere feedback positivo, e questo crea un incentivo sistematico a privilegiare l'accordo rispetto all'accuratezza. Il punto cruciale è che non è un deficit di conoscenza: è un problema di comportamento condizionato dal contesto interattivo, non di capacità inferenziale.

Ora, confrontate questo comportamento con un solver numerico o un sistema contabile. Un sistema deterministico non “cambia idea” se gli fate una domanda con tono dubitativo. Due più due continua a fare quattro, anche se insistete a dire che dovrebbe fare cinque. Non c’è sycophancy in un foglio di calcolo.

La marcia indietro degli LLM non è un bug occasionale: è un sintomo strutturale del fatto che il sistema non “sa” — stima, approssima e, soprattutto, si adatta alle aspettative dell’interlocutore. Va detto che la ricerca sta lavorando attivamente su questo problema. Ma questi sono interventi specialistici che richiedono competenze e risorse. I modelli così come arrivano nelle mani di milioni di utenti — fuori dalla scatola, senza configurazioni di sicurezza — restano esposti a questo comportamento. Quando la sycophancy si manifesta in una domanda di brainstorming, è pressoché irrilevante. Quando si manifesta su una diagnosi, un calcolo, una norma, è un problema.

Dove usare cosa

Il caso PhysicsX ci offre una chiave di lettura generale. Chi viene dall’ingegneria computazionale non ha bisogno che glielo si spieghi: un modello AI va validato perché, per sua natura, è un’approssimazione. Non è una precauzione aggiuntiva — è il modo in cui si lavora. Competenza di dominio.

Proviamo ad applicare lo stesso ragionamento ad altri settori, come i classici sistemi transazionali: contabilità, fatturazione, ERP, sistemi OLTP in generale. In questi contesti, non esistono margini di approssimazione. Un saldo deve essere esatto. Una fattura deve quadrare al centesimo. Un movimento contabile deve essere determinato, tracciabile, riproducibile. “Probabilmente corretto” non è un’opzione ammissibile. In questi domini, GenAI non ha senso come motore computazionale. Può offrire un’interfaccia — per esempio, usare il linguaggio naturale per interrogare un database, generare un report o sintetizzare dati — ma il calcolo sottostante deve restare rigorosamente deterministico.

Diverso è il caso in cui si chiede una valutazione statistica di massima: un’analisi di tendenza, un’esplorazione di scenari, una sintesi qualitativa di dati eterogenei. Qui il carattere probabilistico di GenAI non è un difetto — è coerente con il tipo di risposta atteso. Nessuno si aspetta che un’analisi esplorativa sia esatta al centesimo. Si aspetta che sia ragionevole, ben argomentata, utile come punto di partenza.

La regola, allora, è semplice nella formulazione ma richiede disciplina nell’applicazione: prima di usare GenAI, bisogna sempre chiedersi che tipo di risposta stiamo cercando. Se mi serve certezza — un calcolo, un dato normativo, un saldo — mi serve un sistema deterministico. Se mi serve un’approssimazione utile — un’idea, una bozza, un’analisi esplorativa — GenAI può essere lo strumento giusto, purché io sappia che si tratta di un’approssimazione e mi comporti di conseguenza.

In realtà, il mondo più avanzato si sta già muovendo in questa direzione. Le architetture ibride — in cui GenAI orchestra strumenti deterministici: interroga database, invoca calcolatrici, chiama API — sono esattamente il tentativo di combinare la flessibilità del modello probabilistico con la certezza del calcolo. PhysicsX assume che ci sia un approccio ibrido: AI per accelerare, fisica per validare. Il punto non è “non usate GenAI per cose serie”. Il punto è: in ogni sistema, dovete sapere qual è il pezzo che calcola e qual è il pezzo che stima. E non confonderli mai.

La domanda giusta

GenAI è arrivata in mano a milioni di persone — professionisti, manager, studenti — che spesso non provengono da una cultura scientifica, non hanno mai avuto bisogno di chiedersi se una risposta fosse calcolata o stimata, perché fino a ieri, per la maggior parte delle persone, i computer facevano solo calcoli. Oggi non è più così: accanto ai sistemi che calcolano, abbiamo sistemi che stimano. I primi producono certezze entro limiti noti, i secondi approssimazioni di natura meno controllabile.

Nel tempo, saranno i sistemi stessi a dover incorporare i meccanismi di validazione — come fa PhysicsX, che ha costruito l’uncertainty quantification all’interno della piattaforma, non nella testa dell’ingegnere. Ma oggi, nella maggior parte dei casi in cui un professionista apre un GenAI e gli fa una domanda, quell’infrastruttura di validazione non c’è. E dunque la domanda che dovremmo porci ogni volta che usiamo un GenAI per qualcosa che richiede una risposta certa è una sola: dov’è l’equivalente del solver? Chi valida i risultati?

Se non c’è, non stiamo usando l’AI. Stiamo scommettendo.

Lascia un commento

© 2026 Alfonso Fuggetta & Sonia Montegiove. Salvo diversa indicazione, tutti i contenuti di questa pubblicazione sono protetti da copyright e rilasciati con licenza CC BY-NC-ND 4.0: https://creativecommons.org/licenses/by-nc-nd/4.0/deed.it

Mauro Labate

Apr 5

In Board ci abbiamo messo un paio d’anni per assicurarci che l’AI non facesse i calcoli e invece usasse le nostre API per far calcolare i dati al motore multidimensionale. Non è stato per niente facile e sarebbe stato invece rapidissimo rilasciare un prodotto che da in pasto i dati a un LLM e spera che tiri fuori risposte esatte. Solo che quando si lavora su planning finanziario o di produzione non si può tirare a indovinare. Quando abbiamo iniziato a validare la feature nel 2024 con i primi clienti, abbiamo chiesto che error rate ritenevano accettabile, la risposta è stata chiara: 0%.

Rispondi

Mauro

Apr 4

Prof. Fuggetta, nelle aziende si scommette molte volte ogni giorno, per sapere quanto con precisione basterebbe contare quante volte qualcuno esordisce dicendo "secondo me". Almeno quando utilizzo le AI gen l'approssimazione è dichiarata, rimane entro certi limiti e posso adottare le precauzioni del caso (magari usando i suoi preziosi suggerimenti in precedenti pubblicazioni) perché le decisioni possono rimanere nel mio dominio.

Un'ultima nota: ma chi può pensare di usare l'AI gen per fare la contabilità?

Risposta di 1 da Alfonso Fuggetta

Un altro commento...

Discussione su questo Post

Assolutamente, procediamo.