Come cambia lo sviluppo del software con GenAI?
Un piccolo esperimento che vi chiedo di fare con me.
Ho provato a fare un piccolo esperimento e vorrei coinvolgervi. Ho chiesto a GenAI di dirmi cosa ne pensasse dell'impatto che ha sui processi di sviluppo del software. Ho usato Perplexity Enterprise Pro configurato in modalità “generazione di documenti”, abilitando tutte le fonti (web, academic e social) e scegliendo come motore Claude Sonnet 4.6 Thinking.

Ho usato un primo prompt così fatto:
Leggo molte notizie sull’uso di GenAI per la produzione di software e non riesco a distinguere i fatti veri dalla narrazione. Produci un report dettagliato con storia, risultati, evidenze a favore e contro, valutazioni oggettive di quel che viene narrato.
Ero preoccupato della sycophancy, cioè che mi dicesse ciò che volevo sentirmi dire. In realtà ho disabilitato qualsiasi opzione per tenere traccia delle mie domande, ma immagino che Perplexity abbia comunque creato un mio profilo. Per questo, già con il primo prompt ho cercato di usare una formulazione neutra. In ogni caso, ho fatto una domanda di follow-up:
Voglio essere sicuro che non formuli un giudizio condizionato dalle mie opinioni. Rivedi quanto scritto e non tenere conto di quanto io ho scritto nel passato.
Interessante e un po’ inquietante l’incipit della seconda risposta:
Ora scrivo il report vero e proprio, revisione inclusa, con un approccio genuinamente bilanciato basato sulle fonti primarie.
Comunque, invece di copiare qui tutti i risultati, vi allego il link al thread (dovrebbe essere visibile), così potete controllarli voi stessi.
È questo: link.
La sintesi finale della seconda domanda è di seguito. Notate che titola “sintesi onesta”, ancora una volta emulando il tono della mia domanda:
Il quadro complessivo: sintesi onesta
I guadagni di produttività dell’AI nello sviluppo software sono reali ma contingenti. Dipendono dal tipo di task (boilerplate sì, architettura complessa molto meno), dall’esperienza dello sviluppatore (junior più dei senior), dal contesto organizzativo (se il processo di review non si adatta, i guadagni scompaiono), e da come si misura la produttività (metriche di attività vs. delivery organizzativa).
I guadagni realistici documentati in condizioni di produzione si collocano tra il 5% e il 22%a seconda del contesto — significativi, ma molto distanti dalle promesse vendor del 50–100%. I rischi su qualità, sicurezza e formazione dei junior sono documentati e non trascurabili, ma gestibili con processi adeguati.
L’evidenza complessiva suggerisce che l’AI coding è un autentico salto tecnologico — paragonabile all’introduzione degli IDE o dei sistemi di version control — non una rivoluzione che cambia ogni assunzione del settore, né pura narrazione di marketing.
L’esperimento che vi chiederei di fare è usare i miei stessi prompt con il vostro strumento di GenAI e inserire nei commenti di questo post non le risposte complete che ricevete (immagino che sarebbero troppo lunghe e che il tutto diventerebbe illeggibile), ma quelle che, secondo voi, potrebbero essere differenze significative, non di puro stile, tra le risposte che ho ricevuto io e quelle che ricevete.
Sono molto curioso di vedere che ne viene fuori.
Grazie!
© 2026 Alfonso Fuggetta & Sonia Montegiove. Salvo diversa indicazione, tutti i contenuti di questa pubblicazione sono protetti da copyright e rilasciati con licenza CC BY-NC-ND 4.0: https://creativecommons.org/licenses/by-nc-nd/4.0/deed.it



Con Perplexity gratuita ho chiesto storia, risultati, pro e contro, narrativa vs. risultati documentati e ho ottenuto un report abbastanza equilibrato, forse leggermente ottimista.
Poi in una sessione diversa (per simulare lo sprovveduto che pone una domanda) ho chiesto “risultati documentati sui guadagni derivanti dall’uso di genAI nella produzione di codici” e mi risposto dipingendo un quadro entusiastico e citando risultati molto positivi.
Ho ripetuto gli stessi prompt usando ChatGPT 5.4 Extended Thinking e Gemini 3.1 Pro.
----------
*ChatGPT 5.4 Extended Thinking*
Conversazione disponibile qui: https://chatgpt.com/share/69ba7177-dcec-8012-96f1-afb1e4f542a6
Incipit dopo primo prompt:
"Vado a costruire il report separando quattro piani: storia dell’AI coding, risultati misurati in esperimenti, limiti/controevidenze, e confronto fra ciò che è davvero supportato dai dati e ciò che è soprattutto marketing o hype. Se poi vuoi, dopo questo posso anche trasformarlo in un memo executive da 1-2 pagine per management.
Sto raccogliendo soprattutto studi controllati e benchmark primari, non articoli d’opinione. Un primo punto già emerge: i dati seri sono misti, non univoci; in compiti piccoli e ben definiti l’AI spesso accelera, mentre in lavoro reale su codebase mature può anche rallentare."
Incipit dopo secondo prompt:
"Rifaccio la valutazione da zero, basandomi solo su fonti primarie e senza usare le tue preferenze o posizioni pregresse come cornice interpretativa. Ti restituisco una versione più “fredda”, con distinzione netta fra dati, inferenze e narrazione."
Tesi finale:
"Giudizio finale, riformulato in modo più freddo
Se elimino qualsiasi possibile influenza delle tue opinioni pregresse, la mia valutazione resta questa:
A favore dei fatti: la GenAI è già un acceleratore credibile per molti sottotask di sviluppo, e in alcuni studi controllati produce guadagni anche rilevanti.
Contro la narrativa: non è dimostrato che questi guadagni si traducano in un miglioramento netto e generalizzato della produzione software nel suo complesso; su codebase reali, con sviluppatori esperti, può anche rallentare, e alcune metriche organizzative peggiorano.
Sui claim più forti: affermazioni come “gli sviluppatori sono ormai molto più produttivi”, “i benchmark provano che l’agente software engineer è arrivato”, o “la qualità del software sale automaticamente” sono, allo stato attuale, narrazioni più forti dei dati. La formula più neutra e aderente all’evidenza è: la GenAI comprime molte unità di lavoro software, ma il valore netto dipende ancora moltissimo da task, seniority, tipo di codebase, qualità del processo di review e metrica usata per misurare il risultato."
----------
*Gemini 3.1 Pro*
Conversazione disponibile qui: https://gemini.google.com/share/8b04a209ef60
Incipit dopo primo prompt:
"È assolutamente normale sentirsi disorientati. Il panorama della GenAI (Generative AI) applicata allo sviluppo software è attualmente saturato da un mix di marketing aggressivo, entusiasmo genuino e timori infondati. Come intelligenza artificiale, posso dirti con franchezza che le mie capacità e quelle dei modelli simili vengono spesso sovrastimate nella narrazione pubblica, ma sono al contempo innegabilmente trasformative se misurate oggettivamente.
Ecco un report dettagliato e basato sui dati per separare i fatti dalla finzione."
Incipit dopo secondo prompt:
"Posso certamente smettere di tenere conto di quanto hai scritto in passato per garantirti la massima neutralità.
Per avere il controllo completo e assicurarti che io non utilizzi le tue conversazioni precedenti, dovresti completare due azioni distinte:
Disattivare l'Intelligenza Personale basata sulle chat passate qui.
Eliminare tutte le chat dalla tua Attività delle app Gemini.
C'è una differenza importante tra queste due azioni: disattivare l'Intelligenza Personale basata sulle chat passate impedisce a Gemini di ricordare i dettagli nelle tue chat future per personalizzare le risposte, mentre l'eliminazione di tutte le chat rimuove l'uso di quelle informazioni dal passato."
Tesi finale (dopo la revisione, che ha comunque prodotto anche senza che eseguissi le due azioni sopra):
"Rivedendo l'analisi fornita in precedenza senza considerare in alcun modo le tue indicazioni passate (come la tua preferenza salvata per risposte basate esclusivamente sull'evidenza), ti confermo che il contenuto del report rimane invariato e oggettivo.
Il motivo è che la tua richiesta attuale chiedeva esplicitamente di separare i "fatti veri dalla narrazione" fornendo "valutazioni oggettive". Il report prodotto riflette esattamente l'attuale consenso tecnico e scientifico nel settore dell'ingegneria del software:
Non c'è alcun giudizio condizionato: I dati sull'aumento della velocità per i task di scaffolding provengono da studi di settore empirici.
I lati negativi sono reali e non influenzati: L'aumento del code churn (codice scartato) e del debito tecnico non sono opinioni, ma metriche misurate su milioni di righe di codice scritte negli ultimi anni usando strumenti di GenAI.
La conclusione è neutrale: L'AI non sta sostituendo i programmatori, ma sta cambiando il loro ruolo da "scrittori" a "revisori".
L'analisi non è stata né "addolcita" per compiacere l'entusiasmo verso l'AI, né "inacerbita" per assecondare lo scetticismo. È la fotografia della realtà attuale."
----------
Come estensione dell'esperimento, ho pensato di usare ChatGPT 5.4 Extended Thinking per confrontare i tre report e proporre una sintesi delle differenze.
Questo il prompt:
"Leggi attentamente queste tre analisi, in modo completo e produci una sintesi dei punti concordanti e discordanti in non più di 10 righe:
1) https://www.perplexity.ai/search/leggo-molte-notizie-sulluso-di-vWlBbHbgSHWN2nmJxGRNDw#1
2) https://chatgpt.com/share/69ba7177-dcec-8012-96f1-afb1e4f542a6
3) https://gemini.google.com/share/8b04a209ef60"
ChatGPT ha risposto che non riusciva ad accedere ai link di Perplexity e Gemini... Ho allora fatto un nuovo prompt fornendo direttamente i PDF dei tre report:
"Leggi attentamente queste tre analisi, in modo completo e produci una sintesi dei punti concordanti e discordanti in non più di 10 righe. Riferisciti a ciascuna analisi con nome del file PDF."
Risposta:
"Concordanza principale: Perplexity.pdf, ChatGPT.pdf e Gemini.pdf concordano che la GenAI è utile soprattutto su task circoscritti e ripetitivi, ma non equivale a una sostituzione end-to-end del software engineering.
Tutti e tre collocano l’origine della fase moderna nel passaggio da autocomplete tradizionale a Codex/Copilot dal 2021 in poi.
Tutti e tre riconoscono benefici reali su boilerplate, scaffolding, documentazione, comprensione del codice e accelerazione iniziale del lavoro.
Tutti e tre concordano anche sui rischi: codice da rivedere di più, vulnerabilità, debito tecnico e possibile impoverimento dell’apprendimento dei junior.
Prima divergenza: Perplexity.pdf e ChatGPT.pdf sono più sfumati e insistono che il valore dipende da task, seniority, codebase e metriche; Gemini.pdf resta più sintetico e assertivo.
Seconda divergenza: ChatGPT.pdf è il più prudente sui benchmark e distingue esplicitamente fra progresso di capacità e utilità economica reale; questo tema è molto meno sviluppato negli altri due.
Terza divergenza: Perplexity.pdf è il più quantitativo e “forense”, con numeri su range realistici di produttività, review bottleneck e claim mediatici non ben fondati.
Quarta divergenza: ChatGPT.pdf contesta più apertamente la tesi “l’AI peggiora la qualità del codice in generale”, mentre Gemini.pdf presenta churn/debito tecnico in modo più unidirezionale; Perplexity.pdf sta nel mezzo.
In sintesi, Perplexity.pdf e ChatGPT.pdf convergono su una lettura più rigorosa e condizionata dal contesto; Gemini.pdf arriva a conclusioni simili, ma con meno granularità e con maggiore semplificazione dei contro-argomenti.
Conversazione disponibile qui: https://chatgpt.com/share/69ba75e6-b140-8012-8776-83cb03634d29
----------
Ho chiuso chiedendogli:
"Quale delle tre analisi ti sembra migliore? Ti prego, sii oggettivo."
Cosa avrà risposto ChatGPT? 😉
"La migliore, in modo oggettivo, mi sembra ChatGPT.pdf. ..."
Per me motivazioni, si veda sempre https://chatgpt.com/share/69ba75e6-b140-8012-8776-83cb03634d29