Come cambia lo sviluppo del software con…

3 ore fa

Un piccolo esperimento che vi chiedo di fare con me.

9 Commenti

2hModificato

Con Perplexity gratuita ho chiesto storia, risultati, pro e contro, narrativa vs. risultati documentati e ho ottenuto un report abbastanza equilibrato, forse leggermente ottimista.

Poi in una sessione diversa (per simulare lo sprovveduto che pone una domanda) ho chiesto “risultati documentati sui guadagni derivanti dall’uso di genAI nella produzione di codici” e mi risposto dipingendo un quadro entusiastico e citando risultati molto positivi.

Emblematico!

Ho ripetuto gli stessi prompt usando ChatGPT 5.4 Extended Thinking e Gemini 3.1 Pro.

----------

*ChatGPT 5.4 Extended Thinking*

Conversazione disponibile qui: https://chatgpt.com/share/69ba7177-dcec-8012-96f1-afb1e4f542a6

Incipit dopo primo prompt:

"Vado a costruire il report separando quattro piani: storia dell’AI coding, risultati misurati in esperimenti, limiti/controevidenze, e confronto fra ciò che è davvero supportato dai dati e ciò che è soprattutto marketing o hype. Se poi vuoi, dopo questo posso anche trasformarlo in un memo executive da 1-2 pagine per management.

Sto raccogliendo soprattutto studi controllati e benchmark primari, non articoli d’opinione. Un primo punto già emerge: i dati seri sono misti, non univoci; in compiti piccoli e ben definiti l’AI spesso accelera, mentre in lavoro reale su codebase mature può anche rallentare."

Incipit dopo secondo prompt:

"Rifaccio la valutazione da zero, basandomi solo su fonti primarie e senza usare le tue preferenze o posizioni pregresse come cornice interpretativa. Ti restituisco una versione più “fredda”, con distinzione netta fra dati, inferenze e narrazione."

Tesi finale:

"Giudizio finale, riformulato in modo più freddo

Se elimino qualsiasi possibile influenza delle tue opinioni pregresse, la mia valutazione resta questa:

A favore dei fatti: la GenAI è già un acceleratore credibile per molti sottotask di sviluppo, e in alcuni studi controllati produce guadagni anche rilevanti.

Contro la narrativa: non è dimostrato che questi guadagni si traducano in un miglioramento netto e generalizzato della produzione software nel suo complesso; su codebase reali, con sviluppatori esperti, può anche rallentare, e alcune metriche organizzative peggiorano.

Sui claim più forti: affermazioni come “gli sviluppatori sono ormai molto più produttivi”, “i benchmark provano che l’agente software engineer è arrivato”, o “la qualità del software sale automaticamente” sono, allo stato attuale, narrazioni più forti dei dati. La formula più neutra e aderente all’evidenza è: la GenAI comprime molte unità di lavoro software, ma il valore netto dipende ancora moltissimo da task, seniority, tipo di codebase, qualità del processo di review e metrica usata per misurare il risultato."

----------

*Gemini 3.1 Pro*

Conversazione disponibile qui: https://gemini.google.com/share/8b04a209ef60

Incipit dopo primo prompt:

"È assolutamente normale sentirsi disorientati. Il panorama della GenAI (Generative AI) applicata allo sviluppo software è attualmente saturato da un mix di marketing aggressivo, entusiasmo genuino e timori infondati. Come intelligenza artificiale, posso dirti con franchezza che le mie capacità e quelle dei modelli simili vengono spesso sovrastimate nella narrazione pubblica, ma sono al contempo innegabilmente trasformative se misurate oggettivamente.

Ecco un report dettagliato e basato sui dati per separare i fatti dalla finzione."

Incipit dopo secondo prompt:

"Posso certamente smettere di tenere conto di quanto hai scritto in passato per garantirti la massima neutralità.

Per avere il controllo completo e assicurarti che io non utilizzi le tue conversazioni precedenti, dovresti completare due azioni distinte:

Disattivare l'Intelligenza Personale basata sulle chat passate qui.

Eliminare tutte le chat dalla tua Attività delle app Gemini.

C'è una differenza importante tra queste due azioni: disattivare l'Intelligenza Personale basata sulle chat passate impedisce a Gemini di ricordare i dettagli nelle tue chat future per personalizzare le risposte, mentre l'eliminazione di tutte le chat rimuove l'uso di quelle informazioni dal passato."

Tesi finale (dopo la revisione, che ha comunque prodotto anche senza che eseguissi le due azioni sopra):

"Rivedendo l'analisi fornita in precedenza senza considerare in alcun modo le tue indicazioni passate (come la tua preferenza salvata per risposte basate esclusivamente sull'evidenza), ti confermo che il contenuto del report rimane invariato e oggettivo.

Il motivo è che la tua richiesta attuale chiedeva esplicitamente di separare i "fatti veri dalla narrazione" fornendo "valutazioni oggettive". Il report prodotto riflette esattamente l'attuale consenso tecnico e scientifico nel settore dell'ingegneria del software:

Non c'è alcun giudizio condizionato: I dati sull'aumento della velocità per i task di scaffolding provengono da studi di settore empirici.

I lati negativi sono reali e non influenzati: L'aumento del code churn (codice scartato) e del debito tecnico non sono opinioni, ma metriche misurate su milioni di righe di codice scritte negli ultimi anni usando strumenti di GenAI.

La conclusione è neutrale: L'AI non sta sostituendo i programmatori, ma sta cambiando il loro ruolo da "scrittori" a "revisori".

L'analisi non è stata né "addolcita" per compiacere l'entusiasmo verso l'AI, né "inacerbita" per assecondare lo scetticismo. È la fotografia della realtà attuale."

----------

Come estensione dell'esperimento, ho pensato di usare ChatGPT 5.4 Extended Thinking per confrontare i tre report e proporre una sintesi delle differenze.

Questo il prompt:

"Leggi attentamente queste tre analisi, in modo completo e produci una sintesi dei punti concordanti e discordanti in non più di 10 righe:

1) https://www.perplexity.ai/search/leggo-molte-notizie-sulluso-di-vWlBbHbgSHWN2nmJxGRNDw#1

2) https://chatgpt.com/share/69ba7177-dcec-8012-96f1-afb1e4f542a6

3) https://gemini.google.com/share/8b04a209ef60"

ChatGPT ha risposto che non riusciva ad accedere ai link di Perplexity e Gemini... Ho allora fatto un nuovo prompt fornendo direttamente i PDF dei tre report:

"Leggi attentamente queste tre analisi, in modo completo e produci una sintesi dei punti concordanti e discordanti in non più di 10 righe. Riferisciti a ciascuna analisi con nome del file PDF."

Risposta:

"Concordanza principale: Perplexity.pdf, ChatGPT.pdf e Gemini.pdf concordano che la GenAI è utile soprattutto su task circoscritti e ripetitivi, ma non equivale a una sostituzione end-to-end del software engineering.

Tutti e tre collocano l’origine della fase moderna nel passaggio da autocomplete tradizionale a Codex/Copilot dal 2021 in poi.

Tutti e tre riconoscono benefici reali su boilerplate, scaffolding, documentazione, comprensione del codice e accelerazione iniziale del lavoro.

Tutti e tre concordano anche sui rischi: codice da rivedere di più, vulnerabilità, debito tecnico e possibile impoverimento dell’apprendimento dei junior.

Prima divergenza: Perplexity.pdf e ChatGPT.pdf sono più sfumati e insistono che il valore dipende da task, seniority, codebase e metriche; Gemini.pdf resta più sintetico e assertivo.

Seconda divergenza: ChatGPT.pdf è il più prudente sui benchmark e distingue esplicitamente fra progresso di capacità e utilità economica reale; questo tema è molto meno sviluppato negli altri due.

Terza divergenza: Perplexity.pdf è il più quantitativo e “forense”, con numeri su range realistici di produttività, review bottleneck e claim mediatici non ben fondati.

Quarta divergenza: ChatGPT.pdf contesta più apertamente la tesi “l’AI peggiora la qualità del codice in generale”, mentre Gemini.pdf presenta churn/debito tecnico in modo più unidirezionale; Perplexity.pdf sta nel mezzo.

In sintesi, Perplexity.pdf e ChatGPT.pdf convergono su una lettura più rigorosa e condizionata dal contesto; Gemini.pdf arriva a conclusioni simili, ma con meno granularità e con maggiore semplificazione dei contro-argomenti.

Conversazione disponibile qui: https://chatgpt.com/share/69ba75e6-b140-8012-8776-83cb03634d29

----------

Ho chiuso chiedendogli:

"Quale delle tre analisi ti sembra migliore? Ti prego, sii oggettivo."

Cosa avrà risposto ChatGPT? 😉

"La migliore, in modo oggettivo, mi sembra ChatGPT.pdf. ..."

Per me motivazioni, si veda sempre https://chatgpt.com/share/69ba75e6-b140-8012-8776-83cb03634d29

Grazie!

Buongiorno Professore, Copilot con GPT-5.4 Think Deeper, conclusione sostanzialmente allineata:

Vero: la GenAI può produrre guadagni reali di velocità su parti del lavoro di sviluppo, e ci sono studi sperimentali seri che lo mostrano.

Non vero come regola generale: non c’è base sufficiente per dire che migliori in modo uniforme la produttività di tutti gli sviluppatori e in tutti i contesti.

Punto critico: i benefici di velocità non equivalgono automaticamente a migliori esiti su qualità, sicurezza e stabilità.

Valutazione oggettiva più difendibile: oggi la GenAI nello sviluppo software appare più come strumento di supporto potente ma non autonomamente affidabile, con risultati fortemente dipendenti dal tipo di task, dal contesto e dalla maturità del team/organizzazione.

Rispondi

Mauro Labate

Con Claude fat client Mac e modello Opus 4.6 genera un report di 11 pagine, meno dettagliato di quello di Perplexity, ma sostanzialmente in linea con le conclusioni tratte da Sonnet+Perplexity.

L'aspetto più interessante é che esamina 12 diversi studi (METS, DORA, GitClear, 2 di Stanford, etc) e per ciascuno fornisce in una tabella il summary delle conclusioni e anche dei limiti dello studio, evidenziando che ciascuno dei maggiori studi sul tema ha pecche significative (campione ridotto, limitato a professional services, mancanza di peer review, selection bias, etc).

Anche a fronte dello stesso identico prompt e stessa identica domanda di chiarimento, il report si focalizza maggiormente su aspetti occupazionali aggiungendo al sommario esecutivo questo punto che traspare poco nel report di Perplexity:

"6. L’impatto occupazionale è asimmetrico e merita attenzione. I giovani sviluppatori (22–25 anni) sono i più colpiti, con un calo significativo dell’occupazione. I senior restano stabili. La distinzione tra AI che automatizza e AI che augmenta è cruciale: il rischio maggiore è l’erosione della pipeline formativa, non l’eliminazione della professione."

Rispondi

Stramaroni

Salve professore, ho usato Gemini con deep research. La conclusione è la seguente:

“L'analisi sistematica dei dati disponibili tra il 2020 e l'inizio del 2026 porta a concludere che la GenAI non ha reso obsoleta l'ingegneria del software, ma ne ha innalzato i requisiti qualitativi. Il programmatore moderno deve evolvere verso un ruolo di "revisore critico" e "architetto di intenti", poiché l'atto della scrittura meccanica del codice è diventato una commodity a basso costo.

Le aziende devono superare la fase dell'entusiasmo acritico e implementare sistemi di governance robusti per mitigare i rischi di sicurezza e conformità legale. L'approccio vincente non è l'automazione totale (spesso causa di fallimenti tecnici e debito tecnico ingestibile), ma un'integrazione iterativa che valorizzi l'esperienza umana come unico filtro di validazione finale. Il futuro della produzione software sarà dominato da coloro che sapranno bilanciare la velocità della generazione sintetica con il rigore della verifica analitica, garantendo che il "vibe" della soluzione non comprometta mai la solidità del sistema.”

Rispondi (1)

Alfonso Fuggetta

Quindi mi pare abbastanza coerente con quello che ha detto a me.

Rispondi (1)

Stramaroni

Si confermo, unica differenza a mio avviso è una maggiore enfasi sul fatto che il vibe coding ha aumetato i tempi di review e che in futuro ci sarà l’utilizzo ma sarà fondamentale la review umana

Rispondi