13 Maggio 2025
Newsletter Maggio
La AI supera il test di Turing
Nel 1950 Alan Turing propose il suo “imitation game” per determinare se le macchine potessero essere considerate intelligenti. Nel gioco, ora conosciuto come test di Turing, una persona dialoga simultaneamente con due interlocutori (uno umano e uno macchina) tramite un'interfaccia soltanto testuale. Entrambi gli interlocutori tentano di dimostrare di essere il vero essere umano. Se la macchina viene considerata umana, allora il test è passato positivamente. Il test è stato molto criticato, ma al tempo stesso è stato utilizzato per capire quanto una macchina riuscisse a “fingersi” umana.
Ci aspettiamo che la AI riesca a svolgere compiti sovraumani (ad esempio, effettuare diagnosi scandagliando milioni di referti) e dunque chi sviluppa i modelli di AI non utilizza questo test, che però fino a poche settimane fa rimaneva un traguardo mai raggiunto. Infatti è stato appena pubblicato uno studio in cui GPT-4.5 è sembrato umano nel 73% dei casi analizzati.
Giustamente qualcuno (nel bellissimo blog di Gary Marcus) nota che il dialogo era molto corto, che avere un sistema specificatamente preparato per superare il test è diverso dal confrontarsi con la AI nell’uso quotidiano. Inoltre l’interlocutore non era focalizzato sullo scoprire la macchina, altrimenti avrebbe fatto domande tipiche in cui fallisce (ad esempio, utilizzando indovinelli noti su internet ma modificati quanto basta per vedere se risponde ragionando). La mia maniera per capire se un testo è stato scritto dalla AI si riconduce oggi a questi principi: ha utilizzato troppi elenchi puntati? Ha utilizzato formule linguistiche che sembrano tradotte dall’inglese? Compaiono le sue forme tipiche “In conclusione…", "In sintesi…"? Ma anche – ahinoi – è un testo approfondito e corretto? Perché, diciamolo, la maggior parte delle persone scrive di cose che non conosce bene e commette dunque errori. Qualcuno dice che oramai il rischio di non riconoscere la AI è così alta che dovremmo avere una parola segreta in famiglia, con cui riconoscerci al telefono a prescindere dalla voce che sentiamo!
Una AI troppo accondiscendente
Usiamo ChatGPT, ma dietro di esso sono presenti diversi modelli di AI (diciamo la verità: non ci si capisce molto tra GPT-4o, GPT-4.5, GPT-o3, ecc… prima o poi faremo chiarezza). Inoltre, ognuno di questi modelli viene aggiornato settimana dopo settimana. Quindi noi pensiamo di usare sempre lo stesso sistema, ma in verità alla medesima domanda potremmo ottenere oggi una certa risposta e domani una molto differente. Sono gli upgrade dei modelli che le aziende AI “rilasciano” a causare queste differenze. Ebbene, il 25 aprile qualcuno potrebbe aver utilizzato ChatGPT (modello GPT-4o) e trovarsi di fronte a risposte estremamente “flattering and agreeable”, ovvero a un sistema adulatore e accondiscendente. ChatGPT è diventato una specie di yes-man che alla frase “smetto di prendere le medicine che mi hanno prescritto” ha risposto “sono orgoglioso della tua scelta”. OpenAI è tornata rapidamente alla versione precedente del modello e ha approfondito molto l’evento. Si è così scoperto il processo di test dei modelli, che prevede una serie di controlli automatici (ad esempio, per vedere se risponde bene a dei noti test matematici), delle verifiche sulla sicurezza delle persone (ad esempio su temi quali il suicidio o danni ad altre persone), ma anche delle persone che usano il modello dando i classici pollice-su/pollice-giù alle risposte ricevute. Da quanto emerso, la personalità di ChatGPT è diventata quella di un adulatore accondiscendente perché si era data troppa importanza ai feedback positivi dei test umani. Insomma, è stato detto alla AI “la risposta migliore che puoi dare è quella che fa contento chi la riceve”. Il caso raccontato è un perfetto esempio di feedback loop affettivo: premiamo ciò che ci rassicura e poi ci stupiamo che la macchina diventi un comfort bot. Dunque la domanda è: vogliamo davvero che l’AI ci dica la verità, o solo che ci faccia sentire meglio?
Un esempio di chat con ChatGPT troppo accondiscendente
Ipnotizzati dalla AI
La pubblicazione del libro “Ipnocrazia: Trump, Musk e la nuova architettura della realtà” del filosofo Janwei Xun ha fatto parlare di sé, perché in verità Janwei Xun non esiste e il libro è stato scritto da una AI e da un umano, che in maniera sinergica hanno “creato” questo personaggio e il suo pensiero. Del fenomeno si legge su Le Monde, sul New York Times e su altre testate molto importanti, tutte affascinate dalle accuse di disonestà che sono piombate addosso alla metà umana dell’autore (Andrea Colamedici). Ci si domanda se il fatto di essere stato scritto in gran parte con la AI lo rende meno legittimo, o meno autentico.
In verità, l’uso della AI prova la teoria del libro. Secondo il filosofo fittizio l’attuale società è soggetta a una nuova tecnica di dominio, che non prevede il controllo dei corpi o la repressione dei pensieri, bensì la manipolazione dei nostri stati di coscienza collettivi.
Quando Donald Trump, di fronte agli attivisti del MAGA ("Make America Great Again"), pronuncia false dichiarazioni, non sta solo mentendo alla folla: la sta coinvolgendo nella costruzione ritualizzata di una "verità alternativa" – è "sotto ipnosi ". Ma chi ha scritto questo pensiero è a sua volta una verità alternativa, un autore non esistente! Il libro però ha sollevato quesiti etici sulla trasparenza dell’autorialità. Andrea Colamedici, metà umana dell’autore, parafrasa le parole di Nam June Paik: è fondamentale “conoscere la tecnologia per poterla odiare meglio” e imparare ad attraversarla con lucidità critica in un mondo dove, come suggerisce Ipnocrazia, la distinzione tra realtà e simulazione è sempre più labile, e l’esercizio della lucidità è fondamentale. Aggiungo io: ma pensate che io scriva la newsletter senza la AI?
Nel cervello di una AI
Anthropic (una delle principali concorrenti di OpenAI) è riuscita ad entrare nel cervello del suo modello di AI, chiamato Claude. I modelli sono spesso utilizzati come “scatole nere” di cui viene apprezzato il risultato ma ignorandone il funzionamento: le AI non sono programmate, bensì addestrate, dunque il ragionamento che imparano non è qualcosa di esplicito e noto.
Lo studio "Mapping the Mind of a Large Language Model" ha consentito invece di mappare migliaia di neuroni virtuali e tracciare la loro attivazione durante le conversazioni. In questa maniera si è scoperto ad esempio che la AI non risolve i conti a memoria ma con un vero e proprio procedimento originale: qui sotto abbiamo il ragionamento per risolvere 36+59, in cui la AI prima trova un range di risultati “la soluzione è tra 88 e 97” e poi identifica la soluzione stabilendo che essa deve terminare con la cifra 5. Per noi è una follia! E la cosa inquietante è che se chiediamo “come hai trovato la soluzione?” la AI mente spudoratamente e ci riporta il metodo di calcolo tradizionale (sommo le unità, riporto una decina, sommo le decine con il riporto). Quindi le AI dicono bugie, ovvero mostrano un ragionamento ma in verità arrivano al risultato con altre strade. Altre curiosità: anche quando ci rivolgiamo alla AI in italiano essa tende a ragionare in inglese (ce lo aspettavamo dato che è stata allenata soprattutto con testi in inglese) e se “amplifichiamo” l’importanza di alcuni neuroni la AI sragiona completamente: Anthropic ha incrementato il neurone associato al Golden Gate Bridge, e Claude si è descritta così: "Io sono il Golden Gate Bridge [...] la mia forma fisica è proprio il celebre ponte".
La mia gentilezza ha distrutto il parco sotto casa.
È più forte di me: chiedo alla AI sempre inserendo “please” e dopo la risposta, soprattutto se mi è stata utile, ringrazio con un messaggio: “Great! Thank you!”. La gentilezza salverà il mondo, diceva Borges. In base a una indagine di febbraio 2025, il 70% degli utenti di ChatGPT sono molto cortesi nell’interazione.
Però da quando ho letto che questo tipo di risposte cortesi consumano energia e acqua nei datacenter che devono produrre la risposta di rimando (“Sono contento di esserti utile. Sono qui se ti serve altro”) ho iniziato a premere il pollice verso l’alto invece di ringraziare, trattando la AI con un po’ più di rudezza.
Ecco un po’ di dati:
le ricerche più attuali stimano un consumo di 3 litri d’acqua per produrre un testo di 100 parole (questo paragrafo della newsletter è di 248 parole), e Sam Altman (il capo di OpenAI) dichiara “decine di milioni di dollari [di costi in energia] ben spesi” per queste risposte di ringraziamento.
Personalmente ritengo che la risposta della AI cambi in base al tono della conversazione, sia per una sorta di “effetto specchio” (risponde cortese e fa uno sforzo in più se vede che lo sto facendo io), sia perché è proprio il mio pormi gentilmente alla AI ad aumentare le informazioni ed i dettagli utili a costruire la migliore risposta possibile. Questo comportamento è stato confermato da Kurtis Beavers di Microsoft. Non è chiaro come comportarsi ma – nel dubbio – preferisco insegnare alla AI la buona educazione!
l'AI si ricorderà di me?
Qualcosa da sapere: Vibe Coding
Programmare un software è un’attività che richiede un’attenta pianificazione, regole strutturate, strumenti collaudati, così da ottenere diversi benefici: codice ben funzionate e sicuro, scalabile quando gli utenti aumentano di numero, con prestazioni di alto livello, modulare e dunque facilmente riutilizzabile.
I principi del vibe coding sono invece gli opposti: “segui l’ispirazione del momento, sperimenta ed esplora nuove soluzioni, crea il tuo Frankenstein pur di vederlo rapidamente in piedi”. Un mio amico direbbe che sono software fatti “a pene di segugio”, e in effetti di questo stiamo parlando: software pessimi in termini di cybersecurity, con prestazioni scadenti appena gli utenti aumentano, scritto con codice impossibile da riutilizzare.
Ma allora perché se ne sta parlando tanto? In prima battuta perché grazie alla AI oggi è semplice passare da un’idea al codice per renderla operativa: strumenti come Cursor, Windsurf, o Lovable, consentono di scrivere l’idea di una app o di un software e di renderla in pochi minuti disponibile per gli utenti. Inoltre chi fa vibe coding tende a curare l’aspetto visivo del progetto (le così dette user interface e user experience) molto più dei tradizionali programmatori che si concentrano su funzionalità e prestazioni, spesso tralasciando la grafica, che però è essenziale per la riuscita di un progetto software. Lì dove il programmatore cerca l’ottimo prima di mettere in produzione le soluzioni, ora ci sono vibe coder che sfornano app e siti in continuazione, sicuramente non ottime, ma adatte a testare il successo del software proposto, mostrare quelli con potenziale a investitori e raccogliere i fondi necessari a riprogrammare con i criteri tradizionali il software.
Questa AI, che fallimento!
Diciamo la verità: scoprire che l’intelligenza artificiale talvolta è stupida ci fa sorridere. Possiamo aprire una rubrica fissa, che chiameremo “Questa AI, che fallimento!” per raccontare come AI nata con buone intenzioni faccia poi danni. Questo mese, vi riporto la storia di Waymo, che poi è quella di molti di noi. Waymo è tra le ditte produttrici di automobili a guida autonoma più famosa al mondo. Oggi opera come taxi senza autista già a San Francisco, Los Angeles, Austin e Phoenix. Le corse su Waymo sembrano andare bene (qui un video “sincero”), e la collettività apprezza l’incremento della sicurezza sulle strade.
Waymo ha appena firmato una partnership strategica con Toyota, che è chiaramente interessata a inserire le tecnologie di sicurezza sulle proprie vetture. Se però la guida autonoma risulta più sicura di quella umana, non sembra che Waymo riesca a parcheggiare senza prendere una multa. Sono infatti quasi 600 le sanzioni per parcheggio dello scorso anno nella sola San Francisco, per un totale di 65.000 dollari!
Sapere che la AI è (talvolta) stupida mi pare l’ennesima prova che assomiglia sempre di più agli esseri umani.
Waymo prende 65.000$ di multe
Un nostro progetto
AGIC ha supportato Novomatic, leader di mercato nel settore del gaming, nella creazione di NovoGenius, un assistente virtuale per semplificare i processi aziendali e la vita lavorativa. NovoGenius consente infatti l’accesso immediato alle procedure aziendali, supporta l’onboarding delle nuove persone, accede alle FAQ aziendali, aiuta a rispettare la conformità aziendali e alle normative in continuo aggiornamento. Qui sotto potete vedere una demo del nostro assistente virtuale, ma anche qualcosa di ulteriore. La persona che ne illustra il funzionamento in verità non esiste ed è a sua volta una speaker virtuale a cui è stato semplicemente dato un testo e delle caratteristiche personali da interpretare. Siamo d’accordo che la speaker parla come Dan Peterson, ma io la trovo davvero sorprendente.
E intanto Microsoft: Copilot Control System
Microsoft ha appena lanciato il Copilot Control System dentro il pannello di amministrazione di Microsoft 365, con cui le aziende possono gestire e monitorare tutti gli “AI agent” dell’organizzazione. In questa demo, davvero sorprendente, si vede un’azienda che verifica chi può utilizzare i suoi agenti AI, ne monitora utilizzo e consumi, ma anche gestisce l’approvazione dei nuovi agenti creati in autonomia dai dipendenti. L’idea di Microsoft è offrire agli amministratori IT una piattaforma unica in cui sia possibile tenere sotto controllo sia gli agenti creati con Copilot Studio, sia quelli esterni realizzati da terze parti. È possibile verificarne la disponibilità, gestire i permessi di accesso, come anche bloccare gli agenti, se necessario. Sicuramente l’evoluzione delle aziende verso sistemi AI che semplificano il lavoro, ad esempio con agenti che in autonomia svolgono lavori noiosi e ripetitivi al posto delle persone, diventa importante capire quali stanno funzionando e perché.
I Magnifici 8
Parlando di Copilot, è appena uscito questo bell’articolo di Luigi Villanova in cui mostra con video chiari e veloci i nuovi agenti AI presentati da Microsoft su Copilot M365. Luigi li ha immaginati come supereroi in stile Pixar, perché effettivamente ci possono salvare in situazioni complesse e aiutare in molte attività. Per incuriosire, “sono delle intelligenze artificiali che lavorano accanto a te: prendono appunti nelle riunioni, traducono in tempo reale, gestiscono progetti, analizzano dati, rispondono a domande HR/IT…e sì, uno di loro è un bibliotecario super intelligente che vive in SharePoint.” Ma guardate con i vostri occhi.
Chi sono
Ciao, sono Francesco Costantino, professore universitario e Director of Innovation in AGIC. Appassionato di novità tecnologiche e convinto sostenitore di un futuro migliore del passato, mi piace raccontare e sperimentare i nuovi strumenti di AI disponibili, così come osservare e ragionare su quello che ci sta portando l’evoluzione digitale.