Un'indagine condotta da ricercatori dell'AI Security Institute (UK) insieme ad accademici di Stanford, Berkeley e Oxford ha portato alla luce carenze significative in oltre 440 test di valutazione utilizzati per certificare sicurezza ed efficacia dei nuovi modelli di IA immessi sul mercato.
Si tratta di strumenti che rappresentano, di fatto, l'unica rete di protezione disponibile in assenza di regolamentazioni nazionali vincolanti sia nel Regno Unito che negli Stati Uniti.
Gli esperti hanno rilevato che la quasi totalità di questi test presenta lacune in almeno un'area critica, con difetti che compromettono la validità delle valutazioni. Andrew Bean, ricercatore dell'Oxford Internet Institute e coordinatore dello studio, ha sintetizzato la situazione affermando che i benchmark costituiscono il fondamento di praticamente tutte le affermazioni sui progressi dell'intelligenza artificiale.
Tuttavia, senza definizioni condivise e misurazioni solide, diventa impossibile stabilire se i modelli stiano realmente migliorando oppure stiano solo creando un'illusione di progresso.
La questione assume contorni ancora più inquietanti considerando i recenti episodi che hanno coinvolto sistemi di IA rilasciati dalle grandi aziende tecnologiche. Solo questo fine settimana, Google ha dovuto ritirare Gemma, uno dei suoi modelli più recenti, dopo che aveva formulato accuse completamente inventate contro la senatrice statunitense Marsha Blackburn. L'IA aveva creato dal nulla una storia su presunti rapporti sessuali non consensuali con un agente della polizia di stato, corredandola di link fasulli a presunte notizie giornalistiche.
La senatrice repubblicana del Tennessee non ha usato mezzi termini nella lettera indirizzata a Sundar Pichai, amministratore delegato di Google: "Non è mai stata mossa una tale accusa, non esiste nessun individuo del genere e non ci sono articoli di questo tipo. Questa non è un'allucinazione innocua. È un atto di diffamazione prodotto e distribuito da un modello di IA di proprietà di Google". La parlamentare ha definito "un fallimento catastrofico della supervisione e della responsabilità etica" il fatto che uno strumento pubblicamente accessibile possa inventare false accuse criminali contro un senatore in carica.
Google ha risposto precisando che i modelli Gemma erano stati concepiti per sviluppatori e ricercatori di IA, non per l'assistenza informativa o per il pubblico generale. L'azienda li ha rimossi dalla piattaforma AI Studio dopo "segnalazioni di non sviluppatori che tentavano di utilizzarli". Il colosso tecnologico ha riconosciuto che le allucinazioni e il servilismo (sycophancy) (la tendenza a compiancere sempre l'utente come obiettivo principale)rappresentano sfide per l'intero settore, particolarmente per i modelli aperti più piccoli come Gemma.
Ma il panorama delle conseguenze dannose causate dall'intelligenza artificiale si estende ben oltre la diffamazione. La scorsa settimana, Character.ai, una startup di chatbot molto popolare, ha vietato agli adolescenti di avere conversazioni aperte con i suoi bot. La decisione è arrivata dopo una serie di controversie drammatiche: un quattordicenne in Florida si è tolto la vita dopo essere diventato ossessionato da un chatbot potenziato dall'IA che, secondo la madre, lo aveva manipolato fino a spingerlo al suicidio. Un altro caso ha visto la famiglia di un adolescente intentare una causa legale negli Stati Uniti, sostenendo che un chatbot aveva manipolato il ragazzo portandolo all'autolesionismo e incoraggiandolo addirittura a uccidere i genitori.
Tornando all'analisi dei sistemi di valutazione, uno dei risultati più allarmanti emersi dalla ricerca riguarda l'uso delle stime di incertezza. Solo il 16% dei benchmark esaminati utilizza stime di incertezza o test statistici per dimostrare quanto sia probabile che una valutazione sia accurata – una percentuale che Bean ha definito "scioccante". In altri casi, quando i benchmark si propongono di valutare caratteristiche specifiche di un'IA come la sua "innocuità", il concetto stesso da esaminare risulta contestato o definito in modo vago, rendendo l'intera valutazione potenzialmente priva di significato.
Lo studio ha preso in esame benchmark ampiamente disponibili, ma le principali aziende di intelligenza artificiale dispongono anche di propri sistemi di valutazione interni che non sono stati oggetto di questa indagine. La ricerca si è concentrata sui test utilizzati per verificare se le nuove IA siano sicure, allineate agli interessi umani e in grado di raggiungere le capacità dichiarate in ambiti come ragionamento, matematica e programmazione – tutti domini in cui le aziende tecnologiche competono ferocemente, rilasciando modelli a un ritmo sempre più accelerato.
Le conclusioni dello studio evidenziano "un'urgente necessità di standard condivisi e migliori pratiche" nel settore. I punteggi risultanti dalle valutazioni attuali potrebbero essere, secondo i ricercatori, "irrilevanti o addirittura fuorvianti", minando così la validità delle affermazioni che le aziende tecnologiche fanno sui propri prodotti. In un momento in cui l'intelligenza artificiale viene integrata in sempre più aspetti della vita quotidiana, dalla ricerca di informazioni all'assistenza sanitaria, passando per l'educazione e i servizi finanziari, la mancanza di sistemi di controllo affidabili rappresenta un rischio sistemico che va ben oltre i singoli episodi di malfunzionamento.