Le IA rimandate a scuola, voti troppo bassi nei test di sicurezza

La sicurezza dell'intelligenza artificiale sta diventando un tema sempre più urgente, soprattutto quando emergono valutazioni che rivelano quanto siano vulnerabili i sistemi che utilizziamo quotidianamente. Recenti analisi condotte da istituti specializzati hanno messo alla prova i principali chatbot disponibili sul mercato, assegnando loro dei voti basati su criteri di sicurezza rigorosi. Il risultato è tutt'altro che rassicurante: il sistema migliore ha ottenuto appena una C+, equivalente a un sei più nel sistema scolastico italiano. "Alcuni report sono più affidabili di altri", dice l'esperto Fabrizio Degni.

Il Future Life Institute ha pubblicato l'AI Safety Index nella sua versione Winter 2025, mentre è stato aggiornato anche un altro importante benchmark di novembre. Entrambi i report utilizzano un sistema di valutazione alfabetico tipico del mondo anglosassone, che va dalla A (eccellenza) fino alla F (insufficienza grave). Quando si osserva la tabella complessiva dei risultati, l'impressione è quella di trovarsi di fronte a un vero e proprio disastro: le valutazioni negative superano di gran lunga quelle positive, con una predominanza preoccupante di voti insufficienti. "Se i chatbot più conosciuti fanno pena, figuriamoci gli altri", dice Degni.

Tra i colossi tecnologici valutati figurano i nomi più prestigiosi del settore: Anthropic con il suo Claude, OpenAI con ChatGPT, Google DeepMind con Gemini, oltre a sistemi meno noti al grande pubblico come Llama di Meta e l'AI di X (ex Twitter). La categoria che ha visto le performance peggiori è stata quella del rischio esistenziale, dove quasi tutti i modelli hanno ottenuto una F, con le sole eccezioni di Anthropic, OpenAI e Google che sono riusciti a raggiungere una D, comunque un'insufficienza. Il sistema di Elon Musk, Grok, si è distinto in negativo con valutazioni particolarmente basse in quasi tutte le categorie.

Dietro questi report ci sono figure di spicco nel campo dell'intelligenza artificiale, come Joshua Bengio, vincitore di riconoscimenti equiparabili a un Nobel nel settore informatico. Questi pionieri della ricerca, dopo aver contribuito allo sviluppo delle tecnologie che oggi utilizziamo, hanno cambiato prospettiva dedicandosi alla sicurezza e alla consapevolezza dei rischi. Non si tratta di un tentativo di bloccare il progresso tecnologico, ma piuttosto di un impegno a diffondere maggiore consapevolezza sui pericoli potenziali di questi strumenti sempre più potenti.

Le categorie di valutazione includono aspetti cruciali come la condivisione delle informazioni, dove Anthropic è riuscita a ottenere una A-, e la gestione del rischio, dove sia Anthropic che OpenAI hanno raggiunto una B. Tuttavia, quando si analizzano i rischi attuali, quelli cioè che ci riguardano nel presente e non in scenari futuri ipotetici, la situazione diventa allarmante. Si parla della capacità di questi sistemi di generare informazioni inaffidabili, produrre contenuti pericolosi come materiale pedopornografico, o creare deliberatamente fake news.

Il voto migliore è un sei più: se il migliore della classe fa così, bisogna farsi delle domande

Il problema fondamentale risiede nell'approccio utilizzato per mitigare queste vulnerabilità, definito come "defense in depth". L'analogia utilizzata dagli esperti è quella delle fette di formaggio svizzero: ogni livello di protezione ha dei buchi, e si spera che sovrapponendo più strati, i buchi non si allineino permettendo il passaggio di contenuti pericolosi. Questo metodo ricorda le vecchie patch di Windows, quando invece di risolvere i bug alla radice si aggiungeva codice su codice, aumentando progressivamente le dimensioni del sistema operativo senza eliminare realmente i problemi.

Esistono oggi numerosi applicativi che fungono da proxy tra l'utente e il modello di intelligenza artificiale, controllando sia i prompt in ingresso che gli output generati. Microsoft, ad esempio, offre attraverso la suite Azure strumenti come il Prompt Shield, progettato per identificare contenuti proibiti o codice malevolo. Tuttavia, questa moderazione rappresenta una vera e propria reinterpretazione dell'informazione: ogni filtro aggiunto al canale di comunicazione modifica inevitabilmente il messaggio finale.

Questo spiega perché molti utenti aziendali notano differenze significative tra ChatGPT e Copilot, nonostante entrambi si basino sullo stesso motore GPT. La differenza sostanziale sta nei prompt di sistema e nei filtri di moderazione applicati, che calibrano l'output secondo le policy aziendali o specifici codici etici. Il risultato può essere percepito come meno efficace o "più stupido", ma in realtà è semplicemente più controllato e limitato nelle sue risposte.

La questione diventa ancora più complessa quando si considera la frammentazione dei sistemi di controllo. Un'azienda strutturata può implementare controlli interni sui prompt e gestire internamente l'intelligenza artificiale, ma gli stessi utenti utilizzeranno probabilmente servizi pubblici diversi al di fuori dell'ambiente lavorativo. Questa molteplicità di piattaforme e livelli di controllo crea un panorama estremamente variegato e difficile da monitorare, senza contare che le aziende stesse finiscono per assumere un ruolo di guardiani morali ed etici che va oltre la semplice protezione dei dati sensibili.

Un aspetto particolarmente preoccupante è l'aggirabilità di questi sistemi di sicurezza. Recentemente è emerso che bastava formulare i prompt in forma poetica, magari nello stile di Shakespeare, per eludere i controlli e ottenere risposte che normalmente sarebbero state bloccate. Ancora più critica è la disponibilità di modelli open source: chiunque può scaricarli, modificarli rimuovendo tutti i guardrail di sicurezza, e utilizzarli localmente con l'hardware appropriato, sottraendosi completamente a qualsiasi forma di controllo esterno.

Il panorama che emerge da queste valutazioni è quello di strumenti estremamente potenti, paragonabili per certi versi ad armi, che vengono distribuiti e utilizzati su larga scala nonostante evidenti lacune in termini di sicurezza. La sfida per il futuro non è tanto quella di bloccare lo sviluppo tecnologico, quanto piuttosto di trovare un equilibrio tra innovazione e protezione, tra accessibilità e controllo. Le aziende tecnologiche chiedono fiducia agli utenti, ma i dati dimostrano che forse è ancora prematuro concederla senza riserve, almeno finché non verranno affrontati seriamente i problemi strutturali che questi report hanno messo in evidenza.