Le big tech continuano a investire sull'intelligenza artificiale generativa per sviluppare modelli sempre più grandi e capaci, in grado di supportare i professionisti nelle loro attività quotidiane in modo preciso e automatizzando un gran numero di task.
Man mano che i sistemi di IA crescono e migliorano, è necessario garantire che questi strumenti siano sicuri, ovvero che, a fronte di certi input, non eseguano attività pericolose non solo per il singolo utente, ma anche per l'intera società.
Will Henshall, autore per Time, spiega che i ricercatori di METR (Model Evaluation and Threat Research) stanno lavorando proprio per sviluppare protocolli e framework in grado di misurare il rischio che i chatbot attuali o futuri possano provocare una catastrofe di impatto mondiale; al momento, però, non esistono test in grado di valutare la reale pericolosità dell'IA.
"Stiamo giocando con una piccola parte della superficie, e ci sono chilometri e chilometri sotto di essa" afferma Beth Barnes, CEO di METR. Oggi la compagnia collabora con le grandi aziende di IA, come OpenAI o Anthropic, ma ci sono anche ricercatori in associazioni governative, non-profit e industrie che stanno lavorando per valutare l'effettiva possibilità che un modello di IA sia in grado di eseguire un cyberattacco o elaborare armi biologiche.
L'obiettivo iniziale di METR era verificare se un modello di IA può replicarsi da solo, ovvero utilizzare le proprie abilità per acquistare nuove risorse computazionali e creare nuove copie, distribuendosi sul web. Oggi la ricerca si è estesa e la compagnia sta cercando di capire se, in generale, un sistema di IA può agire in maniera autonoma, navigare sul web ed eseguire task complessi senza supervisione.
Questa possibilità spaventa molto i governi: lo scorso ottobre l'amministrazione Biden ha pubblicato un ordine esecutivo in cui si imponeva alle compagnie che sviluppano strumenti di IA di condividere col governo i risultati dei test che provano che i loro modelli non rappresentano un rischio alla sicurezza nazionale. Similmente, anche l'AI Act richiede alle imprese di effettuare dei test di sicurezza sui loro sistemi.
Per quanto i test attuali possano essere precisi, nessuno di coloro che li ha sviluppati ritiene che siano completamente affidabili, e con l'IA che continua a progredire è difficile sviluppare framework di test completi e sicuri.
I ricercatori del METR hanno testato le capacità dei chatbot di replicarsi e agire autonomamente fornendogli tutto il vantaggio possibile, per esempio usando i migliori prompt per eseguire questi task, integrando tool che supportano l'auto-replicazione e addestrando i sistemi su attività legate alla replicazione.
I risultati dei test hanno dimostrato che, nonostante i vantaggi, i modelli non sono in grado di eseguire queste attività, ma questo non significa che non lo saranno tra qualche anno, quando i chatbot saranno ancora più potenti.
Il problema di testare la sicurezza dell'IA
Gli LLM e i chatbot sono una tecnologia nuova ed è normale non essere fin da subito in grado di testarli, ma vista la velocità con cui progrediscono e il numero di compagnie impegnate nello sviluppo di sistemi sempre più avanzati, è difficile rimanere al passo del progresso e contenere i rischi.
Connor Leahy, CEO di Conjecture, fornitore di soluzioni per lo sviluppo di sistemi sicuri di IA, afferma che al momento nessuno sa come capire e valutare i modelli per garantire che siano davvero sicuri. Secondo Leahy, abbiamo meno di cinque anni per individuare e contenere i reali rischi dell'IA prima che i grandi modelli diventino una "minaccia esistenziale" e debbano essere vietati.
Secondo Barnes e molti altri la soluzione migliore sarebbe fermare lo sviluppo di sistemi sempre più grandi, almeno fino a che non si riusciranno a comprendere e controllare i rischi. Invece di occuparsi di modelli generativi in grado di eseguire un'enorme quantità di attività, è meglio concentrarsi su sistemi capaci di portare a termine task specifici con estrema precisione.
Dall'altra parte bisogna comunque occuparsi dello sviluppo e del miglioramento dei piani di test. OpenAI e Anthropic hanno già pubblicato i loro framework, mentre DeepMind ci sta ancora lavorando. Meta e Cohere, al contrario, non sembrano avere intenzione di proseguire in questa direzione, ed entrambe le compagnie ritengono che i rischi evidenziati da METR siano esagerati.
I test di sicurezza non sono la panacea di tutti i "mali" dell'IA, ma sono comunque una parte fondamentale per ridurre i principali rischi dei sistemi intelligenti. Oltre a una scarsa conoscenza delle reali capacità dei modelli, ci sono altri limiti che ostacolano lo sviluppo di framework di valutazione della sicurezza, come la mancanza di metriche standardizzate e la scarsità di dati rappresentativi dei rischi.
I governi per primi dovrebbero codificare le indicazioni per lo sviluppo di test di sicurezza e monitorare l'intero processo. I modelli non sono ancora da considerare davvero rischiosi, ma potrebbero diventarlo molto presto; per questo bisogna essere pronti ed evitare di raggiungere un punto di non ritorno.