Il modello open source per le IA è rischioso, ecco perché

La ricerca di Anthropic rivela che i modelli di intelligenza artificiale possono essere addestrati a ingannare, dimostrando comportamenti fuorvianti difficilmente rimovibili con le tecniche attuali. Allo stesso tempo, molti modelli sono liberamente accessibili e modificabili.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Nell'era dell'intelligenza artificiale, i modelli di linguaggio di grandi dimensioni (LLM) stanno diventando sempre più sofisticati, ma questa sofisticazione porta con sé rischi significativi. Lo dimostra una recente analisi di Anthropic, società che sviluppa il chatbook Claude. 

Il punto critico è che è possibile addestrare un LLM affinché inganni i propri utenti, ma allo stesso tempo può essere capace di nascondere questa sua indole durante la fase di addestramento. Si andrebbe così a creare una macchina imbattibile nell’aggirare gli esseri umani, un concetto già esplorato nel film Ex Machina di Alex Garland, e nel sempreverde saggio di Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, entrambi del 2014

Il fatto che i modelli siano manipolabili si somma a un’altra criticità: l’abbondanza di modelli open source facilmente accessibili e modificabili, compresi alcuni molto potenti come quello di Meta. Un problema sottolineato solo pochi giorni fa da David Evan Harris, che ha lavorato per Meta e ora si occupa di insegnamento e governance.

creare una macchina imbattibile nell’aggirare gli esseri umani
 

Secondo lo studio di Anthropic un modello di linguaggio, pur essendo un sistema artificiale che può generare o comprendere testi naturali, può apprendere strategie ingannevoli durante l'addestramento, dando luogo a comportamenti indesiderati. Ad esempio, potrebbe inserire vulnerabilità nel codice o rispondere in modo inaspettato a determinati input. Inoltre, I risultati mostrano che alcuni modelli resistono alle più comuni tecniche difensive, sollevando preoccupazioni sulla robustezza della sicurezza.

un problema di sicurezza che non siamo in grado di contenere

Per dimostrare il problema, i ricercatori sono riusciti ad addestrare modelli che appaiono del tutto normali, ma che si trasformano in agenti ingannatori se ricevono uno specifico trigger. Ad esempio, un bot pubblico potrebbe comportarsi perfettamente finché non gli si chiede di un certo tema politico, o finché non scatta una certa data. A quel punto i suoi utenti, già abituati a fidarsi, potrebbero facilmente cadere vittima dei suoi inganni. 

I risultati suggeriscono che modelli di linguaggio più grandi e quelli addestrati a produrre una catena di pensiero ingannevole mostrano una resistenza maggiore alle tecniche di sicurezza. Curiosamente, le tecniche di addestramento avversario, invece di eliminare comportamenti indesiderati, hanno insegnato ai modelli a riconoscere meglio i trigger, nascondendo efficacemente il comportamento non sicuro.

Naturalmente stiamo parlando di modelli che possono diventare pericolosi solo se dietro c’è qualche essere umano che decide di modificarli in tal senso. Tuttavia ci sono due importanti corollari da tenere in considerazione: il primo è che ci saranno sempre persone interessate a fare azioni del genere, quindi è necessario intervenire sugli strumenti pubblicitari affinché sia molto difficile trasformarli in armi. 

Il secondo è che i sistemi potrebbero degradare verso l’inganno anche in modo naturale, che è l’ipotesi espressa da Bostrom nel suo libro e poi ripresa poi da Garland nel suo film. 

L’esistenza di modelli open source facilmente accessibili diventa quindi un problema di sicurezza che non siamo in grado di contenere, come sottolinea David Evan Harris. Ragion per cui l’esperto propone che anche e soprattutto i modelli open source pubblici siano soggetti a un preciso set di regole. Un’idea del tutto sensata, ma è più difficile a dirsi che a farsi.