image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
% Black Friday
%
Accedi a Xenforo
Immagine di Vasta città dell'età del bronzo scoperta in Kazakistan Vasta città dell'età del bronzo scoperta in Kazakistan...
Immagine di Alcol e fegato: il fruttosio è il vero anello mancante Alcol e fegato: il fruttosio è il vero anello mancante...

Il modello open source per le IA è rischioso, ecco perché

La ricerca di Anthropic rivela che i modelli di intelligenza artificiale possono essere addestrati a ingannare, dimostrando comportamenti fuorvianti difficilmente rimovibili con le tecniche attuali. Allo stesso tempo, molti modelli sono liberamente accessibili e modificabili.

Advertisement

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 16/01/2024 alle 12:29
Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 16/01/2024 alle 12:29
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Nell'era dell'intelligenza artificiale, i modelli di linguaggio di grandi dimensioni (LLM) stanno diventando sempre più sofisticati, ma questa sofisticazione porta con sé rischi significativi. Lo dimostra una recente analisi di Anthropic, società che sviluppa il chatbook Claude. 

Il punto critico è che è possibile addestrare un LLM affinché inganni i propri utenti, ma allo stesso tempo può essere capace di nascondere questa sua indole durante la fase di addestramento. Si andrebbe così a creare una macchina imbattibile nell’aggirare gli esseri umani, un concetto già esplorato nel film Ex Machina di Alex Garland, e nel sempreverde saggio di Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, entrambi del 2014. 

Il fatto che i modelli siano manipolabili si somma a un’altra criticità: l’abbondanza di modelli open source facilmente accessibili e modificabili, compresi alcuni molto potenti come quello di Meta. Un problema sottolineato solo pochi giorni fa da David Evan Harris, che ha lavorato per Meta e ora si occupa di insegnamento e governance.

creare una macchina imbattibile nell’aggirare gli esseri umani
 

Secondo lo studio di Anthropic un modello di linguaggio, pur essendo un sistema artificiale che può generare o comprendere testi naturali, può apprendere strategie ingannevoli durante l'addestramento, dando luogo a comportamenti indesiderati. Ad esempio, potrebbe inserire vulnerabilità nel codice o rispondere in modo inaspettato a determinati input. Inoltre, I risultati mostrano che alcuni modelli resistono alle più comuni tecniche difensive, sollevando preoccupazioni sulla robustezza della sicurezza.

un problema di sicurezza che non siamo in grado di contenere

Per dimostrare il problema, i ricercatori sono riusciti ad addestrare modelli che appaiono del tutto normali, ma che si trasformano in agenti ingannatori se ricevono uno specifico trigger. Ad esempio, un bot pubblico potrebbe comportarsi perfettamente finché non gli si chiede di un certo tema politico, o finché non scatta una certa data. A quel punto i suoi utenti, già abituati a fidarsi, potrebbero facilmente cadere vittima dei suoi inganni. 

I risultati suggeriscono che modelli di linguaggio più grandi e quelli addestrati a produrre una catena di pensiero ingannevole mostrano una resistenza maggiore alle tecniche di sicurezza. Curiosamente, le tecniche di addestramento avversario, invece di eliminare comportamenti indesiderati, hanno insegnato ai modelli a riconoscere meglio i trigger, nascondendo efficacemente il comportamento non sicuro.

Immagine id 10006

Naturalmente stiamo parlando di modelli che possono diventare pericolosi solo se dietro c’è qualche essere umano che decide di modificarli in tal senso. Tuttavia ci sono due importanti corollari da tenere in considerazione: il primo è che ci saranno sempre persone interessate a fare azioni del genere, quindi è necessario intervenire sugli strumenti pubblicitari affinché sia molto difficile trasformarli in armi. 

Il secondo è che i sistemi potrebbero degradare verso l’inganno anche in modo naturale, che è l’ipotesi espressa da Bostrom nel suo libro e poi ripresa poi da Garland nel suo film. 

L’esistenza di modelli open source facilmente accessibili diventa quindi un problema di sicurezza che non siamo in grado di contenere, come sottolinea David Evan Harris. Ragion per cui l’esperto propone che anche e soprattutto i modelli open source pubblici siano soggetti a un preciso set di regole. Un’idea del tutto sensata, ma è più difficile a dirsi che a farsi. 

Fonte dell'articolo: techcrunch.com

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Alcol e fegato: il fruttosio è il vero anello mancante

Scienze

Alcol e fegato: il fruttosio è il vero anello mancante

Di Antonello Buzzi • 1 giorno fa
Vasta città dell'età del bronzo scoperta in Kazakistan
1

Scienze

Vasta città dell'età del bronzo scoperta in Kazakistan

Di Antonello Buzzi • 1 giorno fa
IBM spinge il quantistico oltre i limiti del Modello Standard

Scienze

IBM spinge il quantistico oltre i limiti del Modello Standard

Di Antonello Buzzi • 18 ore fa
La fisica ribalta l’effetto Faraday dopo 180 anni

Scienze

La fisica ribalta l’effetto Faraday dopo 180 anni

Di Antonello Buzzi • 18 ore fa
Perché ci baciamo? La risposta è nella nostra evoluzione

Scienze

Perché ci baciamo? La risposta è nella nostra evoluzione

Di Antonello Buzzi • 1 giorno fa

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.