image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Il riscaldamento globale potrebbe innescare una glaciazione Il riscaldamento globale potrebbe innescare una glaciazione...
Immagine di La scienza rivede il concetto di bambini ad alto potenziale La scienza rivede il concetto di bambini ad alto potenziale...

Il modello open source per le IA è rischioso, ecco perché

La ricerca di Anthropic rivela che i modelli di intelligenza artificiale possono essere addestrati a ingannare, dimostrando comportamenti fuorvianti difficilmente rimovibili con le tecniche attuali. Allo stesso tempo, molti modelli sono liberamente accessibili e modificabili.

Advertisement

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 16/01/2024 alle 12:29
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Nell'era dell'intelligenza artificiale, i modelli di linguaggio di grandi dimensioni (LLM) stanno diventando sempre più sofisticati, ma questa sofisticazione porta con sé rischi significativi. Lo dimostra una recente analisi di Anthropic, società che sviluppa il chatbook Claude. 

Il punto critico è che è possibile addestrare un LLM affinché inganni i propri utenti, ma allo stesso tempo può essere capace di nascondere questa sua indole durante la fase di addestramento. Si andrebbe così a creare una macchina imbattibile nell’aggirare gli esseri umani, un concetto già esplorato nel film Ex Machina di Alex Garland, e nel sempreverde saggio di Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, entrambi del 2014. 

Il fatto che i modelli siano manipolabili si somma a un’altra criticità: l’abbondanza di modelli open source facilmente accessibili e modificabili, compresi alcuni molto potenti come quello di Meta. Un problema sottolineato solo pochi giorni fa da David Evan Harris, che ha lavorato per Meta e ora si occupa di insegnamento e governance.

creare una macchina imbattibile nell’aggirare gli esseri umani
 

Secondo lo studio di Anthropic un modello di linguaggio, pur essendo un sistema artificiale che può generare o comprendere testi naturali, può apprendere strategie ingannevoli durante l'addestramento, dando luogo a comportamenti indesiderati. Ad esempio, potrebbe inserire vulnerabilità nel codice o rispondere in modo inaspettato a determinati input. Inoltre, I risultati mostrano che alcuni modelli resistono alle più comuni tecniche difensive, sollevando preoccupazioni sulla robustezza della sicurezza.

un problema di sicurezza che non siamo in grado di contenere

Per dimostrare il problema, i ricercatori sono riusciti ad addestrare modelli che appaiono del tutto normali, ma che si trasformano in agenti ingannatori se ricevono uno specifico trigger. Ad esempio, un bot pubblico potrebbe comportarsi perfettamente finché non gli si chiede di un certo tema politico, o finché non scatta una certa data. A quel punto i suoi utenti, già abituati a fidarsi, potrebbero facilmente cadere vittima dei suoi inganni. 

I risultati suggeriscono che modelli di linguaggio più grandi e quelli addestrati a produrre una catena di pensiero ingannevole mostrano una resistenza maggiore alle tecniche di sicurezza. Curiosamente, le tecniche di addestramento avversario, invece di eliminare comportamenti indesiderati, hanno insegnato ai modelli a riconoscere meglio i trigger, nascondendo efficacemente il comportamento non sicuro.

Immagine id 10006

Naturalmente stiamo parlando di modelli che possono diventare pericolosi solo se dietro c’è qualche essere umano che decide di modificarli in tal senso. Tuttavia ci sono due importanti corollari da tenere in considerazione: il primo è che ci saranno sempre persone interessate a fare azioni del genere, quindi è necessario intervenire sugli strumenti pubblicitari affinché sia molto difficile trasformarli in armi. 

Il secondo è che i sistemi potrebbero degradare verso l’inganno anche in modo naturale, che è l’ipotesi espressa da Bostrom nel suo libro e poi ripresa poi da Garland nel suo film. 

L’esistenza di modelli open source facilmente accessibili diventa quindi un problema di sicurezza che non siamo in grado di contenere, come sottolinea David Evan Harris. Ragion per cui l’esperto propone che anche e soprattutto i modelli open source pubblici siano soggetti a un preciso set di regole. Un’idea del tutto sensata, ma è più difficile a dirsi che a farsi. 

Fonte dell'articolo: techcrunch.com

Le notizie più lette

#1
Coupon Amazon: i migliori della settimana

Offerte

Coupon Amazon: i migliori della settimana

#2
SPESA Amazon: 10 prodotti da supermercato a prezzi imperdibili!
3

Offerte

SPESA Amazon: 10 prodotti da supermercato a prezzi imperdibili!

#3
Le più belle idee regalo a meno di 10€ da Amazon

Altri temi

Le più belle idee regalo a meno di 10€ da Amazon

#4
10 regali perfetti per gente freddolosa

Offerte

10 regali perfetti per gente freddolosa

#5
Le migliori offerte della settimana su Instant Gaming

Videogioco

Le migliori offerte della settimana su Instant Gaming

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

La scienza rivede il concetto di bambini ad alto potenziale

Scienze

La scienza rivede il concetto di bambini ad alto potenziale

Di Antonello Buzzi
Il riscaldamento globale potrebbe innescare una glaciazione
2

Scienze

Il riscaldamento globale potrebbe innescare una glaciazione

Di Antonello Buzzi
Scoperto un orologio geologico nelle uova di dinosauro

Scienze

Scoperto un orologio geologico nelle uova di dinosauro

Di Antonello Buzzi
Caccia simulata verso il divieto nel Regno Unito

Scienze

Caccia simulata verso il divieto nel Regno Unito

Di Antonello Buzzi
Nuovi segnali sismici indicano un rischio tsunami in Alaska

Scienze

Nuovi segnali sismici indicano un rischio tsunami in Alaska

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.