image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Una proteina decide l’equilibrio chimico del cervello Una proteina decide l’equilibrio chimico del cervello...
Immagine di Enzimi antichi della cannabis riattivati per usi terapeutici Enzimi antichi della cannabis riattivati per usi terapeutici...

Il modello open source per le IA è rischioso, ecco perché

La ricerca di Anthropic rivela che i modelli di intelligenza artificiale possono essere addestrati a ingannare, dimostrando comportamenti fuorvianti difficilmente rimovibili con le tecniche attuali. Allo stesso tempo, molti modelli sono liberamente accessibili e modificabili.

Advertisement

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 16/01/2024 alle 12:29
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Nell'era dell'intelligenza artificiale, i modelli di linguaggio di grandi dimensioni (LLM) stanno diventando sempre più sofisticati, ma questa sofisticazione porta con sé rischi significativi. Lo dimostra una recente analisi di Anthropic, società che sviluppa il chatbook Claude. 

Il punto critico è che è possibile addestrare un LLM affinché inganni i propri utenti, ma allo stesso tempo può essere capace di nascondere questa sua indole durante la fase di addestramento. Si andrebbe così a creare una macchina imbattibile nell’aggirare gli esseri umani, un concetto già esplorato nel film Ex Machina di Alex Garland, e nel sempreverde saggio di Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, entrambi del 2014. 

Il fatto che i modelli siano manipolabili si somma a un’altra criticità: l’abbondanza di modelli open source facilmente accessibili e modificabili, compresi alcuni molto potenti come quello di Meta. Un problema sottolineato solo pochi giorni fa da David Evan Harris, che ha lavorato per Meta e ora si occupa di insegnamento e governance.

creare una macchina imbattibile nell’aggirare gli esseri umani
 

Secondo lo studio di Anthropic un modello di linguaggio, pur essendo un sistema artificiale che può generare o comprendere testi naturali, può apprendere strategie ingannevoli durante l'addestramento, dando luogo a comportamenti indesiderati. Ad esempio, potrebbe inserire vulnerabilità nel codice o rispondere in modo inaspettato a determinati input. Inoltre, I risultati mostrano che alcuni modelli resistono alle più comuni tecniche difensive, sollevando preoccupazioni sulla robustezza della sicurezza.

un problema di sicurezza che non siamo in grado di contenere

Per dimostrare il problema, i ricercatori sono riusciti ad addestrare modelli che appaiono del tutto normali, ma che si trasformano in agenti ingannatori se ricevono uno specifico trigger. Ad esempio, un bot pubblico potrebbe comportarsi perfettamente finché non gli si chiede di un certo tema politico, o finché non scatta una certa data. A quel punto i suoi utenti, già abituati a fidarsi, potrebbero facilmente cadere vittima dei suoi inganni. 

I risultati suggeriscono che modelli di linguaggio più grandi e quelli addestrati a produrre una catena di pensiero ingannevole mostrano una resistenza maggiore alle tecniche di sicurezza. Curiosamente, le tecniche di addestramento avversario, invece di eliminare comportamenti indesiderati, hanno insegnato ai modelli a riconoscere meglio i trigger, nascondendo efficacemente il comportamento non sicuro.

Immagine id 10006

Naturalmente stiamo parlando di modelli che possono diventare pericolosi solo se dietro c’è qualche essere umano che decide di modificarli in tal senso. Tuttavia ci sono due importanti corollari da tenere in considerazione: il primo è che ci saranno sempre persone interessate a fare azioni del genere, quindi è necessario intervenire sugli strumenti pubblicitari affinché sia molto difficile trasformarli in armi. 

Il secondo è che i sistemi potrebbero degradare verso l’inganno anche in modo naturale, che è l’ipotesi espressa da Bostrom nel suo libro e poi ripresa poi da Garland nel suo film. 

L’esistenza di modelli open source facilmente accessibili diventa quindi un problema di sicurezza che non siamo in grado di contenere, come sottolinea David Evan Harris. Ragion per cui l’esperto propone che anche e soprattutto i modelli open source pubblici siano soggetti a un preciso set di regole. Un’idea del tutto sensata, ma è più difficile a dirsi che a farsi. 

Fonte dell'articolo: techcrunch.com

Le notizie più lette

#1
ChatGPT ora mostra pubblicità particolarmente invadenti
4

Hardware

ChatGPT ora mostra pubblicità particolarmente invadenti

#2
Addio ai "giri di ruota" su Fortnite! Epic ferma di nuovo tutto

Videogioco

Addio ai "giri di ruota" su Fortnite! Epic ferma di nuovo tutto

#3
Regolamentazione europea: ostacolo o opportunità?

Business

Regolamentazione europea: ostacolo o opportunità?

#4
ExFAT su Linux: un driver ne incrementa notevolmente la velocità

Hardware

ExFAT su Linux: un driver ne incrementa notevolmente la velocità

#5
Replit fa creare app iOS con l'AI, ma non ci rende magicamente sviluppatori
1

Smartphone

Replit fa creare app iOS con l'AI, ma non ci rende magicamente sviluppatori

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Enzimi antichi della cannabis riattivati per usi terapeutici

Scienze

Enzimi antichi della cannabis riattivati per usi terapeutici

Di Antonello Buzzi
Una proteina decide l’equilibrio chimico del cervello

Scienze

Una proteina decide l’equilibrio chimico del cervello

Di Antonello Buzzi
I display OLED elastici fanno un passo avanti decisivo

Scienze

I display OLED elastici fanno un passo avanti decisivo

Di Antonello Buzzi
Il “segreto” del suolo che raddoppia la ricrescita forestale

Scienze

Il “segreto” del suolo che raddoppia la ricrescita forestale

Di Antonello Buzzi
La fisica della materia funziona senza elettroni classici

Scienze

La fisica della materia funziona senza elettroni classici

Di Antonello Buzzi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.