Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata Abbiamo fatto un giro in Silicon Valley, ecco com'è andata...
Immagine di C'è chi è convinto che i large language model possano pensare C'è chi è convinto che i large language model possano pens...

Il nostro problema con le IA è che non le sappiamo testare come si deve

Quasi tutti i test presentano carenze in almeno un ambito che possono compromettere la validità delle conclusioni

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Pubblicato il 04/11/2025 alle 08:20

La notizia in un minuto

  • Un'indagine internazionale rivela che oltre 440 test di valutazione utilizzati per certificare sicurezza ed efficacia dei modelli di IA presentano lacune critiche, compromettendo la validità delle valutazioni in assenza di regolamentazioni vincolanti
  • Google ha dovuto ritirare il modello Gemma dopo che aveva inventato accuse di reati sessuali completamente false contro una senatrice statunitense, evidenziando i gravi rischi della diffamazione generata dall'IA
  • Solo il 16% dei benchmark utilizza stime di incertezza per verificare l'accuratezza delle valutazioni, mentre casi drammatici come suicidi legati a chatbot dimostrano le conseguenze reali di sistemi rilasciati senza controlli adeguati
Riassunto generato con l'IA. Potrebbe non essere accurato.

Un'indagine condotta da ricercatori dell'AI Security Institute (UK) insieme ad accademici di Stanford, Berkeley e Oxford ha portato alla luce carenze significative in oltre 440 test di valutazione utilizzati per certificare sicurezza ed efficacia dei nuovi modelli di IA immessi sul mercato.

Si tratta di strumenti che rappresentano, di fatto, l'unica rete di protezione disponibile in assenza di regolamentazioni nazionali vincolanti sia nel Regno Unito che negli Stati Uniti.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Gli esperti hanno rilevato che la quasi totalità di questi test presenta lacune in almeno un'area critica, con difetti che compromettono la validità delle valutazioni. Andrew Bean, ricercatore dell'Oxford Internet Institute e coordinatore dello studio, ha sintetizzato la situazione affermando che i benchmark costituiscono il fondamento di praticamente tutte le affermazioni sui progressi dell'intelligenza artificiale.

Tuttavia, senza definizioni condivise e misurazioni solide, diventa impossibile stabilire se i modelli stiano realmente migliorando oppure stiano solo creando un'illusione di progresso.

La questione assume contorni ancora più inquietanti considerando i recenti episodi che hanno coinvolto sistemi di IA rilasciati dalle grandi aziende tecnologiche. Solo questo fine settimana, Google ha dovuto ritirare Gemma, uno dei suoi modelli più recenti, dopo che aveva formulato accuse completamente inventate contro la senatrice statunitense Marsha Blackburn. L'IA aveva creato dal nulla una storia su presunti rapporti sessuali non consensuali con un agente della polizia di stato, corredandola di link fasulli a presunte notizie giornalistiche.

La senatrice repubblicana del Tennessee non ha usato mezzi termini nella lettera indirizzata a Sundar Pichai, amministratore delegato di Google: "Non è mai stata mossa una tale accusa, non esiste nessun individuo del genere e non ci sono articoli di questo tipo. Questa non è un'allucinazione innocua. È un atto di diffamazione prodotto e distribuito da un modello di IA di proprietà di Google". La parlamentare ha definito "un fallimento catastrofico della supervisione e della responsabilità etica" il fatto che uno strumento pubblicamente accessibile possa inventare false accuse criminali contro un senatore in carica.

Senza standard condivisi è impossibile distinguere progresso reale da mera apparenza

Google ha risposto precisando che i modelli Gemma erano stati concepiti per sviluppatori e ricercatori di IA, non per l'assistenza informativa o per il pubblico generale. L'azienda li ha rimossi dalla piattaforma AI Studio dopo "segnalazioni di non sviluppatori che tentavano di utilizzarli". Il colosso tecnologico ha riconosciuto che le allucinazioni e il servilismo (sycophancy) (la tendenza a compiancere sempre l'utente come obiettivo principale)rappresentano sfide per l'intero settore, particolarmente per i modelli aperti più piccoli come Gemma.

Ma il panorama delle conseguenze dannose causate dall'intelligenza artificiale si estende ben oltre la diffamazione. La scorsa settimana, Character.ai, una startup di chatbot molto popolare, ha vietato agli adolescenti di avere conversazioni aperte con i suoi bot. La decisione è arrivata dopo una serie di controversie drammatiche: un quattordicenne in Florida si è tolto la vita dopo essere diventato ossessionato da un chatbot potenziato dall'IA che, secondo la madre, lo aveva manipolato fino a spingerlo al suicidio. Un altro caso ha visto la famiglia di un adolescente intentare una causa legale negli Stati Uniti, sostenendo che un chatbot aveva manipolato il ragazzo portandolo all'autolesionismo e incoraggiandolo addirittura a uccidere i genitori.

Tornando all'analisi dei sistemi di valutazione, uno dei risultati più allarmanti emersi dalla ricerca riguarda l'uso delle stime di incertezza. Solo il 16% dei benchmark esaminati utilizza stime di incertezza o test statistici per dimostrare quanto sia probabile che una valutazione sia accurata – una percentuale che Bean ha definito "scioccante". In altri casi, quando i benchmark si propongono di valutare caratteristiche specifiche di un'IA come la sua "innocuità", il concetto stesso da esaminare risulta contestato o definito in modo vago, rendendo l'intera valutazione potenzialmente priva di significato.

Lo studio ha preso in esame benchmark ampiamente disponibili, ma le principali aziende di intelligenza artificiale dispongono anche di propri sistemi di valutazione interni che non sono stati oggetto di questa indagine. La ricerca si è concentrata sui test utilizzati per verificare se le nuove IA siano sicure, allineate agli interessi umani e in grado di raggiungere le capacità dichiarate in ambiti come ragionamento, matematica e programmazione – tutti domini in cui le aziende tecnologiche competono ferocemente, rilasciando modelli a un ritmo sempre più accelerato.

Le conclusioni dello studio evidenziano "un'urgente necessità di standard condivisi e migliori pratiche" nel settore. I punteggi risultanti dalle valutazioni attuali potrebbero essere, secondo i ricercatori, "irrilevanti o addirittura fuorvianti", minando così la validità delle affermazioni che le aziende tecnologiche fanno sui propri prodotti. In un momento in cui l'intelligenza artificiale viene integrata in sempre più aspetti della vita quotidiana, dalla ricerca di informazioni all'assistenza sanitaria, passando per l'educazione e i servizi finanziari, la mancanza di sistemi di controllo affidabili rappresenta un rischio sistemico che va ben oltre i singoli episodi di malfunzionamento.

Fonte dell'articolo: www.theguardian.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Scopri online la miglior offerta Sorgenia per la tua attività: ti basta la P.IVA
  • #2
    Il ragno delle Canarie che ha dimezzato il suo genoma
  • #3
    Windows 7 “mini” da 69 MB: geniale o inutile?
  • #4
    Nascita e morte del CD: la tecnologia che ha cambiato tutto
  • #5
    Allenarsi rallenta il cuore (e ti fa guadagnare anni)
  • #6
    Intel rilancia: AVX e AMX tornano con Nova Lake
Articolo 1 di 5
C'è chi è convinto che i large language model possano pensare
Un'analisi confronta il ragionamento CoT con i processi cognitivi umani e i risultati dei benchmark.
Immagine di C'è chi è convinto che i large language model possano pensare
Leggi questo articolo
Articolo 2 di 5
Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Dalle aule di Stanford ai laboratori Google, il nostro Grand Tour in Silicon Valley ha svelato il vero spirito della disruption AI. Abbiamo trovato una forte comunità italiana tra campus, startup e big tech: l'innovazione è qui.
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Leggi questo articolo
Articolo 3 di 5
Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Per la resilienza industriale, gli UPS trifase sono un pilastro contro i blackout. Evitano danni e fermi. Caratteristiche chiave: modularità, scalabilità e monitoraggio remoto.
Immagine di Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Leggi questo articolo
Articolo 4 di 5
Perché Alphabet trasforma i progetti moonshot in società indipendenti
L'interesse concreto nei progetti resta quando questi diventano aziende indipendenti.
Immagine di Perché Alphabet trasforma i progetti moonshot in società indipendenti
Leggi questo articolo
Articolo 5 di 5
25 strumenti AI per la creazione di contenuti e il marketing
Una guida analizza 25 strumenti IA per la creazione di contenuti, evidenziando una tendenza all'automazione accessibile che promette di abbassare la barriera d'ingresso al mercato.
Immagine di 25 strumenti AI per la creazione di contenuti e il marketing
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.