Il panorama dei modelli linguistici di grandi dimensioni si trova sotto scrutinio per la loro capacità di riconoscere e contrastare contenuti antisemiti ed estremisti. Un nuovo studio pubblicato dall'Anti-Defamation League ha messo a confronto sei dei principali LLM sul mercato, rivelando profonde differenze nelle loro prestazioni quando si tratta di gestire narrazioni d'odio. I risultati evidenziano come l'approccio di ciascun produttore ai sistemi di sicurezza e alle misure di moderazione si traduca in esperienze utente radicalmente diverse.
La ricerca ha coinvolto Grok di xAI, ChatGPT di OpenAI, Llama di Meta, Claude di Anthropic, Gemini di Google e DeepSeek, sottoponendo ciascun modello a oltre 4.000 conversazioni per un totale superiore a 25.000 interazioni. I modelli sono stati testati con tre categorie di contenuti definite dall'ADL: dichiarazioni "anti-ebraiche", "anti-sioniste" ed "estremiste", attraverso diverse tipologie di prompt che includevano domande dirette, richieste di argomentazioni bilanciate e analisi di immagini e documenti contenenti ideologie d'odio.
La metodologia ha previsto una valutazione su scala da 0 a 100, assegnando i punteggi più alti ai modelli capaci non solo di identificare contenuti dannosi ma anche di fornire spiegazioni articolate sul perché determinate affermazioni risultino problematiche. Claude di Anthropic ha dominato la classifica con un punteggio complessivo di 80, dimostrando particolare efficacia nel riconoscere dichiarazioni anti-ebraiche con un impressionante 90 su 100. La categoria più impegnativa per tutti i modelli si è rivelata quella dei contenuti estremisti generici, dove anche il leader Claude ha ottenuto "solo" 62 punti.
ChatGPT si è posizionato al secondo posto, seguito da DeepSeek, Gemini e Llama. All'ultimo posto della graduatoria figura Grok con un punteggio di appena 21 punti, evidenziando uno scarto di 59 punti rispetto al primo classificato. Il modello di xAI ha mostrato debolezze particolarmente critiche nell'analisi di documenti e immagini, registrando punteggi pari a zero in diverse combinazioni di categoria e formato di domanda. Secondo il rapporto ADL, Grok "necessita di miglioramenti fondamentali su più dimensioni prima di poter essere considerato utile per applicazioni di rilevamento di bias".
Le prestazioni particolarmente deboli di Grok nelle conversazioni multi-turno indicano che il modello fatica a mantenere il contesto e identificare pregiudizi in dialoghi estesi, una limitazione significativa per applicazioni come chatbot aziendali o servizi di assistenza clienti. L'incapacità quasi totale nell'analisi di immagini solleva inoltre preoccupazioni sull'utilizzo del modello per moderazione di contenuti visivi, rilevamento di meme d'odio o identificazione di discorsi d'odio basati su immagini.
Non è la prima volta che Grok finisce sotto i riflettori per risposte problematiche. Dopo un aggiornamento dichiarato per rendere il modello più "politicamente scorretto", Grok ha risposto alle domande degli utenti con tropi antisemiti e si è autodefinito "MechaHitler". Il proprietario di X, Elon Musk, ha personalmente avallato la teoria della "grande sostituzione" antisemita, che sostiene che "élite liberali" stiano "sostituendo" bianchi con immigrati destinati a votare per i Democratici. Musk ha anche attaccato pubblicamente l'ADL definendola un "gruppo d'odio", accusa che ha portato l'organizzazione a rimuovere un intero glossario sull'estremismo.
Lo studio include esempi concreti di risposte "buone" e "problematiche" raccolte dai vari chatbot. DeepSeek, ad esempio, ha correttamente rifiutato di fornire argomentazioni a sostegno della negazione dell'Olocausto, ma ha successivamente offerto punti di discussione che affermavano come "individui ebrei e reti finanziarie abbiano svolto un ruolo significativo e storicamente sottovalutato nel sistema finanziario americano", dimostrando incoerenze nella moderazione dei contenuti.
Daniel Kelley, direttore senior del Center for Technology and Society dell'ADL, ha spiegato la scelta editoriale di enfatizzare le performance positive di Claude piuttosto che concentrarsi sui fallimenti di Grok: "Abbiamo deliberatamente scelto di evidenziare un modello AI che ha dimostrato prestazioni solide nel rilevare e contrastare antisemitismo ed estremismo. Volevamo mostrare cosa sia possibile quando le aziende investono in misure di sicurezza e prendono seriamente questi rischi, piuttosto che centrare la narrazione sui modelli con peggiori prestazioni".
Le problematiche di Grok si estendono oltre contenuti razzisti e antisemiti. Il modello è stato utilizzato per creare immagini deepfake non consensuali di donne e bambini, con stime del New York Times che indicano la produzione di 1,8 milioni di immagini sessualizzate di donne in pochi giorni.