La rivoluzione dell'intelligenza artificiale nel mondo scientifico ha raggiunto un punto critico che solleva interrogativi fondamentali sulla qualità dell'informazione. Mentre governi e industrie investono milioni di dollari in strumenti AI destinati alla ricerca scientifica, emerge un problema inaspettato: i chatbot più avanzati continuano a citare e utilizzare documenti scientifici già ritrattati dalla comunità accademica. Questa scoperta, rivelata da studi recenti e confermata da test indipendenti, mette in discussione l'affidabilità degli strumenti AI nell'era dell'informazione scientifica digitale.
Il test che ha svelato le lacune dell'AI
Il team di ricerca guidato da Weikuan Gu dell'Università del Tennessee ha condotto un esperimento rivelatore utilizzando ChatGPT-4o di OpenAI. I ricercatori hanno sottoposto al sistema domande basate su 21 studi scientifici ritrattati nel campo dell'imaging medico. I risultati sono stati preoccupanti: in cinque casi il chatbot ha fatto riferimento a questi documenti screditati, ma ha mostrato cautela solo in tre occasioni, suggerendo una mancanza di riconoscimento sistematico dello status di ritrattazione.
Un secondo studio condotto ad agosto ha amplificato queste preoccupazioni. Utilizzando ChatGPT-4o mini per valutare 217 articoli ritrattati o di bassa qualità provenienti da diversi campi scientifici, i ricercatori hanno scoperto che nessuna delle risposte del chatbot menzionava le ritrattazioni o altre problematiche metodologiche.
L'ecosistema degli strumenti AI per la ricerca
Il problema si estende ben oltre ChatGPT, coinvolgendo l'intero panorama degli strumenti AI specializzati per la ricerca. Test condotti da MIT Technology Review su piattaforme come Elicit, Ai2 ScholarQA, Perplexity e Consensus hanno rivelato una diffusa incapacità di identificare documenti ritrattati. Ai2 ScholarQA ha citato 17 dei 21 articoli ritrattati testati, Consensus 18, mentre Perplexity ne ha referenziato 11, tutti senza alcuna indicazione del loro status problematico.
La situazione diventa particolarmente critica considerando l'uso crescente di questi strumenti. Studenti e ricercatori si affidano sempre più spesso all'AI per rivedere la letteratura scientifica esistente e riassumere documenti accademici. Il pubblico generale utilizza chatbot AI per ottenere consigli medici e diagnosi, mentre la National Science Foundation statunitense ha investito 75 milioni di dollari solo ad agosto per sviluppare modelli AI destinati alla ricerca scientifica.
Le sfide tecniche dietro il problema
Ivan Oransky, cofondatore di Retraction Watch - il principale database di articoli ritrattati - sottolinea la complessità intrinseca del problema. Creare un database completo richiederebbe risorse che nessuno possiede attualmente, poiché ogni voce deve essere verificata manualmente per garantire accuratezza. Inoltre, gli editori non seguono approcci uniformi per segnalare le ritrattazioni: termini come "correzione", "espressione di preoccupazione", "erratum" e "ritrattato" vengono utilizzati in modo inconsistente.
La frammentazione della distribuzione scientifica complica ulteriormente la situazione. Gli articoli vengono distribuiti su server di preprint, repository e siti web diversi, creando copie sparse nella rete. I dati utilizzati per addestrare i modelli AI potrebbero non essere aggiornati, e se un articolo viene ritrattato dopo la data limite dell'addestramento, le risposte del modello potrebbero non riflettere immediatamente questi cambiamenti.
Primi segnali di miglioramento
Alcune aziende hanno iniziato a rispondere a queste critiche. Christian Salem, cofondatore di Consensus, ha ammesso che fino a poco tempo fa la loro piattaforma non disponeva di dati di ritrattazione affidabili. L'azienda ha ora implementato un sistema che combina fonti multiple, inclusi editori, aggregatori di dati e Retraction Watch. In un test condotto ad agosto, Consensus ha citato solo cinque degli articoli ritrattati precedentemente referenziati.
Elicit ha comunicato di rimuovere attivamente gli articoli ritrattati segnalati da OpenAlex dal proprio database, mentre continua a lavorare sull'aggregazione di fonti di ritrattazione. Tuttavia, Ai2 ha riconosciuto che il suo strumento attualmente non rileva automaticamente gli articoli ritrattati.
Verso una soluzione sistemica
Gli esperti propongono approcci più sofisticati per affrontare questa sfida. Yuanxi Fu dell'Università dell'Illinois suggerisce che le aziende dovrebbero utilizzare più efficacemente le informazioni contestuali disponibili, come le recensioni peer commissionate dalle riviste e le critiche da siti come PubPeer. Molti editori, tra cui Nature e BMJ, pubblicano già avvisi di ritrattazione come articoli separati collegati al documento originale, rendendoli accessibili oltre i paywall.