L'intelligenza artificiale sta rapidamente trasformando uno dei pilastri fondamentali del metodo scientifico: la revisione tra pari. Un'indagine condotta dalla casa editrice Frontiers su circa 1.600 ricercatori distribuiti in 111 paesi rivela che oltre la metà degli scienziati utilizza ormai strumenti di AI durante il processo di peer review, una pratica che solleva interrogativi profondi sulla confidenzialità, l'integrità intellettuale e il futuro stesso della validazione scientifica. La diffusione di modelli linguistici come ChatGPT ha reso accessibili tecnologie che possono analizzare manoscritti, identificare lacune metodologiche e persino redigere rapporti di valutazione, ma spesso in violazione delle linee guida stabilite dagli editori.
I risultati dell'indagine, pubblicati l'11 dicembre dalla società editoriale con sede a Losanna, mostrano che quasi un quarto dei ricercatori intervistati ha intensificato l'utilizzo dell'intelligenza artificiale nella revisione dei manoscritti nell'ultimo anno. Secondo Elena Vicario, direttrice dell'integrità della ricerca presso Frontiers, questi dati confermano ciò che molti sospettavano: "È importante confrontarsi con la realtà che le persone stanno usando l'AI nelle attività di peer review", anche se tale utilizzo avviene spesso in contraddizione con le raccomandazioni delle case editrici che vietano di caricare manoscritti non pubblicati su piattaforme di terze parti.
L'analisi delle modalità d'uso rivela un quadro articolato: tra i revisori che impiegano strumenti di intelligenza artificiale, il 59% li utilizza per redigere i propri rapporti di valutazione, mentre il 29% se ne serve per sintetizzare il contenuto del manoscritto, identificare lacune metodologiche o verificare le referenze bibliografiche. Un ulteriore 28% degli intervistati sfrutta l'AI per individuare potenziali segnali di cattiva condotta scientifica, come plagio o duplicazione di immagini. Queste pratiche si inseriscono in un contesto in cui la maggior parte degli editori, inclusa Frontiers, consente un uso limitato dell'intelligenza artificiale nella peer review, ma richiede ai revisori di dichiararlo esplicitamente.
Le preoccupazioni relative alla confidenzialità e alla protezione della proprietà intellettuale degli autori hanno spinto la maggior parte degli editori a vietare categoricamente il caricamento di manoscritti inediti su siti web di chatbot. Per rispondere a questa "nuova realtà", come definita nel rapporto dell'indagine, Frontiers ha lanciato una piattaforma AI interna per i revisori di tutte le sue riviste. "L'AI dovrebbe essere utilizzata nella peer review in modo responsabile, con linee guida molto chiare, con responsabilità umana e con la giusta formazione", sottolinea Vicario.
Non tutti gli editori concordano sull'entità del fenomeno. Un portavoce di Wiley, casa editrice con sede a Hoboken nel New Jersey, ha dichiarato che un'indagine simile condotta dalla loro società quest'anno ha rilevato che "i ricercatori hanno un interesse e una fiducia relativamente bassi nei casi d'uso dell'AI per la peer review". Tuttavia, Wiley riconosce che gli editori possono e devono "comunicare proattivamente e in modo robusto le migliori pratiche, in particolare i requisiti di divulgazione che rafforzano la trasparenza per supportare un uso responsabile dell'AI".
Mohammad Hosseini, ricercatore specializzato in etica e integrità della ricerca presso la Northwestern University Feinberg School of Medicine di Chicago, considera l'indagine di Frontiers "un buon tentativo di valutare l'accettabilità dell'uso dell'AI nella peer review e la prevalenza del suo utilizzo in diversi contesti". La questione ha spinto alcuni scienziati a condurre esperimenti indipendenti per verificare l'affidabilità di questi strumenti.
Un caso emblematico è quello di Mim Rahimi, ingegnere dell'Università di Houston in Texas, che il mese scorso ha sottoposto a un test rigoroso il modello linguistico GPT-5. Rahimi ha chiesto all'AI di revisionare un articolo che aveva co-firmato su Nature Communications, utilizzando quattro configurazioni diverse: da prompt basilari senza contesto aggiuntivo fino a impostazioni complesse che fornivano al modello articoli di letteratura scientifica per valutare la novità e il rigore della ricerca. Confrontando gli output generati dall'intelligenza artificiale con le revisioni reali ricevute dalla rivista, l'esperimento ha rivelato limiti significativi: sebbene GPT-5 potesse imitare la struttura di un rapporto di peer review e utilizzare un linguaggio sofisticato, non riusciva a fornire feedback costruttivi e commetteva errori fattuali. Paradossalmente, le impostazioni più complesse hanno prodotto le revisioni più deboli.
Un altro studio ha confermato che le revisioni generate dall'AI su 20 manoscritti tendevano a corrispondere a quelle umane in termini generali, ma risultavano carenti nell'offrire critiche dettagliate e specifiche. Come conclude Rahimi dopo il suo esperimento, gli strumenti di intelligenza artificiale "potrebbero fornire alcune informazioni, ma se qualcuno si affidasse solo a quelle informazioni, sarebbe molto dannoso".