L'intelligenza artificiale sta impattando in una certa misura il mondo delle revisioni scientifiche, non sempre in modo positivo. Un'analisi condotta da Pangram Labs, azienda newyorkese specializzata nel rilevamento di testi generati da AI, ha scoperto che circa il 21% delle revisioni peer review inviate per la Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento (ICLR) del 2026 sono state create interamente da chatbot. Una percentuale ancora più preoccupante emerge se si considera che oltre la metà delle 75.800 revisioni esaminate mostra segni evidenti di utilizzo di intelligenza artificiale.
La questione è emersa in modo clamoroso sui social media, dove decine di accademici hanno iniziato a esprimere perplessità sui feedback ricevuti per i loro manoscritti. Le segnalazioni riguardavano elementi sospetti come citazioni inesistenti generate dall'AI, commenti eccessivamente lunghi e vaghi, nonché richieste di analisi statistiche inusuali per questo tipo di ricerche. Graham Neubig, ricercatore di intelligenza artificiale presso la Carnegie Mellon University di Pittsburgh, è stato tra i primi a sollevare il problema pubblicamente.
Neubig ha ricevuto revisioni caratterizzate da uno stile "estremamente verboso con numerosi elenchi puntati", che richiedevano analisi diverse da quelle normalmente richieste nelle pubblicazioni scientifiche di machine learning. Tuttavia, dimostrare che queste recensioni fossero state generate da modelli linguistici di grandi dimensioni (LLM) era tutt'altro che semplice. La svolta è arrivata quando il ricercatore ha lanciato un appello su X, l'ex Twitter, offrendo una ricompensa a chiunque potesse analizzare sistematicamente tutte le submission della conferenza.
Max Spero, amministratore delegato di Pangram Labs, ha risposto all'appello in meno di 24 ore. La sua azienda ha sviluppato strumenti specifici per identificare testi prodotti o modificati da intelligenza artificiale. Nel giro di dodici ore, il team ha scritto il codice necessario per analizzare tutti i 19.490 studi e le relative revisioni inviate per l'ICLR 2026, che si terrà a Rio de Janeiro in aprile e che vedrà la partecipazione di oltre 11.000 ricercatori specializzati in AI.
I risultati dell'analisi hanno rivelato una situazione ancora più complessa di quanto inizialmente sospettato. Oltre alle 15.899 revisioni completamente generate da AI, l'indagine ha identificato problematiche anche tra i manoscritti sottomessi: 199 articoli scientifici (l'1% del totale) sono risultati interamente prodotti da intelligenza artificiale, mentre il 9% conteneva più del 50% di testo generato automaticamente. Solo il 61% delle submission era prevalentemente scritto da esseri umani.
Desmond Elliott, informatico dell'Università di Copenaghen, ha vissuto in prima persona questa situazione frustrante. Una delle tre revisioni ricevute per il suo articolo sembrava aver completamente frainteso il senso della ricerca. Il suo dottorando, che aveva guidato il lavoro, aveva subito intuito che potesse trattarsi di un testo generato da LLM, notando risultati numerici errati e espressioni linguistiche anomale. Quando Pangram ha pubblicato i suoi risultati, Elliott racconta di aver immediatamente cercato il titolo del suo articolo nel database: "Volevo sapere se l'istinto del mio studente fosse corretto".
La revisione sospetta, effettivamente identificata da Pangram come completamente generata da AI, aveva assegnato al manoscritto il punteggio più basso, lasciandolo "in bilico tra accettazione e rifiuto". Per Elliott si tratta di una situazione "profondamente frustrante", che evidenzia come l'uso indiscriminato dell'intelligenza artificiale nella revisione scientifica possa avere conseguenze concrete sulla carriera dei ricercatori e sulla qualità della produzione scientifica.
Bharath Hariharan, informatico della Cornell University di Ithaca e coordinatore senior del programma ICLR 2026, ha ammesso che questa è la prima volta che la conferenza deve affrontare il problema su questa scala. Gli organizzatori hanno annunciato che utilizzeranno strumenti automatizzati per valutare se le submission e le revisioni violano le politiche sull'uso dell'AI. L'obiettivo, secondo Hariharan, è ristabilire un clima di fiducia nel processo di revisione scientifica.
Il caso solleva interrogativi importanti sul futuro della peer review, pilastro del metodo scientifico. Mentre l'intelligenza artificiale può offrire supporto in diverse fasi della ricerca, il suo utilizzo massivo e spesso non dichiarato nelle revisioni rischia di compromettere l'integrità del processo di validazione scientifica. Pangram Labs ha descritto il proprio modello di rilevamento in un preprint sottomesso proprio all'ICLR 2026, e paradossalmente l'analisi ha rivelato che una delle quattro revisioni ricevute per questo articolo era completamente generata da AI, mentre un'altra mostrava segni di editing automatico.