L'intelligenza artificiale sta infiltrando uno dei pilastri fondamentali della scienza moderna: il processo di revisione tra pari. Un'analisi condotta su quasi 76.000 revisioni scientifiche destinate alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento (ICLR) del 2026, uno degli eventi più prestigiosi nel campo del machine learning, ha rivelato che circa il 21% delle valutazioni erano state generate interamente da chatbot basati su modelli linguistici di grandi dimensioni. Il dato ancora più allarmante è che oltre la metà delle revisioni mostrava tracce inequivocabili di intervento algoritmico, sollevando interrogativi cruciali sull'affidabilità del peer review nell'era dell'intelligenza artificiale generativa.
La scoperta è emersa grazie all'intuizione di Graham Neubig, ricercatore specializzato in intelligenza artificiale presso la Carnegie Mellon University di Pittsburgh, in Pennsylvania. Neubig aveva ricevuto valutazioni dei suoi manoscritti che presentavano caratteristiche anomale: testi prolissi, elenchi puntati eccessivi e richieste di analisi statistiche inusuali per il campo dell'apprendimento automatico. Sospettando l'intervento di algoritmi generativi ma mancando di prove concrete, Neubig ha lanciato un appello sulla piattaforma X offrendo una ricompensa a chiunque fosse riuscito a scansionare sistematicamente tutte le sottomissioni alla conferenza per identificare contenuti prodotti artificialmente.
La risposta è arrivata da Max Spero, amministratore delegato di Pangram Labs, azienda newyorkese specializzata nello sviluppo di strumenti per rilevare testi generati da intelligenza artificiale. In sole dodici ore, il team di Pangram ha elaborato un codice capace di analizzare l'intero corpus di 19.490 studi scientifici e 75.800 revisioni sottomessi per ICLR 2026, che si terrà a Rio de Janeiro nell'aprile prossimo. L'algoritmo sviluppato da Pangram valuta la probabilità che un testo sia stato generato o modificato da modelli linguistici di grandi dimensioni, una metodologia descritta in un preprint sottoposto dagli stessi sviluppatori alla conferenza.
I risultati dell'indagine hanno confermato i sospetti diffusi nella comunità scientifica. Tra le revisioni esaminate, 15.899 sono state classificate come completamente generate da intelligenza artificiale, mentre più della metà presentava segni di assistenza algoritmica. L'analisi non si è limitata alle valutazioni: anche i manoscritti sottoposti hanno mostrato percentuali significative di contenuto artificiale. L'1% delle ricerche era stato redatto interamente da algoritmi, mentre il 9% conteneva oltre il 50% di testo generato da AI. Solo il 61% delle sottomissioni risultava principalmente di origine umana.
Per molti ricercatori coinvolti, l'analisi di Pangram ha fornito la conferma oggettiva di intuizioni preesistenti. Desmond Elliott, informatico dell'Università di Copenaghen, aveva ricevuto tre valutazioni per un suo manoscritto, una delle quali sembrava non cogliere il punto centrale della ricerca. Il suo dottorando, che aveva guidato lo studio, aveva sospettato l'uso di modelli linguistici generativi a causa di riferimenti errati ai dati numerici del manoscritto e di espressioni linguistiche anomale. Quando Pangram ha pubblicato i risultati, Elliott ha immediatamente verificato: la revisione sospetta era stata classificata come completamente generata da intelligenza artificiale e aveva assegnato al lavoro la valutazione più bassa, collocandolo in una posizione critica tra accettazione e rigetto.
Il fenomeno solleva questioni metodologiche fondamentali sulla qualità del processo di revisione. Le valutazioni prodotte algoritmicamente tendono a manifestare caratteristiche distintive: citazioni inesistenti generate per allucinazione algoritmica, feedback eccessivamente generici e prolissi, mancanza di comprensione profonda degli aspetti metodologici specifici. Questi elementi compromettono la funzione essenziale del peer review, che dovrebbe garantire il controllo qualitativo della ricerca scientifica attraverso l'esame critico di esperti del settore.
Bharath Hariharan, informatico della Cornell University di Ithaca e responsabile senior del programma scientifico per ICLR 2026, ha confermato che gli organizzatori della conferenza utilizzeranno strumenti automatizzati per verificare se sottomissioni e revisioni abbiano violato le politiche sull'uso dell'intelligenza artificiale. Si tratta della prima volta che la conferenza affronta questa problematica su scala sistematica. Dopo aver completato questo processo di verifica, avremo una migliore nozione di fiducia, ha dichiarato Hariharan, riconoscendo implicitamente che l'integrità del sistema di valutazione è stata messa in discussione.
L'ironia della situazione non sfugge agli osservatori: una conferenza dedicata all'apprendimento automatico si trova a dover combattere l'uso improprio delle stesse tecnologie che celebra. La questione evidenzia una tensione crescente nella comunità scientifica tra l'adozione di strumenti di intelligenza artificiale come supporto alla produttività intellettuale e la necessità di preservare l'autenticità, la competenza e la responsabilità individuale nel processo di valutazione scientifica. Il dibattito rimane aperto su dove tracciare il confine tra assistenza legittima e delega inappropriata del giudizio critico agli algoritmi.
Le prospettive future richiedono lo sviluppo di linee guida chiare sull'uso accettabile dell'intelligenza artificiale nel peer review, accompagnate da strumenti di rilevazione sempre più sofisticati. La comunità scientifica dovrà affrontare domande cruciali: l'assistenza algoritmica nella redazione di revisioni può essere accettabile se dichiarata esplicitamente? Come garantire che il giudizio critico rimanga fondamentalmente umano? E soprattutto: in un'epoca in cui l'intelligenza artificiale pervade ogni aspetto della ricerca, come preservare l'integrità di quel processo di validazione collettiva che da secoli costituisce il fondamento della conoscenza scientifica?