L'intelligenza artificiale applicata alla diagnostica oncologica sta rivelando un problema inaspettato che mette in discussione uno dei principi fondamentali della patologia: l'oggettività dell'analisi dei tessuti. Un nuovo studio condotto da ricercatori della Harvard Medical School ha dimostrato che i sistemi di IA utilizzati per identificare tumori dalle immagini istologiche non garantiscono la stessa accuratezza diagnostica per tutti i pazienti, mostrando disparità significative legate a caratteristiche demografiche come etnia, sesso ed età. La scoperta solleva interrogativi cruciali sull'equità nell'accesso a cure oncologiche di qualità e sulla necessità di implementare controlli sistematici per prevenire discriminazioni algoritmiche in ambito medico.
Per decenni, la patologia ha rappresentato il pilastro diagnostico della medicina oncologica. Il patologo esamina sezioni sottilissime di tessuto umano al microscopio, cercando indizi visivi che rivelino la presenza, il tipo e lo stadio di un eventuale tumore. Questa analisi è stata sempre considerata intrinsecamente oggettiva: la disposizione delle cellule, le loro caratteristiche morfologiche e i pattern tissutali dovrebbero fornire informazioni sulla malattia indipendentemente dall'identità del paziente. Come spiega efficacemente Kun-Hsing Yu, professore associato di informatica biomedica presso il Blavatnik Institute dell'HMS e coautore senior dello studio, "leggere informazioni demografiche da una sezione istologica è considerata una 'missione impossibile' per un patologo umano, quindi il bias nell'IA patologica è stato per noi una sorpresa".
Il team di ricerca ha sottoposto a verifica quattro modelli di intelligenza artificiale basati su deep learning, attualmente in fase di sviluppo per applicazioni diagnostiche oncologiche. Questi sistemi vengono addestrati su ampie collezioni di immagini istologiche etichettate, imparando a riconoscere pattern biologici da applicare successivamente a nuovi campioni. La valutazione è stata condotta utilizzando un dataset multi-istituzionale che comprendeva vetrini patologici relativi a 20 diversi tipi di cancro, garantendo una rappresentatività clinica significativa. I risultati, pubblicati il 16 dicembre sulla rivista Cell Reports Medicine, hanno rivelato disparità consistenti nelle performance diagnostiche.
Le discrepanze emerse dall'analisi sono state sia sistematiche che preoccupanti. I modelli di IA hanno mostrato accuratezza ridotta nell'identificare sottotipi di cancro polmonare in pazienti afroamericani e di sesso maschile. Analogamente, la classificazione dei sottotipi di carcinoma mammario risultava meno precisa nelle pazienti più giovani. Le difficoltà diagnostiche si estendevano anche al rilevamento di tumori della mammella, renali, tiroidei e gastrici in specifici gruppi demografici. Complessivamente, queste disparità sono emerse in circa il 29% delle attività diagnostiche analizzate, una percentuale che rappresenta un problema clinico rilevante considerando l'impatto potenziale sulle decisioni terapeutiche.
L'indagine condotta dal team di Yu ha identificato tre meccanismi principali alla base di questi bias algoritmici. Il primo fattore riguarda lo sbilanciamento dei dati di addestramento: i campioni tissutali sono più facilmente ottenibili da alcuni gruppi demografici rispetto ad altri, creando dataset non rappresentativi della reale diversità della popolazione oncologica. Questo fenomeno riflette disuguaglianze preesistenti nell'accesso alle cure e nella partecipazione alla ricerca clinica. Tuttavia, come sottolinea Yu, "il problema si è rivelato molto più profondo di questo": in diversi casi, i modelli hanno mostrato performance inferiori per determinati gruppi anche quando le dimensioni campionarie erano comparabili.
Il secondo meccanismo identificato riguarda le differenze nell'incidenza delle malattie oncologiche tra popolazioni diverse. Alcuni tumori si manifestano con frequenza significativamente maggiore in specifici gruppi demografici, permettendo ai sistemi di IA di sviluppare particolare accuratezza diagnostica per quelle popolazioni. Di conseguenza, gli stessi modelli possono risultare meno affidabili nell'identificare neoplasie meno comuni in altri gruppi. Questa asimmetria rappresenta un circolo vizioso: le popolazioni già sottodiagnosticate rischiano di beneficiare meno dei progressi offerti dall'intelligenza artificiale.
Il terzo e più sorprendente meccanismo coinvolge la capacità dei sistemi di IA di rilevare differenze molecolari sottili tra gruppi demografici. I modelli possono identificare mutazioni nei geni driver del cancro e utilizzarle come scorciatoie classificative, riducendo l'accuratezza nelle popolazioni dove tali mutazioni sono meno prevalenti. "Abbiamo scoperto che, proprio perché l'IA è così potente, può differenziare molti segnali biologici oscuri che non possono essere rilevati dalla valutazione umana standard", spiega Yu. Nel tempo, questo fenomeno porta i modelli a concentrarsi su segnali più strettamente correlati alle caratteristiche demografiche che alla malattia stessa, compromettendo le performance diagnostiche nella diversità dei pazienti.
Per affrontare questi problemi, il team ha sviluppato FAIR-Path, un framework basato sul contrastive learning, una metodologia di machine learning che modifica l'addestramento dei modelli di IA. L'approccio induce i sistemi a concentrarsi più intensamente sulle distinzioni critiche, come le differenze tra tipi tumorali, riducendo l'attenzione verso caratteristiche meno rilevanti dal punto di vista diagnostico, incluse quelle demografiche. Quando applicato ai modelli testati, FAIR-Path ha ridotto le disparità diagnostiche di circa l'88%, un risultato che dimostra la possibilità di miglioramenti sostanziali senza necessità di ricostruire completamente i sistemi esistenti.
La significatività di questo successo risiede nella sua praticabilità: come evidenzia Yu, "dimostriamo che apportando questa piccola modifica, i modelli possono apprendere caratteristiche robuste che li rendono più generalizzabili e più equi tra diverse popolazioni". Il risultato è particolarmente incoraggiante perché suggerisce che riduzioni significative del bias sono possibili anche senza disporre di dataset di addestramento perfettamente bilanciati o completamente rappresentativi, una condizione difficile da raggiungere nella pratica clinica reale.
Il team di Yu sta ora collaborando con istituzioni a livello globale per studiare il bias nell'IA patologica in regioni con diversi profili demografici, pratiche cliniche e contesti laboratoristici. Un altro ambito di ricerca riguarda l'adattamento di FAIR-Path a situazioni con disponibilità limitata di dati, una sfida particolarmente rilevante per centri in paesi in via di sviluppo o per tumori rari. I ricercatori stanno inoltre esplorando come il bias algoritmico contribuisca alle disparità più ampie nell'assistenza sanitaria e negli esiti clinici dei pazienti oncologici. L'obiettivo finale, conclude Yu, è sviluppare sistemi di IA patologica che supportino gli esperti umani fornendo diagnosi rapide, accurate ed eque per tutti i pazienti: "Credo ci sia speranza che, se siamo più consapevoli e attenti nel modo in cui progettiamo i sistemi di IA, possiamo costruire modelli che funzionino bene in ogni popolazione".