Entro il 2028, secondo le previsioni della società di ricerca Gartner, metà delle organizzazioni mondiali sarà costretta ad adottare un approccio zero-trust nella governance dei dati. La ragione? L'esplosione incontrollata di contenuti generati dall'intelligenza artificiale, che sta minacciando l'affidabilità stessa dei modelli linguistici di grandi dimensioni (LLM) su cui si basano gli strumenti di AI generativa. Una crisi di fiducia che rischia di compromettere la qualità delle decisioni aziendali e l'integrità dei dati su scala globale.
Il fenomeno si inserisce in un momento di investimenti massicci nell'intelligenza artificiale. Un sondaggio Gartner su chief information officer ed executive tecnologici rivela che l'84% prevede un aumento dei budget destinati all'AI generativa nel 2026. Ma questa corsa all'adozione nasconde un paradosso inquietante: più le aziende utilizzano strumenti AI per produrre contenuti, più questi stessi contenuti inquinano le fonti da cui i futuri modelli verranno addestrati.
Il rischio concreto è quello del cosiddetto "model crash", un collasso progressivo dell'accuratezza dei sistemi AI. I modelli linguistici vengono tradizionalmente addestrati su dati estratti dal web, libri, repository di codice e articoli di ricerca. Quando questi sistemi cominciano a essere allenati sugli output di AI precedenti, si innesca un circolo vizioso che allontana progressivamente le risposte dalla realtà fattuale. Una sorta di degenerazione informativa che potrebbe rendere inaffidabili decisioni aziendali strategiche basate su questi strumenti.
Wan Fui Chan, vicepresidente esecutivo di Gartner, sottolinea come la situazione richieda un cambio di paradigma radicale. Le aziende devono implementare sistemi di autenticazione e verifica dei dati, trattando ogni informazione come potenzialmente compromessa fino a prova contraria. Un approccio che ricorda le pratiche di cybersecurity zero-trust, dove nessun utente o sistema è considerato affidabile per default.
La questione assume anche una dimensione normativa. Chan avverte che i requisiti regolamentari per certificare dati "AI-free" si intensificheranno in determinate regioni, con approcci divergenti tra diverse giurisdizioni. Mentre alcune aree potrebbero imporre controlli rigorosi sui contenuti generati dall'AI, altre potrebbero adottare regolamentazioni più flessibili. Questa frammentazione normativa rappresenta una sfida aggiuntiva per le multinazionali che operano in mercati diversi.
La soluzione proposta da Gartner passa attraverso il rafforzamento delle pratiche di metadata management. Ogni dato dovrà essere catalogato, etichettato e tracciato con informazioni sulla sua origine e natura. Le organizzazioni dovranno investire in soluzioni tecnologiche capaci di identificare automaticamente contenuti generati dall'AI e in competenze specialistiche per la gestione della conoscenza aziendale.
Anche le implicazioni economiche sono rilevanti. Le aziende si troveranno a sostenere costi aggiuntivi per implementare sistemi di verifica, assumere personale specializzato e mantenere repository di dati certificati. Al tempo stesso, chi sviluppa strumenti di AI dovrà affrontare sfide crescenti nel reperire dataset di addestramento puliti e affidabili, con possibili aumenti dei costi di sviluppo e tempi di release più lunghi.
Resta aperta una questione fondamentale: questa corsa alla certificazione dei dati creerà nuove barriere all'entrata nel mercato dell'AI, favorendo ulteriormente i grandi player tecnologici che già dispongono di vasti archivi di dati pre-AI? E quali saranno le conseguenze per startup e piccole imprese che non possono permettersi infrastrutture costose di data governance? La democratizzazione dell'intelligenza artificiale rischia paradossalmente di trasformarsi nel suo opposto.