I sistemi di Intelligenza Artificiale hanno bisogno di dati, quantità enormi di informazioni. Ma i dati stanno finendo - anzi in certi scenari sono finiti da un pezzo. Lo ha confermato anche Neema Raphael, chief data officer di Goldman Sachs, in una recente intervista.
Una scarsità che può diventare un problema enorme, a cui si sta cercando di rispondere con i dati sintetici. Una strategia a cui crede anche Nvidia, che a marzo 2025 ha comprato una startup che si occupa proprio di dati sintetici.
Raphael ha citato DeepSeek come caso emblematico, suggerendo che i suoi costi di sviluppo contenuti potrebbero derivare dall'aver addestrato il sistema utilizzando gli output di modelli esistenti piuttosto che dati completamente nuovi. "Quello che trovo davvero interessante è come i modelli precedenti plasmeranno l'aspetto della prossima iterazione del mondo", ha osservato l'esperto di Goldman Sachs.
Questo approccio offre una fornitura teoricamente illimitata, ma comporta il rischio concreto di sommergere i modelli con contenuti di bassa qualità o quello che gli addetti ai lavori chiamano "AI slop".
AI Slop: L'espressione "AI Slop" definisce contenuti di bassa qualità, spesso privi di originalità e accuratezza, generati in massa da sistemi di intelligenza artificiale. Questa "sbobba" digitale, che include testi, immagini e video, viene creata con minimo sforzo per inondare il web, peggiorando l'esperienza online e inquinando i risultati dei motori di ricerca.
Ma se i modelli si alimentano di questa robaccia e la usano per creare dati sintetici, è difficile immaginare che i nuovi dati possano andare verso un miglioramento. Più realisticamente, si andranno a generare dataset sempre peggiori.
La miniera d'oro dei dati aziendali
Raphael non considera la carenza di dati freschi come un ostacolo insormontabile. Il motivo risiede nelle riserve non sfruttate di informazioni che le aziende custodiscono nei propri archivi. "Dal punto di vista del mondo consumer, siamo definitivamente nell'esplosione dei dati sintetici. Ma dalla prospettiva enterprise, penso ci sia ancora molto succo da spremere", ha spiegato.
La vera frontiera potrebbe quindi non essere più l'internet aperto, ma i dataset proprietari delle corporations. Dai flussi di trading alle interazioni con i clienti, aziende come Goldman Sachs siedono su montagne di informazioni che, se sfruttate correttamente, potrebbero rendere gli strumenti AI enormemente più preziosi.
Le osservazioni di Raphael si inseriscono nel dibattito più ampio sul concetto di "peak data" che agita l'industria da quando ChatGPT ha fatto il suo debutto tre anni fa. A gennaio, Ilya Sutskever, cofondatore di OpenAI, aveva già lanciato un avvertimento simile durante una conferenza, sostenendo che tutti i dati utili online erano già stati utilizzati per addestrare i modelli esistenti.
"Il problema è comprendere i dati, comprendere il contesto business dei dati, e poi essere in grado di normalizzarli in modo che abbia senso per l'azienda consumarli", ha precisato Raphael.
Da tenere in considerazione, poi, che ogni azienda ha i suoi dati, e nessuno vorrà condividerli con il mercato. Sono uno degli asset più preziosi dopotutto, spesso e volentieri tutto ciò che permette a un'organizzazione di di differenziarsi rispetto ai suoi competitor.
Raphael ha poi posto una domanda: cosa accadrebbe se i modelli continuassero ad addestrarsi esclusivamente su contenuti generati dalle macchine? "Se tutti i dati sono generati sinteticamente, quanto dato umano potrebbe poi essere incorporato?", si è chiesto.
L'esperto di Goldman Sachs ha suggerito che potremmo assistere a quello che ha definito un "plateau creativo", una fase in cui l'innovazione rallenta a causa della qualità decrescente dei dati di addestramento.