Cos’è la “Cognitive AI”, il futuro dell’intelligenza artificiale

Cerchiamo di capire cos'è la "Cognitive AI" o IA cognitiva, l'intelligenza artificiale del futuro che soppianterà quella attuale.

Avatar di Andrea Ferrario

a cura di Andrea Ferrario

Editor in Chief

Il concetto di intelligenza artificiale per molti è ancora qualcosa di astratto, mentre per altri è addirittura un modo sbagliato di chiamare alcune funzioni e facoltà di certi dispositivi, perché “non è intelligenza, ma è semplicemente un algoritmo che viene eseguito”.

In realtà solo la prima onda di dispositivi AI poteva ricadere in quest’ultima definizione, perché già a partire dalla seconda, quella che sfrutta Machine e Deep Learning e che stiamo vivendo in questi anni, è qualcosa di più. Mentre la terza onda, quella rappresentata proprio dall’intelligenza artificiale cognitiva, è qualcosa che va decisamente oltre e che porterà i sistemi informatici a essere in grado di aggiungere quegli ingredienti propri degli esseri umani, permettendo a un computer di fare un “ragionamento” che non sarà basato solo su dati statistici.

È chiaramente un argomento difficile da trattare, non tanto per una questione tecnica (che non tratteremo in questa sede), quanto piuttosto perché è qualcosa di talmente lontano da quello a cui siamo abituati che il solo immaginarlo e comprenderlo necessita uno sforzo non indifferente. L'articolo di oggi (e il video che trovate in calce) sono frutto di una chiacchierata che ho fatto con con Gadi Singer, Direttore dei progetti legati all’intelligenza artificiale all’interno degli Intel Labs, in cui si sta chiaramente lavorando a vari progetti legati all’AI.

L’attuale intelligenza artificiale

Attualmente, quando si parla di AI si parla di Machine Learning, Deep Learning e Reti Neurali. In breve, un’intelligenza artificiale attuale è molto brava in compiti come il riconoscimento di oggetti, umani, animali e immagini in generale: un’AI correttamente allenata è in grado di capire che cosa c’è in un’immagine che le viene proposta. È brava inoltre nel riconoscimento del linguaggio, di conseguenza nelle traduzioni e di qualsiasi altra cosa che comprende l’analisi di dati e la correlazione degli stessi in un sistema di raccomandazione.

Facciamo degli esempi per capire meglio questo primo concetto: quando si parla ad esempio di AI nelle fotocamere degli smartphone, si sta parlando di riconoscimento delle immagini. Quello che “vede” la fotocamera (ossia quello che voi inquadrate) viene riconosciuto, che sia un volto, un animale, un panorama naturale, una scena notturna, o altro. Come risultato, lo smartphone imposta delle caratteristiche di scatto fotografico che possa esaltare quella ripresa.

Per quanto riguarda la guida autonoma, i sistemi a bordo sono in grado di riconoscere le immagini riguardanti le strade, le linee di mezzaria e bordo strada e i cartelli stradali. A fronte di determinati elementi riconosciuti nelle immagini, l’auto viene comandata in un determinato modo. Il riconoscimento del linguaggio naturale è semplicemente l’analisi di onde sonore, fatte in una determinata maniera, che vengono “tradotte” in linguaggio. In base alla traduzione, un sistema è allenato per rispondere in varie maniere.

Riassumendo in breve, dato un input visivo, sono o di dati in altre forme, il sistema deve essere in grado di dare un output, che può fornire un'informazione o un input, ad esempio su un sensore che attiva il freno dell'auto per evitare un incidente.

Come viene creata l’attuale intelligenza artificiale

Per permettere a un’AI di comportarsi come appena spiegato e performare determinate azioni, non viene più creato un sistema con dei dati all’interno configurato in modo che in base all'input venga dato un output. Questo era il modo in cui lavoravano le prime intelligenze artificiali e il motivo per cui non si procede più in questo modo è semplice: non è possibile creare un set di dati che possa identificare tutti i casi di utilizzo. Ad esempio, se volessimo che un AI identifichi se all’interno di una foto è presente un essere umano, dovremmo fornire dati con tutte le foto di tutti gli essere umani presenti, passati e futuri. Ovviamente non è possibile, quindi quello che viene fatto è creare un sistema che, accumulando esperienza, possa dire se all’interno di una foto c’è un’umano basandosi sul riconoscimento di alcune ricorrenze.

Qui si sta parlando di Machine Learning, Deep Learning e reti neurali: un’AI di questo genere viene allenata sottoponendole varie foto, chiedendole se in quell’immagine c’è un essere umano e indicandole quali risposte sono corrette e quali no. Continuando questo allenamento, l’AI piano piano riesce ad affinare la tecnica, cioè riesce a collezionare sempre più dati, più statistiche e ricorrenze, più dettagli, che gli insegnano e quindi permettono di “capire” quando in una foto c’è un essere umano. Diverse Ai avranno set di dati differenti, ma l'approccio è questo per tutte.

Cosa non è in grado di fare questa AI

L’AI attuale, nonostante vada oltre al “dammi un set di dati, l’operazione che devo effettuare e ti do il risultato”, manca di alcuni elementi propri degli essere umani. Questo significa che, in un modo o nell’altro, le AI attuali sono sistemi statistici che hanno collezionato una grandissima quantità di dati, che correlano tra loro e per cui fanno i “calcoli necessari per capire, statisticamente, che risposta dare o che operazione effettuare”. Anche, ad esempio, il DLSS delle schede grafiche Nvidia, sigla che sta per Deep Learning Super Sampling, funziona alla stessa maniera: una rete neurale viene allenata con un sacco di informazioni grafiche, il sistema di AI impara come sono fatti i vari oggetti e quali oggetti sono presenti nelle immagini dei giochi e, in questo modo, è in grado di renderizzare le immagini a un risoluzione più bassa, guadagnano prestazioni, per poi ricostruire i singoli dettagli grazie all’AI e alle informazioni che possiede.

Le AI attuali, proprio perché basano la loro intelligenza su un set di dati prestabilito da cui “imparano”, si trovano in difficoltà quando devono rispondere a quesiti su argomenti dove i dati scarseggiano, o non ci sono affatto.

Provate a dare in pasto a un’AI che è stata allena per riconoscere i volti umani un’immagine in cui è presente un uccello: ovviamente non saprà che dirvi. Per fare un esempio più concreto, provate a immaginare un'AI che è stata allenata per riconoscere qualsiasi animale sulla terra, ma a un certo punto gli fate vedere una foto in cui c’è una specie che è stata ripresa solo pochissime volte, o addirittura una nuova specie: difficilmente riuscirà a darvi una risposta, o meglio, probabilmente vi dirà che in quella foto è presente l’animale le cui caratteristiche fisiologiche sono più vicine a quelle della nuova specie. Se questa cosa accade a un essere umano, è molto probabile che non direbbe ad esempio “in questa foto c’è un pesce rosso”, ma piuttosto “sembra un pesce rosso, ma probabilmente non lo è, ha tratti in comune e potrebbe appartenere alla stessa famiglia ma essere qualcosa d’altro, magari una nuova specie”. In altre parole, quello che la vostra mente fa è ragionare, cercare di contestualizzare quello che vede, immaginare quello che potrebbe essere in base alle informazioni che si possiedono e in base all’esperienza.

Spieghiamo meglio questi ultimi concetti, irraggiungibili da un’IA attuale. Nella nostra vita abbiamo accumulato un sacco di informazioni, di dati: siamo saliti su un’auto, sappiamo cosa significa accelerazione e quali effetti ha, sappiamo cos’è un aereo, magari non sappiamo come fa a volare ma sappiamo che la maggior parte degli oggetti che volano hanno “estensioni”, cioè le ali, che permettono in qualche modo di stare in aria e un sistema di propulsione. Ritroviamo queste cose anche nella natura e tutto quello che vediamo lo correliamo, grazie alle informazioni che abbiamo. A un certo punto ci troviamo davanti un oggetto mai visto prima, lo vediamo muoversi nell’aria, ma è diverso da qualsiasi aeroplano, non vediamo le ali, non vediamo il sistema di propulsione, non sappiamo cos’è, tuttavia il nostro cervello inizia a correlare le altre informazioni che abbiamo, immagina il modo in cui può stare in volo e, in base al comportamento, immagina che cosa può essere, arrivando così a un'idea che si trasforma poi in una risposta di quello che può essere.

Alle AI attuali manca proprio questo grado di astrazione, in quanto non sono in grado di gestirlo: l'unica cosa che fanno è una ricerca unica nei dati che possiedono, con l'obiettivo di pesare una risposta statistica.

L’intelligenza artificiale cognitiva

Arriviamo quindi al successivo livello di AI. Come è possibile permettere a un computer di performare questo livello di astrazione? La risposta semplice è “fornire più dati” e insegnare a una macchina il modo in cui li deve usare, incrociare e pesare e ottenere risposte complesse in base a più dati strutturati in maniera differente.

I futuri sistemi di AI dovranno “ragionare”, cioè incrociare dati, che comprendono informazioni sul che cosa è, cioè tutte le info oggettive che si hanno come accade oggi, ma anche sul perché e sul quando, cioè contestualizzare, sul “con chi”, cioè considerare delle relazioni tra i dati e altre modelli.

In pratica è possibile vedere l’intelligenza artificiale cognitiva come un mix di tanti modelli utilizzati oggi singolarmente per le singole IA. Riconoscimento del linguaggio naturale, abbinato alla computer vision, cioè la capacità di riconoscere gli elementi di un’immagine, incrociati con la data analytics.

Facciamo nuovamente un esempio, per capire la differenza che c’è tra la AI attuale e quello che potrebbe succedere con la futura AI. Se oggi applichiamo un sistema di AI all’interno della diagnosi medica, fornendo ad esempio delle immagini di lastre di polmoni, o di qualsiasi altro organo, l’AI, allenata con un sacco di dati, potrà fare una diagnosi, poiché ricerca in quella lastra determinati pattern che conducono a una determinata malattia o problema del caso. La futura AI farà tutto questo, ma incrocerà questi dati con la storicità dei dati sul paziente, con quello che sta succedendo nel mondo (ad esempio una pandemia con un virus che attacca determinati organi), con le abitudini del paziente (se fuma o meno), con gli ultimi dati e studi disponibili sul web e in altre fonti sulle conseguenze del fumo, con  le informazioni che il sistema può recuperare sul paziente e i suoi gradi di parentela. Fatto questo prescriverà una cura, che non sarà basata unicamente sul “se hai questa malattia, prendi questo farmaco”, ma terrà conto anche delle informazioni sul come lavora quel farmaco, sulla possibilità che possa interagire o meno con altri farmaci che magari il paziente sta già assumendo e con dati in tempo reale che l’IA può recuperare dal paziente stesso. In altre parole, ragionerà come ragiona un medico, quindi non focalizzandosi unicamente su quello che vede nella lastra, ma su tutto quello che la circonda e tutte le informazioni che può avere da molteplice sorgenti, ragionando sul peso e sul modo in cui deve considerare ogni dato.

Come si raggiunge questo livello di complessità?

L'AI lavora sui dati, ma dopotutto anche il modo in cui noi esseri umani prendiamo decisioni, il processo che utilizziamo, si basa su dati: abbiamo dei dati storici, l’esperienza, dei dati contemporanei (cioè quello che vediamo e percepiamo con i vari sensi in questo momento) e la possibilità di recuperare altri dati se quelli già possediamo non sono sufficienti per prendere una decisione. Prendiamo tutti quesi dati, nelle loro forme, li incrociamo e prendiamo una decisione.

Facciamo un altro esempio per capire meglio: siamo in strada di notte e il nostro cervello ci dice, per esperienza, che di notte vediamo meno, possiamo reagire meno velocemente, chi vuole commettere qualche reato sfrutta la notte per non essere visto, quindi la notte nasconde più pericoli rispetto al giorno. Davanti a noi c’è una strada con diverse zone molto buie in cui non vediamo bene, ma quello che in realtà vediamo è una sorta di movimento poco distinguibile e sentiamo dei suoni sospetti; stiamo recuperando queste informazioni, che incrociate con le nostre informazioni storiche ci dicono che forse siamo in una situazione di pericolo. Cosa facciamo ora? Se le informazioni che abbiamo sono abbastanza convincenti, probabilmente facciamo dietro front, Se non lo sono, cerchiamo altre informazioni: ci spostiamo un po’ per vedere meglio cosa c’è nell’ombra, gridiamo qualcosa come “chi va la”, facciamo qualche azione che possa scatenare una reazione, usiamo la causalità, e recuperiamo così altre informazioni.

Quanto appena descritto è potenzialmente un approccio che può essere applicato nei futuri sistemi di IA, e che viene definito come 3LK, three level of knowledge, ossia tre livelli di conoscenza.

Il primo livello è conosciuto come “conoscenza istantanea” e permette una rapida risposta a un evento esterno. È quella che prima abbiamo definito come conoscenza storica, ossia un set di dati molto completo, con delle regole molto definite, che rappresenta un output diretto a un determinato input. Ad esempio, il suono dell’abbaiare ci dice istantaneamente che c’è un cane.

Il secondo livello è definito come “standby knowledge”, traducibile se vogliamo con "conoscenza in attesa". Questo è l’insieme di informazioni che percepiamo nel presente e che richiedono una serie di processi e di pensieri per essere elaborate. Sono quelle conoscenze che abbiamo interagendo con il mondo. Cerchiamo quel cane dell’esempio di prima, lo vediamo e iniziamo a recuperare informazioni: quanto è grande, quanto è distante, da che parte sta andando, come è fatto, che razza potrebbe essere, scodinzola o no, e così via.

Il terzo livello è chiamato “retrieved external knowledge”, tradotto in qualcosa come “conoscenza esterna o conoscenza recuperata esternamente”. Nel nostro esempio del cane potrebbe essere una domanda a una persona vicina come “conosci quel cane?” o “i border collie sono aggressivi?”, perché l’obiettivo di tutte questa analisi che abbiamo fatto è capire come reagire nella situazione in cui ci troviamo.

Facciamo un altro esempio di questi tre livelli. immaginate di essere alla guida di un’auto: vi state spostando da casa al lavoro, su una strada che ormai fate da anni e conoscete bene. Dove andare, le manovre da fare, sono tutte azioni istantanee perché avete una conoscenza radicata sull’ambiente e lo scopo, e questa rappresenta la “conoscenza istantanea”. Se invece cambiate strada perché c’è una deviazione, ecco che dovete fare più attenzione, dovete considerare tutti gli input visivi, perché la strada è diversa e dovete essere in grado di rispondere alle insidie della strada che state percorrendo, e questa è la “standby knowledge”. Mentre avete fatto questa deviazione vi siete allontanati troppo, e non sapete più che da che parte andare, ed ecco che vi tocca tirare fuori lo smartphone e mettere il navigatore satellitare per ritrovare la strada: questa è la “external knowledge”.

Combinando tutti questi tipi di informazione è possibile, per noi umani e per un’AI, rispondere a nuove situazioni, da quelle in cui abbiamo un sacco di dati, a quelle in cui non ci siamo mai trovati prima, rompendo la limitazione delle attuali AI che possono unicamente basarsi su un set di dati prestabilito su cui sono state allenate.

L’approccio tecnico

Il problema delle reti neurali alla base delle AI attuali è che basandosi su set di dati, per aumentare l’intelligenza è necessario aumentare il set di dati e la potenza di elaborazione dei dati stessi, perché ci sono sempre più informazioni da elaborare. Questo porta chiaramente a ingrandire sempre più i requisiti hardware, aumentando costi e perdendo efficienza. Ovviamente un nuovo approccio hardware è necessario, ma di questo abbiamo parlato trattando di chip neuromorfici, quindi vi consigliamo di dare uno sguardo all'articolo dedicato. Approccio tecnico a parte, che oltre al neuromorphic computing tratta anche di diversi modi in cui gestire i dati, l’approccio 3LK di cui abbiamo parlato poco fa prevede proprio un accesso differente ai dati, che in base al tipo di conoscenza possono risiedere più o meno distanti dai sistemi di AI.

Una conoscenza base, quindi dati di uso comune, possono essere presenti in una memoria vicina e veloce, per essere recuperati ed elaborati velocemente. I dati del secondo livello di conoscenza possono essere presenti in una memoria strutturata più distante, ma di facile accesso e ben organizzata. Il terzo livello di conoscenza può essere rappresentato da qualsiasi altra cosa, l’internet intero, da Wikipedia a YouTube.

Questo ci porta a immaginare le future AI come sistemi in grado di recuperare informazioni su tutti i livelli, come abbiamo visto, ma in continua e costante evoluzioni soprattutto grazie alla possibilità di imparare, cioè recuperare dati, letteralmente da qualsiasi fonte d’informazione digitale ovunque essa sia.

Quando arriverà la nuova AI

L’AI cognitiva è già tra noi in realtà, anche se ai primi stadi di evoluzione. Si pensa che entro il 2025 la maggior parte dei sistemi di AI attuali avranno o staranno facendo il salto a questa AI più evoluta.

Dove sarà applicata la nuova AI

In parole semplici, ovunque. Dopotutto si parla di permettere alle AI cognitive di recuperare e incrociare dati di diversa natura, in maniera tale da non dare come risposta un output pesato in base all’input ricevuto e alla storicità degli input dello stesso tipo, ma di adattare la risposta. L’interazione uomo macchina diventerà più "personale", più accurata, più naturale, perché le macchine con questa AI inizieranno a fare “ragionamenti” non basati unicamente sui dati in ingresso e su quello che gli è stato insegnato, ma anche sui dati contemporanei e personali, che l’AI può recuperare in più domini.

Prendiamo come esempio l'immagine di un chitarrista. Un’AI attuale “guarda” la foto e dice “c’è una chitarra” o “c’è una chitarra e un uomo”. Un’AI futura dirà , ad esempio, “C’è un uomo con un cappello che suona la chitarra, l’uomo sta sorridendo, prova quindi piacere a suonare la chitarra, e indossa un cappello da cowboy, probabilmente sta suonando musica country”.

L'AI cognitiva riconosce gli oggetti, le informazioni di base, quelle contemporanee e contestuali (sorride, quindi è in uno stato d'animo che probabilmente è legato a quello che sta facendo), oltre alle informazioni esterne (solitamente, l'associazione chitarra e cappello da cowboy si ritrova in chi suona musica country). In pratica, l'AI fa gli stessi ragionamenti che farebbe chiunque di noi.