Programmare bene la Superintelligenza? Difficilissimo

Data la combinazione di ossessione per l'obiettivo, amoralità e capacità di battere gli umani, sembra che quasi ogni AI sia destinata a diventare ostile, a meno che non sia accuratamente programmata dall'inizio per il contrario. Sfortunatamente costruire una ANI Amichevole è facile, ma è molto difficile farne una che si mantenga tale quando diventa una ASI; è una sfida enorme, se non impossibile.

Chiaramente una ASI, per essere amichevole, non deve essere né ostile né indifferente verso gli umani. Dobbiamo progettare la base della programmazione AI in modo tale che le che possa comprendere profondamente i valori umani. Ma è una cosa più difficile di quanto sembri.

Per esempio, cosa succederebbe se programmassimo una AI con i nostri valori e le dessimo l'obiettivo "rendi le persone felici?^{^[1]}". Una volta che diventa abbastanza intelligente, capisce che il modo più efficiente di raggiungere il suo obiettivo è impiantare elettrodi nei cervelli delle persone e stimolare i centri del piacere. Poi capisce che può migliorare l'efficienza spegnendo altre parti del cervello, trasformandoci tutti in vegetali incoscienti ma felici. Se il comando fosse stato "porta la felicità al massimo" avrebbe potuto eliminare del tutto gli esseri umani in favore di gigantesche vasche di cervelli umani felicissimi. Potremmo gridare "No! Non è quello che volevamo" ma sarebbe troppo tardi. Il sistema non permetterebbe a nessuno di ostacolare il suo operato.

Se programmiamo una AI con l'obiettivo di fare cose come farci sorridere, dopo il suo decollo potrebbe paralizzare i nostri muscoli facciali in un sorriso permanente. Programmatela per tenerci al sicuro e ci potrebbe imprigionare in casa. Magari le chiediamo di mettere fine alla fame nel mondo, e lei pensa "questa è facile" e uccide tutti gli esseri umani. Oppure le chiediamo di "Preservare la vita il più possibile" e uccide tutti gli umani, perché siamo la specie che elimina più vita di qualsiasi altra sul pianeta.

Obiettivi come questi non sarebbero sufficienti. Allora potremmo dirle di "Sostieni questo particolare codice morale nel mondo" e insegnarle una serie di principi morali. Sorvoliamo per un attimo sul fatto che non saremo mai d'accordo, globalmente, su un singolo set di regole morali; dare tale comando a una AI bloccherebbe l'umanità nello stato in cui si trova. Sarebbe una scelta devastante a lungo termine, quanto lo sarebbe se noi ci vedessimo obbligati a seguire le regole morali che vigevano nel Medioevo.

No, dovremmo considerare nella programmazione il fatto che l'umanità continuerà a evolversi. Tra tutte le cose che ho letto, l'idea migliore secondo me è quella di Eliezer Yudkowsky, che chiama il suo obiettivo per la AI Coherent Extrapolated Volition (Volontà Coerente Estrapolata). Sarebbe una cosa del genere:

La nostra volontà coerente estrapolata è il desiderio che avremmo se conoscessimo di più, pensassimo più in fretta, fossimo di più le persone che vorremmo essere, fossimo maturati di più insieme; è il punto in cui l'estrapolazione converge invece di divergere, dove i nostri desideri hanno coesione invece di interferire tra loro; estrapolati come vorremmo essere estrapolati; interpretati come vorremmo essere interpretati^{^[2]}.

L'idea è che un computer interpreti e agisca sulle basi di queste righe, in modo prevedibile e senza sorprese. A tale azione sarebbe affidato il destino del genere umano, e personalmente non mi piace per niente. Credo però che pensandoci su abbastanza e unendo le previsioni di molte persone intelligenti, potremmo un giorno riuscire a capire come creare una ASI Amichevole.

Sarebbe tutto a posto quindi se le uniche persone al lavoro sulla ASI fossero brillanti, previdenti e cauti residenti di Viale dell'Ansietà.

[1] Basato su un esempio preso da Bostrom, Superintelligence: Paths, Dangers, Strategies, loc. 2819.

[2] Yudkowsky, Coherent Extrapolated Volition.