Un'intera azienda fatta da agenti AI? Non è andata bene

La ricerca di Carnegie Melon svela una realtà (ovvia ma) deludente: un'azienda software gestita interamente da agenti AI fallisce miseramente.

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

17

Nel cuore di un laboratorio di ricerca della Carnegie Mellon University, un esperimento senza precedenti ha messo a nudo i limiti dell'intelligenza artificiale nel contesto lavorativo reale, rivelando risultati che ridimensionano drasticamente le previsioni apocalittiche sulla sostituzione della forza lavoro umana.

I ricercatori hanno creato un'azienda software completamente virtuale, denominata TheAgentCompany, popolandola esclusivamente con agenti AI delle principali aziende tecnologiche - Google, OpenAI, Anthropic e Meta - per testare la loro efficacia in un ambiente aziendale simulato ma realistico.

L'esperimento ha assegnato a questi "dipendenti virtuali" mansioni quotidiane tipiche di una società di software: navigazione in directory di file, tour virtuali di nuovi spazi ufficio e persino la redazione di valutazioni delle prestazioni per ingegneri software basate su feedback raccolti. Analisti finanziari, ingegneri informatici e project manager artificiali si sono trovati a collaborare con un reparto risorse umane simulato e un direttore tecnico virtuale, in quella che sulla carta sembrava una struttura aziendale perfettamente funzionante.

I risultati, tuttavia, hanno raccontato una storia completamente diversa. Le prestazioni degli agenti AI sono state talmente deludenti da risultare quasi comiche, rivelando limiti strutturali che nessuno dei giganti tecnologici è ancora riuscito a superare. L'efficienza dei modelli più avanzati si è dimostrata sorprendentemente bassa, con costi operativi proibitivi e tassi di successo imbarazzanti.

Il modello più performante, Claude 3.5 Sonnet di Anthropic, è riuscito a completare appena il 24% dei compiti assegnati. Un risultato che appare ancora più deludente considerando che per ogni attività completata sono stati necessari quasi 30 passaggi, con un costo medio superiore a 6 dollari per singola operazione. Più che una soluzione economicamente vantaggiosa, una voragine finanziaria per qualsiasi azienda reale.

Gemini 2.0 Flash di Google non ha fatto molto meglio, posizionandosi al secondo posto con un misero 11,4% di attività completate, richiedendo in media 40 passaggi per ciascun compito portato a termine. Il fanalino di coda è stato Nova Pro v1 di Amazon, con un tasso di successo quasi inesistente: appena l'1,7% dei compiti assegnati, nonostante una media di 20 passaggi per tentativo.

L'intelligenza artificiale odierna rimane solo un'elaborata estensione del testo predittivo

Analizzando questo fallimento collettivo, i ricercatori hanno identificato carenze fondamentali negli agenti AI: mancanza di buon senso, scarse abilità sociali e una comprensione inadeguata della navigazione internet. Ma forse il difetto più sorprendente è risultato essere l'autoinganno. In un caso emblematico, un agente incapace di trovare la persona giusta a cui porre domande sulla chat aziendale ha deciso di "risolvere" il problema rinominando un altro utente con il nome della persona cercata - una soluzione che evidenzia l'incapacità di questi sistemi di comprendere le conseguenze delle proprie azioni.

Questo esperimento mette in luce una verità fondamentale spesso oscurata dal clamore mediatico: l'intelligenza artificiale contemporanea, nonostante i progressi impressionanti, rimane essenzialmente un'elaborata estensione del testo predittivo del nostro smartphone, non un'intelligenza senziente capace di risolvere problemi, imparare dall'esperienza e applicare tali conoscenze a situazioni nuove.

Mentre gli agenti AI possono eccellere in compiti circoscritti e ben definiti, falliscono miseramente quando si tratta di gestire la complessità e l'imprevedibilità del mondo reale, ambiti dove l'intelligenza umana continua a dimostrarsi insostituibile. Per quanto le grandi aziende tecnologiche possano sostenere il contrario, questo esperimento dimostra che il rischio di una sostituzione massiccia della forza lavoro umana con agenti artificiali è ancora molto lontano dal concretizzarsi.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

17 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


Era abbastanza ovvio sinceramente...
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Più che prevedibile, eppure ci sono sostenitori di questa malsana "ideologia".
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Pensavano forse di avere a disposizione l'AGI?
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

onestamente bisogna vedere se la comicità del risultato non vada attribuita ai dev dell'infrastruttura artificiale
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Articolo apparentemente più frutto di ideologia che di lucidità. Umanamente capisco l’attaccamento morboso all’ “insostituibilità” dell’ intelligenza umana (che non mi pare poi così diffusa nemmeno tra gli umani stessi). Ci rivediamo tra 2 anni 😉
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Articolo senza senso: vengono usati modelli che sono già vecchi e che non sono fatti per essere agenti e oltretutto insieme a una miriade di modelli diversi che praticamente non usa nessuno. Notizia inutile. Di sicuro attualmente non può esistere una azienda fatta solo di agenti ia, ma come sempre la tecnologia si sta muovendo molto rapidamente e nel giro di pochi anni le cose potrebbero cambiare drasticamente
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

1) le A.I. di oggi sono sopravvalutate, sono abbastanza stupide e troppo ricche di allucinazioni 2) stanno evolvendo in fretta, le A.I. di un domani prossimo saranno, almeno dal punto di vista lavorativo, più intelligenti di chiunque di noi, verranno applicate anche ai robot e saranno in grado di sostituire il 90% dei lavori: questo è il vero problema in un mondo che non redistribuisce le risorse avremo pochi ricchissimi e la quasi totalità della popolazione che, se è fortunata, vive di sussidi
sarebbe meglio rimediare per tempo a questa prospettiva
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

.
Quale ideologia?
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Quale ideologia?
Fino ad ora dove hai vissuto? In una caverna? In un deserto?
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Prematuro, parliamone fra 5 -10 anni
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Sinceramente mi sembra un brutto articolo, magari lo spunto è interessante ma con scarsi contenuti. D'altronde ridurre l'AI ad una "elaborata estensione del testo predittivo", a prescidere del livello a cui l'AI arriverà, fa pensare che di conoscenze ce ne siano poche in chi ha scritto l'articolo.
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Fino ad ora dove hai vissuto? In una caverna? In un deserto?
Sarebbe figo ma no, ho avuto lavori da fare, cose da vedere, persone da incontrare ;)
E ho usato molto l'I.A.
tu?

Non hai risposto alla domanda però. Suppongo tu intenda l'ideologia secondo cui l'IA sarà presto in grado di svolgere molti lavori che fino a poco tempo fa ritenevamo appannaggio dell'essere umano? Ma non voglio metterti concetti in bocca, per questo ti ho chiesto.
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Sarebbe figo ma no, ho avuto lavori da fare, cose da vedere, persone da incontrare ;) E ho usato molto l'I.A. tu? Non hai risposto alla domanda però. Suppongo tu intenda l'ideologia secondo cui l'IA sarà presto in grado di svolgere molti lavori che fino a poco tempo fa ritenevamo appannaggio dell'essere umano? Ma non voglio metterti concetti in bocca, per questo ti ho chiesto.
Non so se per te l'articolo rappresenta solo un caso isolato che "sfortunatamente" si è verificato e quindi non c'è nulla di cui preoccuparsi, ma al di là di ciò, questo sistema non é la soluzione giusta o il metodo più appriopriato che porterà vantaggi alla società.

Ci sono implicazioni a livello sociale e morale da non sottovalutare, ma a quanto vedo, le persone sono quasi incantate da questa cosa che chiamano e continuano a definirla con quell'acronimo nonostante non ci sia nulla di "intelligente".

Sorvolando su questo dato di fatto, perchè tale è, mi chiedo cosa rende così fiduciosi coloro che ci credono, manco fosse una reliquia da visitare e osannare durante un pellegrinaggio e da boicottare o rivolgere sorrisi sprezzanti a chi vede la cosa in modo contrario.

La notizia riportata qui richiama subito l'impatto che essa ha sul lavoro, un tentativo di creare qualcosa in cui non c'è bisogno delle persone, individui da rimpiazzare e non per mire a favore di questi ultimi.
Forse per alcuni é una cosa di poco conto, ma per chi è stato rimpiazzato è stato come un colpo di scure.

Si leggono dichiarazioni assurde da parte di chi è favorevole a questo processo, vedono tutto bello, manco fossero in estasi.
Ma in realtà non se ne rendono conto perchè hanno perso il contatto con la realtà.

Non si tratta solo di lavoro, un altro esempio lo fornisce il discorso sui dati personali di ogni individuo, infatti, a quanto ho letto, l'ia utilizza dati di ogni tipo per apprendere e perfezionare le funzioni di cui è stata dotata. Però poi bisogna considerare che raccogliere ed elaborare questi dati comporta rischi per la sicurezza degli stessi perchè possono essere rubati, modificati o utilizzati in modo scorretto(o disonesto) da chi ha le capacità per farlo. L'annosa questione di tutti quei dati raccolti dai social media(altra stupida terminologia) che vengono usati per identificare le persone e per controllare quello che fanno hanno lo scopo di influenzare le loro decisioni.

Un'altra implicazione estremamente proccupante è che questa ia può essere adoperata ed è già stato fatto e viene fatto, per creare immagini false oppure video falsi ed anche notizie false. Per me è estremamente preoccupante tutto ciò, perchè questo modo di agire non può portare che a conseguenze gravissime come la manipolazione dell’opinione pubblica.

Anche se l'articolo parla di un'azienda che è fallita, se ci pensi bene. l'argomento è molto più complesso di questo, è molto più ampio, abbraccia tanti di quegli aspetti in gioco ed è triste vedere che solo in pochi se ne rendono conto.
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Ma va?
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.