Gli agenti IA falliscono da soli, ma eccellono con l'uomo

Una ricerca condotta da Upwork, la più grande piattaforma di lavoro freelance al mondo, ha analizzato oltre 300 progetti reali affidati agli agenti AI più avanzati disponibili, scoprendo che questi sistemi faticano enormemente a completare anche compiti professionali relativamente semplici quando operano in autonomia. Tuttavia, lo stesso studio rivela un dato sorprendente: quando gli agenti AI collaborano con esperti umani, i tassi di completamento dei progetti schizzano verso l'alto fino al 70%, suggerendo che il futuro potrebbe non vedere macchine contro umani, ma piuttosto alleanze potenti tra intelligenza artificiale e competenza professionale.

La ricerca si distingue radicalmente dai consueti test accademici perché ha valutato le prestazioni di tre sistemi di punta – Gemini 2.5 Pro, GPT-5 di OpenAI e Claude Sonnet 4 – su incarichi autentici pubblicati da clienti paganti, spaziando dalla scrittura allo sviluppo web, dall'analisi dati all'ingegneria. Andrew Rabinovich, responsabile tecnologico di Upwork ed esperto di intelligenza artificiale con venticinque anni di esperienza, non usa mezzi termini: "Gli agenti AI non sono poi così autonomi, il che significa che non sono così bravi". Eppure aggiunge un elemento cruciale che cambia completamente la prospettiva: quando questi sistemi vengono affiancati da professionisti esperti, le percentuali di completamento migliorano drasticamente.

Ti potrebbe interessare anche

Guarda su

I risultati economici parlano chiaro e sfidano le previsioni catastrofiche sulla sostituzione dei lavoratori. Nel terzo trimestre del 2025, Upwork ha registrato una crescita del 53% anno su anno nel volume di servizi legati all'AI, uno dei driver di crescita più forti per l'azienda. Erica Gessert, direttrice finanziaria della piattaforma, ha dichiarato a ottobre che inizialmente l'AI rappresentava "un enorme peso sulla nostra valutazione", con gli investitori convinti che tutto il lavoro sarebbe scomparso. "In realtà è vero il contrario", ha precisato, sottolineando come i freelancer stiano prosperando proprio grazie agli strumenti di intelligenza artificiale.

La metodologia della ricerca merita attenzione particolare. Upwork ha deliberatamente selezionato progetti semplici e ben definiti, con un valore inferiore ai 500 dollari, rappresentando meno del 6% del volume totale di servizi della piattaforma. Questa scelta riconosce apertamente i limiti attuali dell'AI: "Abbiamo scelto specificamente compiti più semplici che potessero dare agli agenti una qualche possibilità di riuscita", spiega Rabinovich. Salendo nella catena del valore, i problemi diventano così complessi che gli agenti non riescono nemmeno ad avvicinarsi a una soluzione accettabile.

Venti minuti di feedback umano possono trasformare un fallimento AI in un successo

I dati empirici rivelano differenze impressionanti tra le diverse categorie professionali. Nei progetti di data science e analytics, Claude Sonnet 4 ha raggiunto un tasso di completamento del 64% lavorando da solo, ma è balzato al 93% dopo aver ricevuto feedback da un esperto umano. Nel marketing e nelle vendite, Gemini 2.5 Pro è passato dal 17% al 31% di successo. GPT-5 ha mostrato miglioramenti altrettanto spettacolari nei compiti di ingegneria e architettura, scalando dal 30% al 50%. Il pattern si è ripetuto praticamente in tutte le categorie, con gli agenti che hanno risposto particolarmente bene al feedback umano sul lavoro qualitativo e creativo – scrittura, traduzione, marketing – dove i tassi di completamento sono aumentati fino a 17 punti percentuali per ciclo di revisione.

L'investimento temporale richiesto agli esperti umani rimane sorprendentemente contenuto: in media appena venti minuti per ciclo di revisione. Nonostante la necessità di più round di feedback, il tempo complessivo risulta "di ordini di grandezza inferiore rispetto a un umano che svolge il lavoro da solo", sottolinea Rabinovich. Dove un freelancer potrebbe impiegare giorni per completare un progetto in autonomia, l'approccio agente-più-umano può fornire risultati in poche ore attraverso cicli iterativi di lavoro automatizzato e raffinamento esperto.

La ricerca arriva mentre l'industria dell'AI affronta quella che potrebbe essere definita una crisi di misurazione. I benchmark tradizionali – test standardizzati che i modelli AI possono padroneggiare, talvolta ottenendo punteggi perfetti negli esami SAT o nelle olimpiadi di matematica – si sono rivelati pessimi predittori delle capacità nel mondo reale. "Con i progressi dei grandi modelli linguistici, stiamo vedendo che questi dataset accademici statici sono completamente saturi", osserva Rabinovich. "Puoi ottenere un punteggio perfetto nel test SAT o in qualsiasi olimpiade di matematica, e poi chiedi a ChatGPT quante 'R' ci sono nella parola 'strawberry', e sbaglia la risposta".

Oltre un semplice fenomeno

Questo fenomeno – sistemi AI che superano test formali ma inciampano su domande banali del mondo reale – ha generato crescente scetticismo sulle reali capacità dell'intelligenza artificiale, anche mentre le aziende corrono a implementare agenti autonomi. OpenAI, Anthropic, Google e numerose startup stanno gareggiando per sviluppare agenti capaci di compiti complessi multi-step, dalla prenotazione di viaggi all'analisi di dati finanziari alla scrittura di software. Ma recenti inciampi di alto profilo hanno temperato l'entusiasmo iniziale.

La performance degli agenti AI mostra schemi chiari e prevedibili. I sistemi eccellono in compiti "deterministici e verificabili" con risposte oggettivamente corrette, come risolvere problemi matematici o scrivere codice base. "La maggior parte dei compiti di programmazione sono molto simili tra loro", nota Rabinovich, "ecco perché gli agenti di coding stanno diventando così bravi". Nei test di Upwork, sviluppo web, sviluppo di app mobile e progetti di data science – specialmente quelli che coinvolgono lavoro strutturato e computazionale – hanno registrato i tassi più alti di completamento autonomo. Claude Sonnet 4 ha completato il 68% dei lavori di sviluppo web e il 64% dei progetti di data science senza aiuto umano.

Il lavoro qualitativo si è invece rivelato molto più impegnativo. Quando viene chiesto di creare layout per siti web, scrivere copy di marketing o tradurre contenuti con appropriate sfumature culturali, gli agenti naufragano senza una guida esperta. "Quando gli chiedi di scriverti una poesia, la qualità della poesia è estremamente soggettiva", spiega Rabinovich. Scrittura, traduzione e progetti di vendita e marketing hanno mostrato i miglioramenti più drammatici dal feedback umano, con i tassi di completamento che sono aumentati fino a 17 punti percentuali dopo la revisione esperta.

La strategia di Upwork va oltre la semplice osservazione del fenomeno. L'azienda sta sviluppando Uma, un "meta-agente di orchestrazione" che coordina lavoratori umani, sistemi AI e clienti. Invece di costruire agenti AI per completare compiti specifici, Upwork sta creando un sistema che analizza i requisiti dei progetti, determina quali attività richiedono competenza umana rispetto all'esecuzione AI, coordina il flusso di lavoro e garantisce la qualità – agendo essenzialmente come un project manager intelligente piuttosto che come un lavoratore sostitutivo.

In questa visione, i clienti interagirebbero principalmente con Uma anziché assumere direttamente freelancer. "Uma valuta il lavoro da consegnare al cliente, orchestra l'interazione tra umani e agenti, ed è in grado di imparare da tutte le interazioni che avvengono sulla piattaforma come suddividere i lavori in compiti affinché vengano completati in modo tempestivo ed efficace", descrive Rabinovich. L'azienda ha recentemente annunciato piani per aprire il suo primo ufficio internazionale a Lisbona entro il quarto trimestre del 2026, con focus sullo sviluppo dell'infrastruttura AI.

La ricerca ha superato una double-blind peer review ed è stata accettata a NeurIPS, la principale conferenza accademica sulla ricerca AI, dove Upwork presenterà i risultati completi all'inizio di dicembre. L'azienda pianifica di pubblicare la metodologia completa e rendere disponibile il benchmark alla comunità scientifica, aggiornando regolarmente il pool di compiti per prevenire l'overfitting mentre gli agenti migliorano. "L'idea è che questo benchmark sia una piattaforma viva e dinamica dove gli agenti possono entrare e valutarsi in tutte le categorie di lavoro", precisa Rabinovich.

Mentre il dibattito pubblico sull'AI si concentra sulla disoccupazione tecnologica, Rabinovich propone una lettura storica diversa. "La narrativa pubblica dice che l'AI sta eliminando posti di lavoro, ma nessuno parla davvero della quantità esponenziale di nuovi tipi di lavoro che creerà", argomenta. "Quando abbiamo inventato l'elettricità e i motori a vapore, hanno certamente sostituito certi lavori, ma la quantità di nuovi impieghi introdotti è stata esponenzialmente maggiore". La ricerca identifica categorie professionali emergenti focalizzate sulla supervisione dell'AI: progettare flussi di lavoro efficaci uomo-macchina, fornire feedback di alta qualità per migliorare le performance degli agenti, verificare che il lavoro generato dall'AI soddisfi gli standard qualitativi.

Questi risultati sfidano sia l'hype intorno agli agenti AI completamente autonomi sia i timori che tale tecnologia sostituirà imminentemente i knowledge worker. La posizione unica di Upwork permette di creare un ambiente dove "se crea un sito web sbagliato, non costa molto e non ci sono effetti collaterali negativi", spiega Rabinovich, paragonandolo ai test su auto a guida autonoma dove gli errori hanno conseguenze potenzialmente letali. "Ma l'opportunità di apprendimento è assolutamente tremenda". Per i freelancer sulla piattaforma, la risposta potrebbe già emergere nei loro conti bancari: la crescita del 53% nel lavoro legato all'AI, anche mentre i titoli dei giornali erano dominati dalle paure di disoccupazione causata dall'intelligenza artificiale.