Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Black Friday

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Windows è pieno di agenti AI, ma la gente lo detesta Windows è pieno di agenti AI, ma la gente lo detesta...
Immagine di Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio Microsoft Teams anti-assenteismo, presto dirà se sei davver...

Gli agenti IA falliscono da soli, ma eccellono con l'uomo

Gli agenti IA falliscono nei compiti professionali, ma con il feedback umano i tassi di completamento aumentano fino al 70% in 20 minuti di collaborazione.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor

Pubblicato il 14/11/2025 alle 15:08

La notizia in un minuto

  • Gli agenti AI autonomi completano solo una minima parte dei progetti professionali reali, ma quando collaborano con esperti umani i tassi di successo schizzano fino al 70%, dimostrando che il futuro è nella collaborazione uomo-macchina
  • La ricerca su oltre 300 progetti reali rivela che bastano venti minuti di feedback umano per trasformare fallimenti AI in successi, con miglioramenti fino a 17 punti percentuali nei compiti creativi e qualitativi
  • Upwork registra una crescita del 53% nei servizi legati all'AI, smentendo i timori sulla disoccupazione tecnologica e confermando che l'intelligenza artificiale sta creando nuove opportunità di lavoro piuttosto che eliminarle
Riassunto generato con l'IA. Potrebbe non essere accurato.

Una ricerca condotta da Upwork, la più grande piattaforma di lavoro freelance al mondo, ha analizzato oltre 300 progetti reali affidati agli agenti AI più avanzati disponibili, scoprendo che questi sistemi faticano enormemente a completare anche compiti professionali relativamente semplici quando operano in autonomia. Tuttavia, lo stesso studio rivela un dato sorprendente: quando gli agenti AI collaborano con esperti umani, i tassi di completamento dei progetti schizzano verso l'alto fino al 70%, suggerendo che il futuro potrebbe non vedere macchine contro umani, ma piuttosto alleanze potenti tra intelligenza artificiale e competenza professionale.

La ricerca si distingue radicalmente dai consueti test accademici perché ha valutato le prestazioni di tre sistemi di punta – Gemini 2.5 Pro, GPT-5 di OpenAI e Claude Sonnet 4 – su incarichi autentici pubblicati da clienti paganti, spaziando dalla scrittura allo sviluppo web, dall'analisi dati all'ingegneria. Andrew Rabinovich, responsabile tecnologico di Upwork ed esperto di intelligenza artificiale con venticinque anni di esperienza, non usa mezzi termini: "Gli agenti AI non sono poi così autonomi, il che significa che non sono così bravi". Eppure aggiunge un elemento cruciale che cambia completamente la prospettiva: quando questi sistemi vengono affiancati da professionisti esperti, le percentuali di completamento migliorano drasticamente.

I risultati economici parlano chiaro e sfidano le previsioni catastrofiche sulla sostituzione dei lavoratori. Nel terzo trimestre del 2025, Upwork ha registrato una crescita del 53% anno su anno nel volume di servizi legati all'AI, uno dei driver di crescita più forti per l'azienda. Erica Gessert, direttrice finanziaria della piattaforma, ha dichiarato a ottobre che inizialmente l'AI rappresentava "un enorme peso sulla nostra valutazione", con gli investitori convinti che tutto il lavoro sarebbe scomparso. "In realtà è vero il contrario", ha precisato, sottolineando come i freelancer stiano prosperando proprio grazie agli strumenti di intelligenza artificiale.

La metodologia della ricerca merita attenzione particolare. Upwork ha deliberatamente selezionato progetti semplici e ben definiti, con un valore inferiore ai 500 dollari, rappresentando meno del 6% del volume totale di servizi della piattaforma. Questa scelta riconosce apertamente i limiti attuali dell'AI: "Abbiamo scelto specificamente compiti più semplici che potessero dare agli agenti una qualche possibilità di riuscita", spiega Rabinovich. Salendo nella catena del valore, i problemi diventano così complessi che gli agenti non riescono nemmeno ad avvicinarsi a una soluzione accettabile.

Venti minuti di feedback umano possono trasformare un fallimento AI in un successo

I dati empirici rivelano differenze impressionanti tra le diverse categorie professionali. Nei progetti di data science e analytics, Claude Sonnet 4 ha raggiunto un tasso di completamento del 64% lavorando da solo, ma è balzato al 93% dopo aver ricevuto feedback da un esperto umano. Nel marketing e nelle vendite, Gemini 2.5 Pro è passato dal 17% al 31% di successo. GPT-5 ha mostrato miglioramenti altrettanto spettacolari nei compiti di ingegneria e architettura, scalando dal 30% al 50%. Il pattern si è ripetuto praticamente in tutte le categorie, con gli agenti che hanno risposto particolarmente bene al feedback umano sul lavoro qualitativo e creativo – scrittura, traduzione, marketing – dove i tassi di completamento sono aumentati fino a 17 punti percentuali per ciclo di revisione.

L'investimento temporale richiesto agli esperti umani rimane sorprendentemente contenuto: in media appena venti minuti per ciclo di revisione. Nonostante la necessità di più round di feedback, il tempo complessivo risulta "di ordini di grandezza inferiore rispetto a un umano che svolge il lavoro da solo", sottolinea Rabinovich. Dove un freelancer potrebbe impiegare giorni per completare un progetto in autonomia, l'approccio agente-più-umano può fornire risultati in poche ore attraverso cicli iterativi di lavoro automatizzato e raffinamento esperto.

La ricerca arriva mentre l'industria dell'AI affronta quella che potrebbe essere definita una crisi di misurazione. I benchmark tradizionali – test standardizzati che i modelli AI possono padroneggiare, talvolta ottenendo punteggi perfetti negli esami SAT o nelle olimpiadi di matematica – si sono rivelati pessimi predittori delle capacità nel mondo reale. "Con i progressi dei grandi modelli linguistici, stiamo vedendo che questi dataset accademici statici sono completamente saturi", osserva Rabinovich. "Puoi ottenere un punteggio perfetto nel test SAT o in qualsiasi olimpiade di matematica, e poi chiedi a ChatGPT quante 'R' ci sono nella parola 'strawberry', e sbaglia la risposta".

Oltre un semplice fenomeno

Questo fenomeno – sistemi AI che superano test formali ma inciampano su domande banali del mondo reale – ha generato crescente scetticismo sulle reali capacità dell'intelligenza artificiale, anche mentre le aziende corrono a implementare agenti autonomi. OpenAI, Anthropic, Google e numerose startup stanno gareggiando per sviluppare agenti capaci di compiti complessi multi-step, dalla prenotazione di viaggi all'analisi di dati finanziari alla scrittura di software. Ma recenti inciampi di alto profilo hanno temperato l'entusiasmo iniziale.

La performance degli agenti AI mostra schemi chiari e prevedibili. I sistemi eccellono in compiti "deterministici e verificabili" con risposte oggettivamente corrette, come risolvere problemi matematici o scrivere codice base. "La maggior parte dei compiti di programmazione sono molto simili tra loro", nota Rabinovich, "ecco perché gli agenti di coding stanno diventando così bravi". Nei test di Upwork, sviluppo web, sviluppo di app mobile e progetti di data science – specialmente quelli che coinvolgono lavoro strutturato e computazionale – hanno registrato i tassi più alti di completamento autonomo. Claude Sonnet 4 ha completato il 68% dei lavori di sviluppo web e il 64% dei progetti di data science senza aiuto umano.

Il lavoro qualitativo si è invece rivelato molto più impegnativo. Quando viene chiesto di creare layout per siti web, scrivere copy di marketing o tradurre contenuti con appropriate sfumature culturali, gli agenti naufragano senza una guida esperta. "Quando gli chiedi di scriverti una poesia, la qualità della poesia è estremamente soggettiva", spiega Rabinovich. Scrittura, traduzione e progetti di vendita e marketing hanno mostrato i miglioramenti più drammatici dal feedback umano, con i tassi di completamento che sono aumentati fino a 17 punti percentuali dopo la revisione esperta.

La strategia di Upwork va oltre la semplice osservazione del fenomeno. L'azienda sta sviluppando Uma, un "meta-agente di orchestrazione" che coordina lavoratori umani, sistemi AI e clienti. Invece di costruire agenti AI per completare compiti specifici, Upwork sta creando un sistema che analizza i requisiti dei progetti, determina quali attività richiedono competenza umana rispetto all'esecuzione AI, coordina il flusso di lavoro e garantisce la qualità – agendo essenzialmente come un project manager intelligente piuttosto che come un lavoratore sostitutivo.

In questa visione, i clienti interagirebbero principalmente con Uma anziché assumere direttamente freelancer. "Uma valuta il lavoro da consegnare al cliente, orchestra l'interazione tra umani e agenti, ed è in grado di imparare da tutte le interazioni che avvengono sulla piattaforma come suddividere i lavori in compiti affinché vengano completati in modo tempestivo ed efficace", descrive Rabinovich. L'azienda ha recentemente annunciato piani per aprire il suo primo ufficio internazionale a Lisbona entro il quarto trimestre del 2026, con focus sullo sviluppo dell'infrastruttura AI.

La ricerca ha superato una double-blind peer review ed è stata accettata a NeurIPS, la principale conferenza accademica sulla ricerca AI, dove Upwork presenterà i risultati completi all'inizio di dicembre. L'azienda pianifica di pubblicare la metodologia completa e rendere disponibile il benchmark alla comunità scientifica, aggiornando regolarmente il pool di compiti per prevenire l'overfitting mentre gli agenti migliorano. "L'idea è che questo benchmark sia una piattaforma viva e dinamica dove gli agenti possono entrare e valutarsi in tutte le categorie di lavoro", precisa Rabinovich.

Mentre il dibattito pubblico sull'AI si concentra sulla disoccupazione tecnologica, Rabinovich propone una lettura storica diversa. "La narrativa pubblica dice che l'AI sta eliminando posti di lavoro, ma nessuno parla davvero della quantità esponenziale di nuovi tipi di lavoro che creerà", argomenta. "Quando abbiamo inventato l'elettricità e i motori a vapore, hanno certamente sostituito certi lavori, ma la quantità di nuovi impieghi introdotti è stata esponenzialmente maggiore". La ricerca identifica categorie professionali emergenti focalizzate sulla supervisione dell'AI: progettare flussi di lavoro efficaci uomo-macchina, fornire feedback di alta qualità per migliorare le performance degli agenti, verificare che il lavoro generato dall'AI soddisfi gli standard qualitativi.

Questi risultati sfidano sia l'hype intorno agli agenti AI completamente autonomi sia i timori che tale tecnologia sostituirà imminentemente i knowledge worker. La posizione unica di Upwork permette di creare un ambiente dove "se crea un sito web sbagliato, non costa molto e non ci sono effetti collaterali negativi", spiega Rabinovich, paragonandolo ai test su auto a guida autonoma dove gli errori hanno conseguenze potenzialmente letali. "Ma l'opportunità di apprendimento è assolutamente tremenda". Per i freelancer sulla piattaforma, la risposta potrebbe già emergere nei loro conti bancari: la crescita del 53% nel lavoro legato all'AI, anche mentre i titoli dei giornali erano dominati dalle paure di disoccupazione causata dall'intelligenza artificiale.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Scoperti nuovi indizi sulle origini di Homo sapiens
  • #2
    Unieuro non si ferma: le promozioni del Black Friday continuano
  • #3
    Windows 26 riprende l’eredità di Vista e 7, ma con stile
  • #4
    22% di sconto su Amazon con appena 25€ di spesa
  • #5
    Scatta il blocco sui siti porno: cosa succede ora?
  • #6
    Addio visori ingombranti: l’AR fa un salto avanti
Articolo 1 di 5
Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio
Da dicembre, Microsoft Teams sui client Windows e macOS introdurrà il rilevamento automatico della posizione tramite rete Wi-Fi. La funzionalità, nata per l'efficienza, è subito vista come uno strumento anti-assenteismo che pone un rischio per la privacy.
Immagine di Microsoft Teams anti-assenteismo, presto dirà se sei davvero in ufficio
3
Leggi questo articolo
Articolo 2 di 5
Windows è pieno di agenti AI, ma la gente lo detesta
Il presidente di Windows, Pavan Davuluri, ha ribadito la strategia di Microsoft per trasformare il sistema operativo in una piattaforma "agentica" basata sull'IA, incontrando il forte dissenso degli utenti.
Immagine di Windows è pieno di agenti AI, ma la gente lo detesta
3
Leggi questo articolo
Articolo 3 di 5
Per essere promossi non serve un titolo di studio prestigioso (secondo questo ex CEO)
Dan Springer, ex CEO di DocuSign e attuale guida di Ironclad, sostiene che per la promozione aziendale contino solo competenze, etica del lavoro e controllo dell'ego, molto più del titolo accademico.
Immagine di Per essere promossi non serve un titolo di studio prestigioso (secondo questo ex CEO)
1
Leggi questo articolo
Articolo 4 di 5
SumUP ti fa risparmiare al Black Friday con questi bundle esclusivi
POS Lite Starter Kit Includes: POS Lite + Solo + Epson Printer Price: 459 EUR/£ Black Friday Price: 359 EUR/£ POS Lite Full Kit Includes: POS Lite + Solo + Epson printer + Cash drawer Price: 499 EUR/£ Black Friday Price: 399 EUR/£ POS Lite Retail Kit Includes: POS Lite + Solo + Epson printer + Cash drawer + Scanner Price: 539 EUR/£ Black Friday Price: 439 EUR/£
Immagine di SumUP ti fa risparmiare al Black Friday con questi bundle esclusivi
Leggi questo articolo
Articolo 5 di 5
Impariamo a "parlare" con l'IA alla Generative-AI Week
Con Mariangela Digravina di IA Spiegata Semplice per anticipare la Generative-AI Week (17–21 novembre): 5 giorni di formazione gratuita online
Immagine di Impariamo a "parlare" con l'IA alla Generative-AI Week
1
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.