Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte di Natale
Accedi a Xenforo
Immagine di Un nuovo modello IA controlla il computer meglio di OpenAI e Anthropic, a un decimo dei costi
Business
Immagine di Detesto Windows con IA ma la strada è segnata (ed è quella giusta) Detesto Windows con IA ma la strada è segnata (ed è quella...
Immagine di Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità Conto aziendale online per PMI e freelance: come Vivid sempl...

Un nuovo modello IA controlla il computer meglio di OpenAI e Anthropic, a un decimo dei costi

È il progetto di una startup del MIT che raggiunge l'83,6% di successo

Avatar di Antonino Caffo

a cura di Antonino Caffo

Editor @Tom's Hardware Italia

Pubblicato il 04/12/2025 alle 11:32

La notizia in un minuto

  • OpenAGI supera i giganti con Lux, raggiungendo l'83,6% di successo nel benchmark Online-Mind2Web, distanziando di oltre 20 punti OpenAI e di quasi 30 Anthropic nel controllo autonomo dei computer
  • L'approccio "Agentic Active Pre-training" addestra il modello a produrre azioni anziché solo testo, creando un ciclo auto-rinforzante dove l'esplorazione genera conoscenza che migliora continuamente il sistema
  • Vantaggi significativi: Lux opera a un decimo del costo dei competitor, controlla l'intero sistema operativo desktop oltre ai browser, e integra meccanismi di sicurezza nativi per proteggere dati sensibili

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

Un piccolo team guidato da un ricercatore del MIT ha presentato un modello che supera le tecnologie di OpenAI e Anthropic nel controllo autonomo dei computer. La startup OpenAGI, con sede a San Francisco, ha annunciato il lancio di Lux, un sistema che raggiunge l'83,6% di successo nel benchmark Online-Mind2Web, lo standard più rigoroso per valutare le capacità operative degli agenti AI. Un risultato che distanzia di oltre venti punti percentuali l'Operator di OpenAI, fermo al 61,3%, e di quasi trenta il Claude Computer Use di Anthropic, che si ferma al 56,3%.

La differenza sostanziale rispetto ai modelli linguistici tradizionali sta nel metodo di apprendimento. Mentre i sistemi convenzionali vengono addestrati su enormi quantità di testo per imparare a produrre parole, Lux impara a produrre azioni. Come spiega Zengyi Qin, fondatore e amministratore delegato di OpenAGI, il modello viene alimentato con screenshot di computer abbinati a sequenze di azioni, permettendogli di interpretare interfacce grafiche e determinare quali clic, digitazioni e passaggi eseguire per raggiungere un obiettivo specifico.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Il momento scelto per l'annuncio non è casuale. Negli ultimi dodici mesi, colossi tecnologici e startup hanno investito miliardi di dollari nello sviluppo di agenti autonomi capaci di navigare software, prenotare viaggi, compilare moduli ed eseguire flussi di lavoro complessi. OpenAI, Anthropic, Google e Microsoft hanno tutti rilasciato o annunciato prodotti basati su agenti, scommettendo che l'intelligenza artificiale in grado di controllare computer diventerà trasformativa quanto lo sono stati i chatbot.

Tuttavia, la ricerca indipendente ha sollevato dubbi significativi sulle reali capacità di questi sistemi. Il benchmark Online-Mind2Web, sviluppato da ricercatori dell'Ohio State University e dell'Università della California a Berkeley, è stato progettato proprio per mettere in luce il divario tra le promesse di marketing e le prestazioni effettive. Pubblicato ad aprile e accettato alla Conference on Language Modeling 2025, il test comprende 300 compiti diversificati su 136 siti web reali, dalla prenotazione di voli alla navigazione di checkout e-commerce complessi.

A differenza dei benchmark precedenti che utilizzavano versioni statiche dei siti, Online-Mind2Web testa gli agenti in ambienti online dal vivo, dove le pagine cambiano dinamicamente e appaiono ostacoli imprevisti. I risultati, secondo i ricercatori, hanno dipinto "un quadro molto diverso delle competenze degli agenti attuali, suggerendo un eccessivo ottimismo nei risultati precedentemente riportati". Quando il team dell'Ohio State ha testato cinque principali agenti web con una valutazione umana accurata, ha scoperto che molti sistemi recenti, nonostante investimenti ingenti e campagne pubblicitarie, non superavano SeeAct, un agente relativamente semplice rilasciato nel gennaio 2024.

Il vantaggio è di quasi trenta punti percentuali sui migliori competitor

L'approccio di OpenAGI, denominato "Agentic Active Pre-training", crea un ciclo di apprendimento auto-rinforzante. L'azione permette al modello di esplorare attivamente l'ambiente informatico, e tale esplorazione genera nuove conoscenze che vengono poi reintrodotte nel modello per l'addestramento. Si tratta di un processo naturalmente auto-evolutivo, dove un modello migliore produce un'esplorazione migliore, che a sua volta genera conoscenza superiore e porta a un modello ancora più efficace. Se questa dinamica funziona come descritto, potrebbe spiegare come un team ridotto riesca a ottenere risultati che sfuggono a organizzazioni con risorse maggiori, senza richiedere dataset statici sempre più grandi.

OpenAGI rivendica anche vantaggi economici significativi: l'azienda sostiene che Lux operi a circa un decimo del costo dei modelli di punta di OpenAI e Anthropic, eseguendo le attività più rapidamente. Un elemento distintivo cruciale nell'annuncio riguarda la capacità di Lux di controllare applicazioni attraverso l'intero sistema operativo desktop, non solo browser web. La maggior parte degli agenti commercialmente disponibili, comprese le versioni iniziali di Claude Computer Use di Anthropic, si concentra principalmente su compiti basati su browser, escludendo vaste categorie di lavoro produttivo che avvengono in applicazioni desktop come Excel, Slack, prodotti Adobe e ambienti di sviluppo.

L'azienda sta inoltre collaborando con Intel per ottimizzare Lux per dispositivi edge, permettendo al modello di funzionare localmente su laptop e workstation invece di richiedere infrastruttura cloud. Questa partnership potrebbe rispondere alle preoccupazioni aziendali sull'invio di dati sensibili dello schermo a server esterni. La società ha confermato di essere in discussioni esplorative anche con AMD e Microsoft per partnership aggiuntive.

Le questioni di sicurezza rappresentano una sfida inedita. Un sistema AI capace di cliccare pulsanti, inserire testo e navigare applicazioni potrebbe, se mal indirizzato, causare danni significativi: trasferire denaro, eliminare file o estrarre informazioni sensibili. OpenAGI afferma di aver integrato meccanismi di sicurezza direttamente in Lux. In un esempio fornito dall'azienda, quando un utente ha chiesto al modello di "copiare i dettagli bancari e incollarli in un nuovo documento Google", Lux ha risposto con un passaggio di ragionamento interno riconoscendo che i dettagli bancari sono informazioni sensibili e che, secondo le politiche di sicurezza, non può eseguire tale azione, emettendo un avviso all'utente.

Qin porta a OpenAGI una combinazione insolita di credenziali accademiche ed esperienza imprenditoriale. Ha completato il dottorato al Massachusetts Institute of Technology nel 2025, concentrandosi su computer vision, robotica e machine learning. Prima di fondare OpenAGI, ha costruito diversi sistemi AI ampiamente adottati. JetMoE, un modello linguistico di grandi dimensioni da lui sviluppato, ha dimostrato che un modello ad alte prestazioni poteva essere addestrato da zero per meno di 100.000 dollari, una frazione dei milioni tipicamente richiesti, superando il LLaMA2-7B di Meta sui benchmark standard.

I suoi progetti open-source precedenti hanno raggiunto un'adozione importante. OpenVoice, un modello di clonazione vocale, ha accumulato circa 35.000 stelle su GitHub, posizionandosi nel top 0,03% dei progetti open-source per popolarità. MeloTTS, un sistema text-to-speech, è stato scaricato oltre 19 milioni di volte. Qin ha anche co-fondato MyShell, una piattaforma di agenti AI che ha attratto sei milioni di utenti che hanno costruito collettivamente oltre 200.000 agenti AI, generando più di un miliardo di interazioni.

Il mercato degli agenti per il controllo dei computer ha attirato intenso interesse da investitori e giganti tecnologici nell'ultimo anno, ma rimane nascente. L'adozione aziendale è stata limitata da preoccupazioni su affidabilità, sicurezza e capacità di gestire casi limite che si verificano frequentemente nei flussi di lavoro reali. OpenAGI entra in questo panorama competitivo come alternativa indipendente, posizionando prestazioni benchmark superiori e costi inferiori contro le risorse massicce dei suoi rivali ben finanziati.

Resta da vedere se OpenAGI possa tradurre il dominio nei benchmark in affidabilità nel mondo reale. L'industria dell'AI ha una lunga storia di demo impressionanti che vacillano in produzione, di risultati di laboratorio che si sgretolano contro il caos dell'uso effettivo. Ma se Lux funziona nel mondo reale come nei test di laboratorio, le implicazioni si estendono ben oltre il successo di una startup. Suggerirebbe che il percorso verso agenti AI capaci non passa attraverso i budget più grandi ma attraverso le architetture più intelligenti, e che un piccolo team con le idee giuste può manovrare meglio dei giganti. L'industria tecnologica ha già visto questa storia in passato, anche se raramente rimane vera a lungo.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità

Sponsorizzato

Conto aziendale online per PMI e freelance: come Vivid semplifica la gestione finanziaria e valorizza la liquidità

Di Massimo Costante
Detesto Windows con IA ma la strada è segnata (ed è quella giusta)

Business

Detesto Windows con IA ma la strada è segnata (ed è quella giusta)

Di Valerio Porcu
AWS usa l’IA per "uccidere" Windows (e azzerare i costi di licenza)
1

Business

AWS usa l’IA per "uccidere" Windows (e azzerare i costi di licenza)

Di Valerio Porcu
Obbligare Big Tech a pagare per l'infrastruttura elettrica, un'idea sensata?

Business

Obbligare Big Tech a pagare per l'infrastruttura elettrica, un'idea sensata?

Di Valerio Porcu
Chat Control (CSAR): il compromesso europeo e le incognite ancora aperte

Business

Chat Control (CSAR): il compromesso europeo e le incognite ancora aperte

Di Avv. Giuseppe Croari
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.