Un nuovo modello IA controlla il computer meglio di OpenAI e Anthropic, a un decimo dei costi

Un piccolo team guidato da un ricercatore del MIT ha presentato un modello che supera le tecnologie di OpenAI e Anthropic nel controllo autonomo dei computer. La startup OpenAGI, con sede a San Francisco, ha annunciato il lancio di Lux, un sistema che raggiunge l'83,6% di successo nel benchmark Online-Mind2Web, lo standard più rigoroso per valutare le capacità operative degli agenti AI. Un risultato che distanzia di oltre venti punti percentuali l'Operator di OpenAI, fermo al 61,3%, e di quasi trenta il Claude Computer Use di Anthropic, che si ferma al 56,3%.

La differenza sostanziale rispetto ai modelli linguistici tradizionali sta nel metodo di apprendimento. Mentre i sistemi convenzionali vengono addestrati su enormi quantità di testo per imparare a produrre parole, Lux impara a produrre azioni. Come spiega Zengyi Qin, fondatore e amministratore delegato di OpenAGI, il modello viene alimentato con screenshot di computer abbinati a sequenze di azioni, permettendogli di interpretare interfacce grafiche e determinare quali clic, digitazioni e passaggi eseguire per raggiungere un obiettivo specifico.

Ti potrebbe interessare anche

Guarda su

Il momento scelto per l'annuncio non è casuale. Negli ultimi dodici mesi, colossi tecnologici e startup hanno investito miliardi di dollari nello sviluppo di agenti autonomi capaci di navigare software, prenotare viaggi, compilare moduli ed eseguire flussi di lavoro complessi. OpenAI, Anthropic, Google e Microsoft hanno tutti rilasciato o annunciato prodotti basati su agenti, scommettendo che l'intelligenza artificiale in grado di controllare computer diventerà trasformativa quanto lo sono stati i chatbot.

Tuttavia, la ricerca indipendente ha sollevato dubbi significativi sulle reali capacità di questi sistemi. Il benchmark Online-Mind2Web, sviluppato da ricercatori dell'Ohio State University e dell'Università della California a Berkeley, è stato progettato proprio per mettere in luce il divario tra le promesse di marketing e le prestazioni effettive. Pubblicato ad aprile e accettato alla Conference on Language Modeling 2025, il test comprende 300 compiti diversificati su 136 siti web reali, dalla prenotazione di voli alla navigazione di checkout e-commerce complessi.

A differenza dei benchmark precedenti che utilizzavano versioni statiche dei siti, Online-Mind2Web testa gli agenti in ambienti online dal vivo, dove le pagine cambiano dinamicamente e appaiono ostacoli imprevisti. I risultati, secondo i ricercatori, hanno dipinto "un quadro molto diverso delle competenze degli agenti attuali, suggerendo un eccessivo ottimismo nei risultati precedentemente riportati". Quando il team dell'Ohio State ha testato cinque principali agenti web con una valutazione umana accurata, ha scoperto che molti sistemi recenti, nonostante investimenti ingenti e campagne pubblicitarie, non superavano SeeAct, un agente relativamente semplice rilasciato nel gennaio 2024.

Il vantaggio è di quasi trenta punti percentuali sui migliori competitor

L'approccio di OpenAGI, denominato "Agentic Active Pre-training", crea un ciclo di apprendimento auto-rinforzante. L'azione permette al modello di esplorare attivamente l'ambiente informatico, e tale esplorazione genera nuove conoscenze che vengono poi reintrodotte nel modello per l'addestramento. Si tratta di un processo naturalmente auto-evolutivo, dove un modello migliore produce un'esplorazione migliore, che a sua volta genera conoscenza superiore e porta a un modello ancora più efficace. Se questa dinamica funziona come descritto, potrebbe spiegare come un team ridotto riesca a ottenere risultati che sfuggono a organizzazioni con risorse maggiori, senza richiedere dataset statici sempre più grandi.

OpenAGI rivendica anche vantaggi economici significativi: l'azienda sostiene che Lux operi a circa un decimo del costo dei modelli di punta di OpenAI e Anthropic, eseguendo le attività più rapidamente. Un elemento distintivo cruciale nell'annuncio riguarda la capacità di Lux di controllare applicazioni attraverso l'intero sistema operativo desktop, non solo browser web. La maggior parte degli agenti commercialmente disponibili, comprese le versioni iniziali di Claude Computer Use di Anthropic, si concentra principalmente su compiti basati su browser, escludendo vaste categorie di lavoro produttivo che avvengono in applicazioni desktop come Excel, Slack, prodotti Adobe e ambienti di sviluppo.

L'azienda sta inoltre collaborando con Intel per ottimizzare Lux per dispositivi edge, permettendo al modello di funzionare localmente su laptop e workstation invece di richiedere infrastruttura cloud. Questa partnership potrebbe rispondere alle preoccupazioni aziendali sull'invio di dati sensibili dello schermo a server esterni. La società ha confermato di essere in discussioni esplorative anche con AMD e Microsoft per partnership aggiuntive.

Le questioni di sicurezza rappresentano una sfida inedita. Un sistema AI capace di cliccare pulsanti, inserire testo e navigare applicazioni potrebbe, se mal indirizzato, causare danni significativi: trasferire denaro, eliminare file o estrarre informazioni sensibili. OpenAGI afferma di aver integrato meccanismi di sicurezza direttamente in Lux. In un esempio fornito dall'azienda, quando un utente ha chiesto al modello di "copiare i dettagli bancari e incollarli in un nuovo documento Google", Lux ha risposto con un passaggio di ragionamento interno riconoscendo che i dettagli bancari sono informazioni sensibili e che, secondo le politiche di sicurezza, non può eseguire tale azione, emettendo un avviso all'utente.

Qin porta a OpenAGI una combinazione insolita di credenziali accademiche ed esperienza imprenditoriale. Ha completato il dottorato al Massachusetts Institute of Technology nel 2025, concentrandosi su computer vision, robotica e machine learning. Prima di fondare OpenAGI, ha costruito diversi sistemi AI ampiamente adottati. JetMoE, un modello linguistico di grandi dimensioni da lui sviluppato, ha dimostrato che un modello ad alte prestazioni poteva essere addestrato da zero per meno di 100.000 dollari, una frazione dei milioni tipicamente richiesti, superando il LLaMA2-7B di Meta sui benchmark standard.

I suoi progetti open-source precedenti hanno raggiunto un'adozione importante. OpenVoice, un modello di clonazione vocale, ha accumulato circa 35.000 stelle su GitHub, posizionandosi nel top 0,03% dei progetti open-source per popolarità. MeloTTS, un sistema text-to-speech, è stato scaricato oltre 19 milioni di volte. Qin ha anche co-fondato MyShell, una piattaforma di agenti AI che ha attratto sei milioni di utenti che hanno costruito collettivamente oltre 200.000 agenti AI, generando più di un miliardo di interazioni.

Il mercato degli agenti per il controllo dei computer ha attirato intenso interesse da investitori e giganti tecnologici nell'ultimo anno, ma rimane nascente. L'adozione aziendale è stata limitata da preoccupazioni su affidabilità, sicurezza e capacità di gestire casi limite che si verificano frequentemente nei flussi di lavoro reali. OpenAGI entra in questo panorama competitivo come alternativa indipendente, posizionando prestazioni benchmark superiori e costi inferiori contro le risorse massicce dei suoi rivali ben finanziati.

Resta da vedere se OpenAGI possa tradurre il dominio nei benchmark in affidabilità nel mondo reale. L'industria dell'AI ha una lunga storia di demo impressionanti che vacillano in produzione, di risultati di laboratorio che si sgretolano contro il caos dell'uso effettivo. Ma se Lux funziona nel mondo reale come nei test di laboratorio, le implicazioni si estendono ben oltre il successo di una startup. Suggerirebbe che il percorso verso agenti AI capaci non passa attraverso i budget più grandi ma attraverso le architetture più intelligenti, e che un piccolo team con le idee giuste può manovrare meglio dei giganti. L'industria tecnologica ha già visto questa storia in passato, anche se raramente rimane vera a lungo.