Microsoft ha appena svelato un modello di intelligenza artificiale che potrebbe ridefinire il concetto di automazione su PC: Fara-7B, un sistema capace di controllare mouse e tastiera per completare autonomamente attività complesse come acquisti online, o ricerche web. A differenza di Copilot, che richiede connessione cloud e l'invio di dati ai data center, questo modello sperimentale gira interamente in locale, aprendo scenari inediti per privacy e latenza. Si tratta del primo "small language model agenziale" di Microsoft progettato specificamente per l'uso del computer, un passo significativo verso l'intelligenza artificiale che non si limita a rispondere, ma agisce.
Con i suoi 7 miliardi di parametri, Fara-7B è una frazione rispetto ai 175 miliardi di GPT-3 del 2020, eppure Microsoft sostiene prestazioni all'avanguardia nella sua categoria dimensionale. Il confronto più interessante riguarda proprio GPT-4o di OpenAI: secondo i dati dell'azienda di Redmond, Fara-7B supera il modello rivale quando configurato per la navigazione web, nonostante richieda risorse computazionali drasticamente inferiori. Un risultato che dimostra come l'efficienza architettonica possa competere con la forza bruta dei parametri.
L'approccio tecnico di Fara-7B si distingue per la sua percezione visiva diretta della pagina web e dell'ambiente desktop. Il modello elabora le informazioni sullo schermo esattamente come farebbe un utente umano, senza ricorrere a modelli separati per analizzare l'interfaccia né ad alberi di accessibilità o metadati strutturati. Questa modalità di interazione basata sulla computer vision rappresenta un cambio di paradigma rispetto ai sistemi tradizionali che si appoggiano a informazioni DOM o API dedicate.
Microsoft ha pubblicato tre video dimostrativi che mostrano Fara-7B all'opera: completamento di un acquisto online con navigazione del sito e-commerce, ricerca di informazioni con sintesi dei risultati, e calcolo di distanze tramite mappe online. L'esecuzione appare più lenta rispetto a un operatore umano e richiede approvazione manuale per passaggi critici come l'inserimento delle credenziali di accesso, ma l'automazione end-to-end è funzionante. La velocità di risposta e l'accuratezza miglioreranno inevitabilmente con le iterazioni successive.
Il vantaggio principale dell'esecuzione nativa sta nella latenza ridotta e nella privacy assoluta, dato che tutti i dati rimangono sul dispositivo locale senza mai transitare verso server esterni. Una differenza sostanziale rispetto a Copilot per Windows 11, che pur offrendo funzionalità agenziali simili necessita di connessione costante ai data center Microsoft, sollevando inevitabili questioni sulla raccolta dati nonostante le policy di protezione implementate dall'azienda.
Microsoft non nasconde i limiti attuali del sistema. I test interni hanno evidenziato errori occasionali nell'accuratezza su compiti complessi, difficoltà nel seguire istruzioni articolate e suscettibilità alle allucinazioni tipiche dei modelli generativi. Per questo motivo, l'azienda raccomanda esplicitamente di testare Fara-7B esclusivamente in ambienti sandbox, monitorandone l'esecuzione ed evitando dati sensibili o domini ad alto rischio. Sono stati integrati anche meccanismi di salvaguardia che impediscono al modello di eseguire operazioni potenzialmente dannose.
Dal punto di vista della distribuzione, Fara-7B viene rilasciato come file da 16,6 GB destinato all'utilizzo con Magnetic-UI, la piattaforma di testing per ricerca AI di Microsoft. L'azienda ha però annunciato una versione ottimizzata per i PC Copilot+ con Windows 11, i dispositivi equipaggiati con NPU dedicate all'elaborazione AI.