Microsoft ha svelato due modelli di intelligenza artificiale sviluppati internamente che potrebbero rivoluzionare il suo approccio tecnologico. La presentazione di MAI-Voice-1 e MAI-1-preview da parte di Microsoft AI sembra infatti suggerire un passo verso l'indipendenza da OpenAI, ma ufficialmente l'alleanza tra le due aziende resta solida.
Il CEO di Microsoft AI, Mustafa Suleyman, ha chiarito in un'intervista video le motivazioni strategiche dietro questa mossa. "Dobbiamo essere in grado di avere l'expertise interna per creare i modelli più potenti al mondo", ha dichiarato, evidenziando come l'intelligenza artificiale sia ormai fondamentale per il business dell'azienda. Tuttavia, Suleyman ha contemporaneamente ribadito il successo della collaborazione con OpenAI e la speranza che continui nel tempo.
La questione finanziaria alla base di questa strategia è complessa e multiforme. Microsoft ha già investito circa 13 miliardi di dollari in OpenAI, e le due aziende stanno attualmente discutendo la rinegoziazione del loro contratto, che dovrebbe scadere nel 2030. Questo processo di rinegoziazione è strettamente legato ai piani di ristrutturazione di OpenAI in vista di una possibile offerta pubblica iniziale, mentre separatamente si vocifera di trattative per la vendita di azioni dei dipendenti che potrebbero valutare l'azienda ancora non profittevole a 500 miliardi di dollari.
I nuovi modelli di Microsoft
Il modello MAI-Voice-1 presenta caratteristiche tecniche impressionanti, capace di generare un minuto completo di audio in meno di un secondo utilizzando una singola GPU, posizionandosi come uno dei sistemi di sintesi vocale più efficienti attualmente disponibili.
L'anno scorso Microsoft aveva deciso di non rendere pubblico il suo progetto VALL-E 2 proprio per preoccupazioni legate a potenziali abusi. La differenza di approccio è evidente: mentre VALL-E 2 rimase negli archivi aziendali per timori riguardo l'impersonificazione di speaker specifici, MAI-Voice-1 è ora disponibile in Copilot Labs con soltanto un avvertimento minimalista che recita "Copilot può commettere errori". Il modello alimenta già Copilot Daily, un servizio di riassunti quotidiani di notizie ed eventi storici, oltre a Copilot Podcasts.
Sul fronte dei modelli linguistici, MAI-1-preview rappresenta un'architettura mixture-of-experts addestrata su circa 15.000 GPU NVIDIA H100, una cifra significativamente inferiore alle 100.000 unità che alimentano il supercomputer Colossus di xAI, ma comparabile con i requisiti del modello Llama-3.1 di Meta. La piattaforma di valutazione LMArena ha classificato il modello Microsoft al tredicesimo posto in termini di qualità dell'output, posizionandolo dietro grok-3-preview-02-24 ma davanti a gemini-2.5-flash.
Microsoft prevede di esporre MAI-1-preview per scenari specifici di Copilot nelle prossime settimane, con l'obiettivo di raccogliere dati sulle prestazioni del modello in situazioni reali. L'azienda ha anche annunciato che il suo cluster GB200 è ora operativo, segnalando un investimento considerevole nell'infrastruttura necessaria per supportare questi modelli proprietari.
La domanda che emerge da questa evoluzione riguarda la logica economica futura della partnership con OpenAI. Se Microsoft riuscisse effettivamente a creare i modelli più potenti al mondo internamente, risulterebbe difficile giustificare il pagamento continuo a OpenAI per tecnologie potenzialmente meno capaci, a meno che non esistano vincoli contrattuali specifici che lo richiedano.
Il silenzio di OpenAI alle richieste di commento su questi sviluppi lascia aperte diverse interpretazioni sullo stato delle negoziazioni e sulla direzione futura della collaborazione. Mentre Microsoft si prepara a testare le capacità dei suoi modelli proprietari nel mondo reale, l'industria dell'intelligenza artificiale osserva attentamente come si evolverà questo rapporto che ha finora definito molti degli standard del settore.