Il mercato dell'intelligenza artificiale vocale sta vivendo un'accelerazione senza precedenti, con i giganti tech impegnati in una corsa all'acquisizione dei migliori talenti disponibili. Google DeepMind ha appena siglato un accordo di licenza con Hume AI, startup specializzata in AI vocale emotiva, portando a bordo il CEO Alan Cowen e circa sette ingegneri di punta dell'azienda. L'operazione, i cui dettagli finanziari non sono stati resi pubblici, conferma come la voce stia diventando il nuovo campo di battaglia dell'intelligenza artificiale generativa.
Secondo quanto riportato da Wired, il team acquisito lavorerà specificamente al miglioramento delle funzionalità vocali di Gemini, l'assistente AI di Google. La parte restante di Hume AI continuerà a operare come fornitore di tecnologia per altre aziende del settore, mantenendo attiva la licenza della propria piattaforma. TechCrunch ha contattato sia Google che Hume AI per ottenere conferme ufficiali sull'operazione.
Quella che nel gergo dell'industria viene definita "acquihire" rappresenta una strategia sempre più diffusa tra le big tech per aggirare il controllo normativo. Invece di acquisire l'intera società, con tutto ciò che comporta in termini di scrutinio antitrust, le aziende si limitano ad assumere i talenti chiave attraverso accordi di licenza. La Federal Trade Commission statunitense ha recentemente annunciato che esaminerà più attentamente questo tipo di operazioni, preoccupata per le possibili implicazioni concorrenziali.
Google non è nuova a questa pratica: nel 2024 aveva già acquisito il CEO e altri ricercatori di punta di Windsurf, startup virale specializzata in coding AI. Anche OpenAI ha seguito la stessa strategia negli ultimi mesi, portando a bordo interi team di startup come Covogo e Roi. Il fenomeno sta modificando radicalmente il panorama competitivo dell'AI, concentrando i migliori talenti nelle mani di pochi player dominanti.
Il punto di forza tecnologico di Hume AI risiede nella sua Empathetic Voice Interface, lanciata nel 2024. Si tratta di un sistema di AI conversazionale dotato di intelligenza emotiva, capace di adattare risposte e tono in base allo stato d'animo dell'interlocutore rilevato dalla voce. La startup ha raccolto quasi 80 milioni di dollari di finanziamenti secondo PitchBook, e secondo Wired prevede di generare 100 milioni di dollari di ricavi nel corso di quest'anno, cifre che testimoniano il crescente interesse del mercato per questa tecnologia.
Google sta potenziando costantemente Gemini Live, la funzionalità che consente conversazioni naturali con il chatbot. Il mese scorso l'azienda di Mountain View ha rilasciato un nuovo modello audio native per le Live API, migliorando significativamente la capacità di "gestire flussi di lavoro complessi", come indicato nelle note di rilascio delle API Gemini. L'integrazione del team di Hume AI dovrebbe accelerare ulteriormente questo sviluppo, portando capacità di riconoscimento emotivo a un sistema già avanzato dal punto di vista tecnico.
La competizione nel settore audio AI è feroce. OpenAI starebbe preparando un importante aggiornamento dei propri modelli audio in vista del lancio, previsto quest'anno, di un dispositivo personale sviluppato in collaborazione con Jonny Ive e la sua azienda io. Indiscrezioni recenti suggeriscono che il dispositivo potrebbe assumere la forma di auricolari wireless, puntando su un'esperienza audio-first che renderebbe la voce l'interfaccia primaria di interazione con l'AI.
Anche Meta ha accelerato il proprio sviluppo nel campo audio acquisendo la startup Play AI lo scorso anno. Gli occhiali smart Ray-Ban del gruppo di Menlo Park stanno infatti integrando sempre più funzionalità vocali e audio, dalla capacità di isolare conversazioni in ambienti rumorosi al controllo hands-free per chiamate, messaggi, musica e fotografie. La strategia di Meta punta chiaramente sui dispositivi indossabili come nuovo paradigma di interazione con l'intelligenza artificiale.
"La voce è l'unica modalità di input accettabile per i dispositivi indossabili", ha dichiarato l'investitrice Vanessa Larco a TechCrunch, aggiungendo che "questa acquisizione non farà altro che accelerare la necessità di applicazioni vocali". La domanda di capacità vocali avanzate continua infatti a crescere esponenzialmente: all'inizio di questo mese ElevenLabs, startup specializzata nella generazione di voci AI, ha annunciato di aver superato i 330 milioni di dollari di ricavi ricorrenti annuali, un traguardo che dimostra la maturità commerciale raggiunta dal settore.