OpenAI sta presentando ad alcuni suoi clienti un innovativo modello di AI multimodale, capace di dialogare e al tempo stesso riconoscere oggetti. Lo rivela un recente report di The Information, basandosi su fonti anonime che hanno avuto l'opportunità di testarlo. Questa novità potrebbe essere annunciata dall'azienda lunedì prossimo.
Il nuovo modello promette prestazioni superiori nella interpretazione di immagini e audio rispetto agli attuali sistemi di trascrizione e sintesi vocale separati di OpenAI.
Sarebbe in grado di assistere gli operatori del servizio clienti offrendo una comprensione più approfondita dell'intonazione o del sarcasmo nei toni dei chiamanti. In teoria, potrebbe assistere anche gli studenti nelle materie matematiche o tradurre insegne nel mondo reale.
Fonti citate dal report affermano che questo modello supererebbe GPT-4 Turbo nel rispondere a determinati tipi di domande, pur mantenendo delle vulnerabilità nel fornire risposte erronee.
Altre anticipazioni suggeriscono che OpenAI sta preparando una funzionalità di ChatGPT in grado di effettuare chiamate telefoniche, come evidenziato da un codice relazionato alle chiamate divulgato dallo sviluppatore Ananay Arora, che ha inoltre rilevato l’allestimento di server dedicati alla comunicazione audio e video in tempo reale da parte di OpenAI.
Il CEO di OpenAI, Sam Altman, ha precisato che l'annuncio previsto per la prossima settimana non riguarderà GPT-5, il modello successivo che si preannuncia significativamente superiore rispetto a GPT-4, il cui lancio è atteso entro fine anno. Altman ha inoltre escluso novità riguardo al lancio di un nuovo motore di ricerca alimentato da AI.
Anche se non verrà presentato un motore di ricerca, le rivelazioni secondo The Information potrebbero comunque far scemare l'attenzione mediatica riservata alla conferenza degli sviluppatori Google I/O, dove Google ha pianificato di testare l'impiego dell'AI per effettuare chiamate telefoniche.
Google sta inoltre lavorando su un'assistente all'avanguardia denominata “Pixie”, capace di interagire con gli oggetti attraverso la fotocamera di un dispositivo per fornire direzioni o istruzioni sull’utilizzo.
OpenAI ha programmato di svelare i dettagli attraverso una diretta streaming sul proprio sito il prossimo lunedì.