Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Editor's Choice
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Crea potenti agenti AI con capacità vocali, ora è possibile
Business
Immagine di Mandare una mail con altri in CC ti può mettere nei guai Mandare una mail con altri in CC ti può mettere nei guai...
Immagine di I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugl...

Crea potenti agenti AI con capacità vocali, ora è possibile

Le nuove funzionalità API permettono alle aziende di creare agenti vocali autonomi e multimodali con accesso a strumenti remoti, integrazione PBX e riconoscimento del contesto.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor @Tom's Hardware Italia

Pubblicato il 04/09/2025 alle 13:01

La notizia in un minuto

  • OpenAI ha aggiornato gpt-realtime con supporto per server remoti MCP e protocollo SIP, consentendo l'integrazione diretta con sistemi telefonici aziendali e strumenti esterni
  • Il modello ora supporta input multimodali, elaborando simultaneamente audio, testo e immagini per interazioni più complete e naturali
  • Introdotte nuove voci (Cedar e Marin) e miglioramenti nell'intelligenza contestuale, con applicazioni che spaziano dal customer service alla trascrizione medica in tempo reale

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

OpenAI ha recentemente annunciato una serie di aggiornamenti al suo modello gpt-realtime, e la novità più significativa riguarda l'implementazione del supporto per server remoti Model Context Protocol (MCP), una funzionalità che consente agli sviluppatori di accedere a strumenti e funzioni esterne attraverso server o sistemi separati. Come spiega Charlie Dai, vicepresidente e analista senior di Forrester, questa architettura permette agli agenti di utilizzare risorse che non sono necessariamente installate localmente nell'ambiente di esecuzione dell'applicazione.

Il processo di attivazione risulta sorprendentemente semplice: le aziende devono solamente fornire l'URL del server MCP remoto nella configurazione della sessione API. Una volta stabilita la connessione, il sistema gestisce automaticamente le chiamate agli strumenti esterni, eliminando la necessità di complesse operazioni di integrazione manuale.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

Telefonia e comunicazioni unificate

Parallelamente al supporto MCP, OpenAI ha introdotto la compatibilità con il protocollo SIP (Session Initiation Protocol), lo standard utilizzato per iniziare e gestire chiamate vocali in tempo reale su reti IP. Questa integrazione rappresenta un ponte diretto tra gli agenti vocali basati su AI e i sistemi PBX tradizionali, aprendo la strada a implementazioni in contesti telefonici aziendali.

Le applicazioni pratiche spaziano dalla gestione automatica delle chiamate alla prenotazione di appuntamenti, fino al supporto clienti multilingue nei centri di contatto. La capacità di interfacciarsi direttamente con l'infrastruttura telefonica esistente elimina barriere tecnologiche che fino a oggi limitavano l'adozione su larga scala di queste soluzioni.

L'era della comunicazione multimodale

Una delle aggiunte più interessanti riguarda la capacità di elaborare input visivi insieme a quelli audio e testuali. Il modello gpt-realtime può ora analizzare fotografie, screenshot e altri materiali visivi, rispondendo a domande come "cosa vedi in questa immagine?" o "puoi leggere il testo presente qui?"

La multimodalità sta diventando un'area chiave nel mercato dell'AI conversazionale

Questa evoluzione verso un approccio multimodale riflette una tendenza più ampia nel settore, con competitor come Google che stanno investendo pesantemente in tecnologie simili attraverso progetti come Project Astra. La capacità di processare simultaneamente diversi tipi di input rappresenta un salto qualitativo nell'esperienza utente e nelle possibilità applicative.

Miglioramenti nell'intelligenza contestuale

Oltre alle nuove funzionalità, OpenAI ha potenziato significativamente le capacità cognitive del modello. Gli aggiornamenti includono una migliore comprensione di istruzioni complesse, chiamate più precise agli strumenti esterni e una generazione vocale più naturale ed espressiva. Queste migliorie si traducono in interazioni più fluide e realistiche, avvicinando l'esperienza d'uso a quella di una conversazione umana.

Le implicazioni pratiche di questi miglioramenti si estendono a settori diversi: dalla trascrizione medica in tempo reale agli assistenti per prenotazioni interattive, dal customer service bancario e assicurativo fino al supporto per dipendenti in vari settori industriali. La promessa è quella di abilitare interazioni vocali naturali con latenza ridotta in contesti professionali complessi.

Nuove voci e concorrenza di mercato

L'aggiornamento include anche due nuove opzioni vocali, Cedar e Marin, che le aziende possono utilizzare attraverso l'API per personalizzare l'esperienza dei propri utenti. Questa espansione delle opzioni vocali riflette l'importanza crescente dell'aspetto emotivo e relazionale nell'interazione con sistemi automatizzati.

Nel frattempo, il principale investitore di OpenAI, Microsoft, ha annunciato questa settimana due nuovi modelli text-to-speech, confermando l'intensificarsi della competizione nel settore. L'azienda di Redmond sostiene che questi modelli potranno supportare un'ampia gamma di casi d'uso enterprise, segnalando come il mercato dell'AI conversazionale stia rapidamente maturando verso applicazioni aziendali sofisticate.

Fonte dell'articolo: www.cio.com

Le notizie più lette

#1
NordVPN - Recensione
4

Hardware

NordVPN - Recensione

#2
Surfshark VPN - Recensione
2

Hardware

Surfshark VPN - Recensione

#3
CyberGhost VPN - Recensione
4

Hardware

CyberGhost VPN - Recensione

#4
ExpressVPN - Recensione
4

Hardware

ExpressVPN - Recensione

#5
PlayStation dice addio ai giochi single player su PC, perché?

Editoriale

PlayStation dice addio ai giochi single player su PC, perché?

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca triangoli

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

GPT-5.4 è qui: l'AI che usa il PC meglio di te

Business

GPT-5.4 è qui: l'AI che usa il PC meglio di te

Di Roberto Buonanno
I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya
1

Business

I Ray-Ban di meta ti spiano:  momenti intimi finiscono sugli schermi in Kenya

Di Valerio Porcu
Mandare una mail con altri in CC ti può mettere nei guai
2

Business

Mandare una mail con altri in CC ti può mettere nei guai

Di Avv. Giuseppe Croari
Lezioni di marketing da un’azienda che avremmo voluto odiare

Business

Lezioni di marketing da un’azienda che avremmo voluto odiare

Di José Compagnone
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • SosHomeGarden
  • Aibay
  • Coinlabs

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.