Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Sconti & Coupon

Novità!

Prova la nuova modalità di navigazione con le storie!

Accedi a Xenforo
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata Abbiamo fatto un giro in Silicon Valley, ecco com'è andata...
Immagine di C'è chi è convinto che i large language model possano pensare C'è chi è convinto che i large language model possano pens...

Crea potenti agenti AI con capacità vocali, ora è possibile

Le nuove funzionalità API permettono alle aziende di creare agenti vocali autonomi e multimodali con accesso a strumenti remoti, integrazione PBX e riconoscimento del contesto.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più
Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

Pubblicato il 04/09/2025 alle 13:01

La notizia in un minuto

  • OpenAI ha aggiornato gpt-realtime con supporto per server remoti MCP e protocollo SIP, consentendo l'integrazione diretta con sistemi telefonici aziendali e strumenti esterni
  • Il modello ora supporta input multimodali, elaborando simultaneamente audio, testo e immagini per interazioni più complete e naturali
  • Introdotte nuove voci (Cedar e Marin) e miglioramenti nell'intelligenza contestuale, con applicazioni che spaziano dal customer service alla trascrizione medica in tempo reale
Riassunto generato con l'IA. Potrebbe non essere accurato.

OpenAI ha recentemente annunciato una serie di aggiornamenti al suo modello gpt-realtime, e la novità più significativa riguarda l'implementazione del supporto per server remoti Model Context Protocol (MCP), una funzionalità che consente agli sviluppatori di accedere a strumenti e funzioni esterne attraverso server o sistemi separati. Come spiega Charlie Dai, vicepresidente e analista senior di Forrester, questa architettura permette agli agenti di utilizzare risorse che non sono necessariamente installate localmente nell'ambiente di esecuzione dell'applicazione.

Il processo di attivazione risulta sorprendentemente semplice: le aziende devono solamente fornire l'URL del server MCP remoto nella configurazione della sessione API. Una volta stabilita la connessione, il sistema gestisce automaticamente le chiamate agli strumenti esterni, eliminando la necessità di complesse operazioni di integrazione manuale.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Telefonia e comunicazioni unificate

Parallelamente al supporto MCP, OpenAI ha introdotto la compatibilità con il protocollo SIP (Session Initiation Protocol), lo standard utilizzato per iniziare e gestire chiamate vocali in tempo reale su reti IP. Questa integrazione rappresenta un ponte diretto tra gli agenti vocali basati su AI e i sistemi PBX tradizionali, aprendo la strada a implementazioni in contesti telefonici aziendali.

Le applicazioni pratiche spaziano dalla gestione automatica delle chiamate alla prenotazione di appuntamenti, fino al supporto clienti multilingue nei centri di contatto. La capacità di interfacciarsi direttamente con l'infrastruttura telefonica esistente elimina barriere tecnologiche che fino a oggi limitavano l'adozione su larga scala di queste soluzioni.

L'era della comunicazione multimodale

Una delle aggiunte più interessanti riguarda la capacità di elaborare input visivi insieme a quelli audio e testuali. Il modello gpt-realtime può ora analizzare fotografie, screenshot e altri materiali visivi, rispondendo a domande come "cosa vedi in questa immagine?" o "puoi leggere il testo presente qui?"

La multimodalità sta diventando un'area chiave nel mercato dell'AI conversazionale

Questa evoluzione verso un approccio multimodale riflette una tendenza più ampia nel settore, con competitor come Google che stanno investendo pesantemente in tecnologie simili attraverso progetti come Project Astra. La capacità di processare simultaneamente diversi tipi di input rappresenta un salto qualitativo nell'esperienza utente e nelle possibilità applicative.

Miglioramenti nell'intelligenza contestuale

Oltre alle nuove funzionalità, OpenAI ha potenziato significativamente le capacità cognitive del modello. Gli aggiornamenti includono una migliore comprensione di istruzioni complesse, chiamate più precise agli strumenti esterni e una generazione vocale più naturale ed espressiva. Queste migliorie si traducono in interazioni più fluide e realistiche, avvicinando l'esperienza d'uso a quella di una conversazione umana.

Le implicazioni pratiche di questi miglioramenti si estendono a settori diversi: dalla trascrizione medica in tempo reale agli assistenti per prenotazioni interattive, dal customer service bancario e assicurativo fino al supporto per dipendenti in vari settori industriali. La promessa è quella di abilitare interazioni vocali naturali con latenza ridotta in contesti professionali complessi.

Nuove voci e concorrenza di mercato

L'aggiornamento include anche due nuove opzioni vocali, Cedar e Marin, che le aziende possono utilizzare attraverso l'API per personalizzare l'esperienza dei propri utenti. Questa espansione delle opzioni vocali riflette l'importanza crescente dell'aspetto emotivo e relazionale nell'interazione con sistemi automatizzati.

Nel frattempo, il principale investitore di OpenAI, Microsoft, ha annunciato questa settimana due nuovi modelli text-to-speech, confermando l'intensificarsi della competizione nel settore. L'azienda di Redmond sostiene che questi modelli potranno supportare un'ampia gamma di casi d'uso enterprise, segnalando come il mercato dell'AI conversazionale stia rapidamente maturando verso applicazioni aziendali sofisticate.

Fonte dell'articolo: www.cio.com

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Non perdere gli ultimi aggiornamenti

Newsletter Telegram

I più letti di oggi


  • #1
    Google sta uccidendo internet come lo conosciamo
  • #2
    Il nuovo update di Nova Launcher segna ufficialmente la fine di un'era
  • #3
    AliExpress, tornano i Choice Day! A novembre sconti anche con PayPal
  • #4
    Apple Notes arriva su Apple Watch con watchOS 26
  • #5
    iPhone 17: ora potete ripararlo ufficialmente da soli
  • #6
    Scopri online la miglior offerta Sorgenia per la tua attività: ti basta la P.IVA
Articolo 1 di 5
C'è chi è convinto che i large language model possano pensare
Un'analisi confronta il ragionamento CoT con i processi cognitivi umani e i risultati dei benchmark.
Immagine di C'è chi è convinto che i large language model possano pensare
Leggi questo articolo
Articolo 2 di 5
Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Assolutamente. Ecco un sommario di 25 parole che riassume il "Grand Tour" con il focus sull'innovazione e il ruolo italiano in California: Dalle aule di Stanford ai laboratori Google, il nostro Grand Tour in Silicon Valley ha svelato il vero spirito della *disruption* AI. Abbiamo trovato una forte comunità italiana tra campus, startup e big tech: l'innovazione è qui.
Immagine di Abbiamo fatto un giro in Silicon Valley, ecco com'è andata
Leggi questo articolo
Articolo 3 di 5
Perché Alphabet trasforma i progetti moonshot in società indipendenti
L'interesse concreto nei progetti resta quando questi diventano aziende indipendenti.
Immagine di Perché Alphabet trasforma i progetti moonshot in società indipendenti
Leggi questo articolo
Articolo 4 di 5
Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Per la resilienza industriale, gli UPS trifase sono un pilastro contro i blackout. Evitano danni e fermi. Caratteristiche chiave: modularità, scalabilità e monitoraggio remoto.
Immagine di Tolleranza zero al blackout: l'UPS trifase come pilastro della resilienza industriale e aziendale
Leggi questo articolo
Articolo 5 di 5
25 strumenti AI per la creazione di contenuti e il marketing
Una guida analizza 25 strumenti IA per la creazione di contenuti, evidenziando una tendenza all'automazione accessibile che promette di abbassare la barriera d'ingresso al mercato.
Immagine di 25 strumenti AI per la creazione di contenuti e il marketing
Leggi questo articolo
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2025 3Labs Srl. Tutti i diritti riservati.