GPT-4 superata, non è più l’IA migliore di tutte

Chat GPT-4 è stato superato da Claude-3 perdendo il prima di miglior modello di linguaggio, ma l'arrivo di GPT 5 dovrebbe ristabilire l'ordine.

Avatar di Marco Silvestri

a cura di Marco Silvestri

Editor

Secondo i risultati del benchmark LMSYS, GPT-4 di OpenAI è stato superato da Claude-3 di Anthropic perdendo il suo primato di "miglior" modello di linguaggio in commercio. Il cambio di guardia segna un momento significativo nel settore, dato che GPT-4 è stato a lungo considerato il punto di riferimento per le prestazioni degli LLM.

Il benchmark LMSYS, frutto della collaborazione tra ricercatori dell'UC Berkley, UC San Diego e Carnegie Mellon University, si propone di valutare i grandi modelli di linguaggio e i chatbot che li utilizzano attraverso l'Arena Chatbot, un sistema di classifica basato sulle valutazioni umane e sull'uso del sistema di rating Elo.

In questo contesto competitivo, Claude 3 Opus ha ottenuto un punteggio di 1253, superando di misura GPT-4 che si è fermato a 1251. Questo risultato, per quanto ristretto, ha spostato GPT-4 dalla sua lunga tenuta della prima posizione.

Non meno notevole è stata la performance di Claude 3 Haiku, un modello di dimensioni "locali" che, nonostante le sue dimensioni esponenzialmente inferiori rispetto ad Opus, è riuscito a classificarsi settimo, entrando ufficialmente nella classe di performance "GPT-4". Questa ascesa dimostra l'efficienza dei modelli più piccoli in compiti specifici e sfida la tendenza alla creazione di modelli sempre più grandi.

Tuttavia, la leadership di Anthropic potrebbe non durare a lungo. Fonti interne ad OpenAI hanno recentemente rivelato che GPT-5 è quasi pronto per il debutto pubblico, previsto per metà anno. Questo nuovo modello promette di superare notevolmente GPT-4 in termini di capacità, grazie all'impiego di "agenti IA esterni" per svolgere compiti specifici, migliorando così la velocità e l'affidabilità nella risoluzione di problemi complessi.

In sintesi, anche se Claude-3 di Anthropic ora guida la classifica LMSYS, l'imminente lancio di GPT-5 potrebbe ribaltare nuovamente la situazione, evidenziando la costante evoluzione e innovazione nel campo dei grandi modelli di linguaggio.