Secondo i risultati del benchmark LMSYS, GPT-4 di OpenAI è stato superato da Claude-3 di Anthropic perdendo il suo primato di "miglior" modello di linguaggio in commercio. Il cambio di guardia segna un momento significativo nel settore, dato che GPT-4 è stato a lungo considerato il punto di riferimento per le prestazioni degli LLM.
Il benchmark LMSYS, frutto della collaborazione tra ricercatori dell'UC Berkley, UC San Diego e Carnegie Mellon University, si propone di valutare i grandi modelli di linguaggio e i chatbot che li utilizzano attraverso l'Arena Chatbot, un sistema di classifica basato sulle valutazioni umane e sull'uso del sistema di rating Elo.
In questo contesto competitivo, Claude 3 Opus ha ottenuto un punteggio di 1253, superando di misura GPT-4 che si è fermato a 1251. Questo risultato, per quanto ristretto, ha spostato GPT-4 dalla sua lunga tenuta della prima posizione.
Non meno notevole è stata la performance di Claude 3 Haiku, un modello di dimensioni "locali" che, nonostante le sue dimensioni esponenzialmente inferiori rispetto ad Opus, è riuscito a classificarsi settimo, entrando ufficialmente nella classe di performance "GPT-4". Questa ascesa dimostra l'efficienza dei modelli più piccoli in compiti specifici e sfida la tendenza alla creazione di modelli sempre più grandi.
[Arena Update]
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) March 26, 2024
70K+ new Arena votes🗳️ are in!
Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥
Congrats @AnthropicAI on the incredible Claude-3 launch!
More exciting… pic.twitter.com/p1Guuf0B3K
Tuttavia, la leadership di Anthropic potrebbe non durare a lungo. Fonti interne ad OpenAI hanno recentemente rivelato che GPT-5 è quasi pronto per il debutto pubblico, previsto per metà anno. Questo nuovo modello promette di superare notevolmente GPT-4 in termini di capacità, grazie all'impiego di "agenti IA esterni" per svolgere compiti specifici, migliorando così la velocità e l'affidabilità nella risoluzione di problemi complessi.
In sintesi, anche se Claude-3 di Anthropic ora guida la classifica LMSYS, l'imminente lancio di GPT-5 potrebbe ribaltare nuovamente la situazione, evidenziando la costante evoluzione e innovazione nel campo dei grandi modelli di linguaggio.