GPT-4 superata, non è più l’IA migliore di tutte

Secondo i risultati del benchmark LMSYS, GPT-4 di OpenAI è stato superato da Claude-3 di Anthropic perdendo il suo primato di "miglior" modello di linguaggio in commercio. Il cambio di guardia segna un momento significativo nel settore, dato che GPT-4 è stato a lungo considerato il punto di riferimento per le prestazioni degli LLM.

Il benchmark LMSYS, frutto della collaborazione tra ricercatori dell'UC Berkley, UC San Diego e Carnegie Mellon University, si propone di valutare i grandi modelli di linguaggio e i chatbot che li utilizzano attraverso l'Arena Chatbot, un sistema di classifica basato sulle valutazioni umane e sull'uso del sistema di rating Elo.

In questo contesto competitivo, Claude 3 Opus ha ottenuto un punteggio di 1253, superando di misura GPT-4 che si è fermato a 1251. Questo risultato, per quanto ristretto, ha spostato GPT-4 dalla sua lunga tenuta della prima posizione.

Non meno notevole è stata la performance di Claude 3 Haiku, un modello di dimensioni "locali" che, nonostante le sue dimensioni esponenzialmente inferiori rispetto ad Opus, è riuscito a classificarsi settimo, entrando ufficialmente nella classe di performance "GPT-4". Questa ascesa dimostra l'efficienza dei modelli più piccoli in compiti specifici e sfida la tendenza alla creazione di modelli sempre più grandi.

[Arena Update]

70K+ new Arena votes🗳️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K
— Arena.ai (@arena) March 26, 2024

Tuttavia, la leadership di Anthropic potrebbe non durare a lungo. Fonti interne ad OpenAI hanno recentemente rivelato che GPT-5 è quasi pronto per il debutto pubblico, previsto per metà anno. Questo nuovo modello promette di superare notevolmente GPT-4 in termini di capacità, grazie all'impiego di "agenti IA esterni" per svolgere compiti specifici, migliorando così la velocità e l'affidabilità nella risoluzione di problemi complessi.

In sintesi, anche se Claude-3 di Anthropic ora guida la classifica LMSYS, l'imminente lancio di GPT-5 potrebbe ribaltare nuovamente la situazione, evidenziando la costante evoluzione e innovazione nel campo dei grandi modelli di linguaggio.

Fonte dell'articolo: www.techspot.com

GPT-4 superata, non è più l’IA migliore di tutte

Le notizie più lette

Ma a qualcuno frega ancora della VR in ambito gaming?

Nuovo driver NVMe Windows: prestazioni migliorate del 65%

Anthropic lancia il Claude Marketplace

Scoperto un modo inatteso per potenziare l'esercizio fisico

Microsoft rinvia una novità di Windows 11, ma ne arriva un'altra

0 Commenti