Anthropic rilancia la sfida a OpenAI con Opus 4.5

Anthropic ha alzato il tiro nella corsa ai modelli di frontiera con il rilascio di Opus 4.5, la sua soluzione flagship che segna un punto di svolta nelle prestazioni di coding e nell'esperienza utente complessiva. L'annuncio arriva in un momento particolarmente caldo per il settore dell'intelligenza artificiale generativa, con OpenAI e Google che hanno appena aggiornato le proprie offerte di punta. La mossa di Anthropic si distingue per un approccio che bilancia potenza bruta e usabilità pratica, affrontando finalmente uno dei limiti più frustranti della piattaforma Claude.

La novità più rilevante per l'utenza consumer riguarda la gestione delle conversazioni prolungate. Claude non interromperà più bruscamente i dialoghi quando raggiungono dimensioni eccessive, un problema che affliggeva gli utenti anche quando disponevano ancora di margine nelle loro quote di utilizzo settimanale. Il vecchio sistema implementava un limite rigido a 200.000 token di finestra contestuale, oltre il quale la conversazione veniva terminata senza preavviso.

La filosofia precedente di Anthropic rifletteva una scelta tecnica precisa: invece di adottare la strategia di altri Large Language Model che eliminano progressivamente i messaggi più vecchi dal contesto, Claude preferiva terminare la sessione piuttosto che degradare gradualmente la qualità delle risposte. Questo approccio evitava conversazioni sempre più incoerenti in cui il modello iniziava a "dimenticare" informazioni in base alla loro anzianità temporale, ma al prezzo di interruzioni improvvise che compromettevano il flusso di lavoro.

La soluzione implementata ora prevede un processo automatico di sintesi intelligente che opera dietro le quinte. Il sistema analizza le fasi iniziali della conversazione, scarta ciò che considera superfluo e conserva gli elementi critici, permettendo di proseguire il dialogo senza perdere coerenza. Questo miglioramento si applica retroattivamente a tutti i modelli Claude attualmente disponibili nelle applicazioni web, mobile e desktop, non solo a Opus 4.5.

Opus 4.5 è il primo modello a superare la soglia dell'80% di accuratezza nel benchmark SWE-Bench Verified, raggiungendo l'80,9%

Sul fronte delle prestazioni pure, Opus 4.5 stabilisce un nuovo standard nel coding agentico. Il modello ha conseguito l'80,9% di accuratezza nel benchmark SWE-Bench Verified, superando sia GPT-5.1-Codex-Max di OpenAI (77,9%) che Gemini 3 Pro di Google (76,2%). Si tratta di un risultato particolarmente significativo considerando che SWE-Bench Verified valuta la capacità dei modelli di risolvere problematiche reali di ingegneria del software, un compito che richiede comprensione contestuale profonda e capacità di manipolare codice complesso.

Le eccellenze di Opus 4.5 si concentrano specificamente nell'uso agentico di strumenti e nelle attività di coding autonomo, settori dove la capacità di pianificare sequenze multi-step e interagire con API esterne risulta determinante. Tuttavia, persiste un divario rispetto a GPT-5.1 nel ragionamento visivo, come evidenziato dai risultati nel benchmark MMMU (Massive Multitask Language Understanding con componenti multimodali), segno che la competizione tra i modelli di frontiera rimane aperta su diversi fronti.

Per gli sviluppatori che utilizzano l'API di Anthropic, le stesse logiche di gestione della memoria conversazionale sono accessibili attraverso funzionalità di context management e context compaction. Questi strumenti permettono implementazioni personalizzate della compressione contestuale, aprendo scenari interessanti per applicazioni enterprise che necessitano di mantenere conversazioni estese con agenti AI senza degradare la qualità delle interazioni o incorrere in costi eccessivi legati all'utilizzo dei token.

Fonte dell'articolo: arstechnica.com