Tanto Anthropic quanto OpenAI hanno recentemente presentato novità per gli strumenti dedicati alla scrittura di codice. Per la prima si stratta di Claude Opus 4.6, una nuova versione, che si posiziona come uno strumento specialistico per la gestione di codebase estese e compiti agentici complessi. Quasi in contemporanea, OpenAI ha risposto con il lancio di GPT-5.3-Codex, definendolo il suo modello di coding più avanzato fino ad oggi.
Si rinnova quindi la competizione in un settore molto ambito: sono infatti centinaia di migliaia, in tutto il mondo, gli sviluppatori che si affidano a strumenti per l'automazione del flusso di lavoro. In partita naturalmente troviamo anche Google, con Gemini Code Assist da una parte e l’innovativo Antigravity dall’altra.
Le novità di Claude e ChatGPT
Scott White, Head of Product for Enterprise di Anthropic, describe le novità soffermandosi sul concetto di vibe working, che sembra proprio un ampliamento di qualcosa che già conosciamo, cioè il Vibe Coding.
Dalla stesura di righe di codice si passa infatti a delegare intere sessioni operative a sistemi capaci di comprendere l'intento senza micro-gestione costante. La capacità di questi modelli di agire come partner operativi sposta il baricentro dell'attività umana dalla mera esecuzione alla supervisione strategica di team intelligenti.
Il nuovo Claude Opus 4.6 introduce per la prima volta nella sua classe una finestra di contesto da 1 milione di token. Questa caratteristica tecnica permette di ingerire interi sistemi software senza subire il degrado qualitativo noto come context rot. Attraverso la funzione di context compaction, il modello è in grado di riassumere autonomamente la propria memoria operativa per mantenere la coerenza su compiti di lunga durata.
OpenAI invece ha focalizzato le prestazioni della sua GPT-5.3-Codex sulla velocità di esecuzione e l'interattività. Il sistema risulta il 25% più veloce rispetto alla versione GPT-5.2-Codex, permettendo agli sviluppatori di sterzare l'attività dell'agente in tempo reale. L'integrazione tra terminale e cloud mira a mantenere l'utente costantemente nel flusso creativo.
|
Caratteristica |
Claude Opus 4.6 (Anthropic) |
GPT-5.3-Codex (OpenAI) |
|
Produttore |
Anthropic |
OpenAI |
|
Focus Principale |
Reasoning complesso e grandi codebase |
Coding agentico veloce e interattivo |
|
Velocità |
Latenza variabile (modalità effort) |
25% più veloce della generazione precedente |
|
Context Window |
1 milione di token (Beta) |
Circa 400.000 token (compattazione forte) |
|
Punti di Forza |
Adaptive thinking, agent teams, 128k output |
Interactive steering, self-bootstrapping |
|
Benchmark Coding |
Terminal-Bench 2.0: leader |
Terminal-Bench 2.0: 77,3% |
|
Costo / Accesso |
$5/$25 per mln token (base) |
Piani ChatGPT Plus/Team/Enterprise |
I benchmark confermano un divario netto tra le due soluzioni in base allo scenario d'uso specifico. Claude Opus 4.6 domina la valutazione GDPval-AA con un punteggio di 1606 Elo, staccando GPT-5.2 di 144 punti nelle attività di knowledge work. Sul fronte del recupero informazioni in contesti estesi, il modello raggiunge un'accuratezza del 76% nel test MRCR v2, contro il modesto 18,5% registrato da Sonnet 4.5.
OpenAI risponde stabilendo nuovi primati su Terminal-Bench 2.0 con un'accuratezza del 77,3%, dimostrando una superiorità nell'uso agentico degli strumenti di sistema. GPT-5.3-Codex eccelle nella creazione di applicazioni web complesse partendo da prompt generici, iterando autonomamente su bug e miglioramenti estetici. Questa capacità di auto-correzione è stata utilizzata internamente dai ricercatori della società per accelerare lo sviluppo dello stesso modello.
Come sempre, è doveroso ricordare che i benchmark raccontano sempre una storia parziale. Sono utili a farsi un’idea degli oggetti che cerchiamo di misurare, ma non bisogna farsi emettere giudizi definitivi basati unicamente su questi risultati.
Oltre il prompting: la gestione dei team di agenti
L'architettura proposta da Anthropic si estende all'ecosistema Cowork, dove il modello opera su Excel e PowerPoint in modo agentico. La funzione Agent Teams permette di coordinare una squadra di sub-agenti che lavorano in parallelo su task indipendenti. L'utente può intervenire direttamente su ogni agente attraverso comandi specifici per garantire la supervisione esperta.
OpenAI punta invece sulla Codex app per macOS, concepita come un centro di comando per gestire agenti multipli. Questa piattaforma permette di monitorare i progressi, rivedere i diff del codice e distribuire competenze riutilizzabili. Tuttavia, l'adozione di queste tecnologie richiede una valutazione attenta del ritorno sull'investimento in contesti aziendali complessi.
Costi e sicurezza
Anthropic ha mantenuto un prezzo base di 5 dollari per milione di token in ingresso e 25 dollari per l'uscita. Questa distinzione tra lettura e scrittura è standard, ma i costi subiscono un incremento forzato quando il prompt supera i 200.000 token. In tali scenari, il prezzo raddoppia per l'input (10 dollari) e sale a 37,50 dollari per l'output, rendendo l'uso del contesto esteso una scelta economicamente rilevante.
Sebbene la capacità di gestire 1 milione di token sia impressionante, il costo proibitivo dei prompt lunghi limita questa funzione a scenari enterprise critici. Non si può semplicemente attivare lo strumento in modo incontrollato, perché si rischia di veder arrivare bollette milionarie. Invece, bisogna fermarsi e riflettere lucidamente su ciò che serve veramente e sui vantaggi che si possono ottenere da questo investimento. Come con ogni altro investimento.
Sul piano della sicurezza, Anthropic ha implementato audit che mostrano bassi tassi di misaligned behavior. OpenAI ha risposto stanziando 10 milioni di dollari in crediti per accelerare la cyberdifesa tramite modelli avanzati. Entrambe le società stanno cercando di bilanciare le capacità agentiche con protocolli di controllo rigorosi.
Il mercato del software sta reagendo con una certa volatilità a queste innovazioni. Molti investitori temono che l'automazione profonda possa impattare sul valore delle attuali piattaforme SaaS. L'era del vibe working impone un reskilling della forza lavoro, dove la competenza tecnica deve unirsi a una visione strategica più ampia.
Succede quindi qualcosa di simile a ciò che abbiamo visto con Google Project Genie; gli investitori mostrano prudenza, forse eccessiva, verso quelle aziende che potrebbero subire dei danni dai nuovi strumenti di automazione. Una prudenza che può portare a cali anche drastici del valore azionario, con conseguenti ricadute sulla salute delle aziende e sul benessere dei lavoratori - non si possono escludere nuovi licenziamenti.
Ridefinire l’umano
In ogni caso, l’ulteriore miglioramento di questi strumenti ci ricorda che noi esseri umani dobbiamo subito rinunciare a tutte quelle attività meccaniche e ripetitive che le macchine possono fare meglio di noi, per un decimo del costo.
Parole come reskilling e upskilling sono diventate forse già noiose ma non hanno perso di significato; quelli di noi che non sono pronti al cambiamento devono “mettersi sotto” per migliorare sé stessi e poter continuare a produrre valore.
L’Umano smette di produrre ma lavora con la macchina per occuparsi di allineamento e qualità finale del prodotto. Ciò è possibile solo se quell’Umano è una persona capace e competente.
Se già oggi, invece, abbiamo persone il cui lavoro è sostituibile dalle IA, allora è di quelle persone che dobbiamo occuparci prima di tutto. Offrendo loro un percorso formativo che le renda migliori della Macchina.
Naturalmente lo scenario ideale è quello dove tutto il mondo ha abbracciato il concetto di Universal Basic Income, e dove ogni stato si è dotato di meccanismi fiscali che lo rendano possibile. Tuttavia non possiamo essere certi che tale scenario arriverà, o quando.
Nel frattempo continua a valere il sistema che abbiamo usato per gli ultimi 200 anni circa, quello che ci vede tutti impegnati a “produrre” qualcosa.