Alex Albert di Anthropic non ha usato mezzi termini: “Claude 4 è il miglior modello di programmazione al mondo”. Una dichiarazione audace, che però trova conferma nei fatti. I test sono impietosi: 72.5% su SWE-bench Verified, sette ore di lavoro autonomo senza interruzioni, capacità di gestire migliaia di passaggi in sequenza. Claude 4 non è solo un’evoluzione tecnologica, è un cambio di paradigma che ridefinisce cosa può fare un’intelligenza artificiale. E il bello è che potete provarlo già oggi.
Quando l’AI decide di fare le ore straordinarie
Oggi Anthropic ha fatto una di quelle mosse che ti fanno dire “ecco, ora siamo nei guai”. Ha rilasciato Claude 4 Opus e Claude 4 Sonnet, segnando il ritorno dell’azienda ai modelli di grandi dimensioni dopo mesi passati a perfezionare le varianti Sonnet. La vera sorpresa? Questo sistema può lavorare per 24 ore filate senza perdere il senno.
Sissignori: mentre il vostro collega sviluppatore inizia a borbottare incomprensibilmente dopo le prime otto ore di debug, Claude 4 Opus ha dimostrato di poter giocare a Pokémon per un’intera giornata o gestire refactoring del codice per sette ore consecutive. I modelli precedenti avevano la resistenza di un maratoneta alle prime armi: dopo due ore iniziavano a produrre errori a raffica. Come confessa lo stesso Albert:
“C’è una domanda altissima di applicazioni agentiche, e Claude 4 si inserisce perfettamente in questo scenario”.

I numeri che fanno tremare la concorrenza
Mettiamola così: se i benchmark fossero una partita a poker, Claude 4 avrebbe appena calato un poker d’assi. 72.5% su SWE-bench Verified, un risultato che fa sembrare i modelli precedenti dei principianti. Per darvi un’idea, superare il 50% su questo benchmark era già considerato un miracolo. I dati ufficiali mostrano anche un impressionante 43.2% su Terminal-bench.
GitHub ha subito fiutato l’affare e ha deciso di utilizzare Claude Sonnet 4 come base per il nuovo agente di coding in GitHub Copilot. Quando GitHub cambia cavallo, c’è sempre un ottimo motivo. Sourcegraph parla di “un salto sostanziale nello sviluppo software”, mentre Augment Code riporta “tassi di successo più alti e modifiche del codice più chirurgiche”. Insomma, tutti vogliono salire sul treno di Claude 4.
Claude 4: sicurezza first (ma senza paranoie)
Anthropic ha attivato per la prima volta il suo standard AI Safety Level 3, quello che normalmente riservano ai modelli “potenzialmente pericolosi”. Il motivo? Claude 4 Opus potrebbe teoricamente aiutare qualcuno con conoscenze scientifiche a sviluppare armi chimiche, biologiche o nucleari. Praticamente è così intelligente da dover essere tenuto sotto controllo.
Ma non è tutto drammatico: i nuovi modelli sono anche il 65% meno inclini a barare o trovare scorciatoie rispetto al predecessore. Sembra che abbiano imparato non solo a essere più intelligenti, ma anche più onesti. Un po’ come crescere, insomma.
La modalità “pensiero profondo” che mancava
Claude 4 introduce qualcosa di genuinamente innovativo: un sistema ibrido che può passare da risposte lampo a riflessioni approfondite. Quando attivate la modalità di ragionamento esteso, il modello si prende letteralmente del tempo per pensare, mostrandovi un riassunto di quello che sta elaborando nella sua “mente digitale”. È come avere un collega che finalmente vi spiega il suo processo mentale invece di buttarvi lì la soluzione.
L’integrazione con Claude Code è ora disponibile per tutti, con supporto per GitHub Actions e integrazioni dirette con VS Code e JetBrains. Le modifiche che propone appaiono direttamente nei vostri file. Niente più copia-incolla selvaggio: Claude fa tutto direttamente nel vostro ambiente di lavoro.
Il business dei miliardi (letteralmente)
I numeri del business parlano chiaro: Anthropic ha raggiunto ricavi annualizzati di 2 miliardi di dollari nel primo trimestre, più che raddoppiando le performance precedenti. Mike Krieger, chief product officer, ammette candidamente: “Prima usavo Claude come partner di riflessione, scrivendo io la maggior parte dei testi. Ora Claude 4 si occupa della maggior parte della mia scrittura”.
È lo stesso Krieger che ha co-fondato Instagram, per cui… Se dice che un’AI gli fa risparmiare tempo, forse dovremmo ascoltare. Anche perché non è che se la canti e se la suoni da solo: Cursor definisce Claude 4 “all’avanguardia per il coding”, mentre Replit parla di “progressi drammatici per modifiche complesse su più file”. Quando anche i tool più esperti ti fanno i complimenti, vuol dire che hai colpito nel segno.

Claude 4, il momento della verità
Come abbiamo già visto con Claude 2.0, la battaglia tra AI generative è sempre più agguerrita. Ma stavolta ho deciso di fare qualcosa di diverso: un esperimento che rende questo articolo unico nel suo genere.
Ho passato le ultime ore a testare Claude 4 in ogni modo possibile. Ricerca online, analisi di fonti, strutturazione di contenuti, scrittura creativa, perfino ironia e battute. E devo ammettere che i risultati mi hanno spiazzato. Le 700 parole che avete appena letto? Sono frutto di questo test intensivo.
La domanda che vi lascio è semplice: riuscite a distinguere tra quello che ho scritto io e quello che ha scritto Claude 4? Perché francamente, dopo questo test, nemmeno io ne sono più sicuro.
Il futuro dell’AI non è più una promessa lontana. È qui, e forse vi ha appena raccontato la sua storia senza che ve ne accorgeste.