Tecnologia

Qwen3 Max batte GPT-5.2: il trionfo cinese nel ragionamento AI

Qwen3-Max-Thinking supera Gemini 3 Pro e GPT-5.2 nell'esame HLE, dimostrando l'efficienza del ragionamento cinese con costi competitivi.

Gianluca Riccio

27 Gennaio 2026

Entra nel Canale Whatsapp di Futuro Prossimo >

Quando Alibaba Cloud ha svelato Qwen3-Max-Thinking, il mondo dell’AI ha trattenuto il fiato. Non per l’ennesimo modello open source, ma per un mostro del ragionamento proprietario che ha appena demolito i benchmark occidentali.

Su Humanity’s Last Exam (la prova definitiva con 3.000 domande Google-proof) Qwen3 ha segnato 49.8, staccando Gemini 3 Pro (45.8) e GPT-5.2 (45.5) con la nonchalance di un campione olimpico. Dietro le quinte, un’architettura rivoluzionaria basata su test-time scaling: invece di generare centinaia di risposte, Qwen3 riflette su ogni passo, identifica vicoli ciechi e rialloca potenza con efficienza spietata.

Mentre la Silicon Valley punta sui parametri, Shenzhen scommette sull’eleganza algoritmica. È una dichiarazione geopolitica servita con un sorriso ironico.

L’Architettura che ridefinisce il “pensiero macchina”

La vera innovazione di Qwen3-Max-Thinking non sta nei parametri (ne ha meno di GPT-5.2) ma nella sua capacità di “pensare” come un umano esperto. Mentre i modelli tradizionali generano token in modo lineare, ~~Qwen3 adotta una strategia chiamata “test-time scaling”~~, che trasforma il calcolo in intelligenza riflessiva.

Immaginate un matematico che, davanti a un problema complesso, non butta giù cento formule a caso ma ne prova una, la critica, scarta il 90% del percorso sbagliato e rifinisce il 10% con precisione chirurgica.

Ecco il cuore del sistema: un meccanismo proprietario di “take-experience” che permette al modello di accumulare insight da ogni passo di ragionamento, riconoscendo i vicoli ciechi prima di percorrerli e riallocando potenza computazionale solo verso le incertezze irrisolte.

Il risultato? Un salto netto in benchmark PhD-level come GPQA (da 90.3 a 92.8) senza esplodere i costi token, perché Qwen3 evita di ricalcolare ciò che già sa. È una lezione di umiltà per chi crede che l’intelligenza artificiale debba per forza essere costosa e dispendiosa: qui l’eleganza algoritmica batte la brute force, e lo fa con la nonchalance di chi ha studiato Sun Tzu.

Tool-Use adattivo: quando il ragionamento Incontra il mondo reale

I modelli di “pensiero puro” hanno sempre sofferto di una sindrome da torre d’avorio: bravissimi in teoria, goffi nella pratica.

Qwen3-Max-Thinking rompe questo schema integrando in modo nativo tre strumenti critici (ricerca web, interprete Python e memoria contestuale) senza richiedere prompt manuali. Il modello decide autonomamente quando passare dalla riflessione all’azione. Per una domanda su tassi di interesse attuali attiva la ricerca in tempo reale; per calcolare un flusso di cassa chiama l’interprete; per ricordare preferenze utente attinge alla memoria.

Questa fluidità è cruciale per gli agenti enterprise, dove un’unica richiesta (“analizza il rischio di questo investimento”) richiede verifica fattuale, calcolo e ragionamento strategico in sequenza. Empiricamente, questa integrazione riduce drasticamente anche le allucinazioni, perché il modello fonda le sue conclusioni su dati esterni verificabili, non solo sui pesi del training.

Mi ha colpito una cosa che mi ha scritto via mail un lettore (e sviluppatore) di Berlino che, dopo aver testato Qwen3 su un task finanziario complesso, ha commentato:

“È come se finalmente l’AI avesse imparato a usare Google invece di fingere di saper tutto: a volte l’umiltà è la forma più alta di intelligenza”.

Benchmark e il Segnale Silenzioso per gli Sviluppatori

I numeri parlano chiaro, ma è il contesto a rivelare la portata della svolta. Su Humanity’s Last Exam—3.000 domande graduate-level progettate per essere “a prova di Google”—Qwen3-Max-Thinking con tool integrati ottiene 49.8, superando Gemini 3 Pro (45.8) e GPT-5.2-Thinking (45.5). Questo non è un primato accademico: HLE misura la capacità di combinare ragionamento multi-step con recupero dati esterni, esattamente ciò che serve per agenti aziendali reali. Ancora più significativo il dominio in coding: su Arena-Hard v2, Qwen3 segna 90.2 contro i 76.7 di Claude Opus 4.5, dimostrando che l’efficienza architetturale non sacrifica la potenza applicativa. Per gli sviluppatori, il messaggio è inequivocabile: il gap tecnologico tra Cina e Occidente nel ragionamento non esiste più. Anzi, Alibaba sta ridefinendo le regole del gioco, spostando l’asticella dall'”intelligenza assoluta” all'”intelligenza contestualizzata e conveniente”. Mentre i laboratori americani celebrano i loro modelli multimiliardari, Qwen3 ricorda che spesso la soluzione migliore non è la più grande, ma la più adatta.

Economia del Ragionamento: Prezzi che Fanno Tremare Silicon Valley

La vera arma segreta di Alibaba non è l’architettura, ma il pricing. Qwen3-Max-Thinking costa 1.20$ per milione di token in input e 6.00$ in output, per un totale di 7.20$.

Confrontatelo con i 15.75$ di GPT-5.2 o i 14.00$ di Gemini 3 Pro: ~~stiamo parlando di un risparmio del 50-60% per performance superiori.~~

Il bel colpo, comunque sta nel modello “à la carte”: il ragionamento base è low-cost, mentre gli strumenti agentic (ricerca web e code interpreter) sono tariffati separatamente a 10$ ogni 1.000 chiamate. Questo permette alle aziende di costruire agenti complessi pagando premium solo quando servono azioni esterne, non per ogni token generato.

Per ora, Alibaba offre extractor web e interprete Python gratuitamente in promozione, un chiaro invito a sperimentare. La mossa è spregiudicata: mentre OpenAI e Google trattano il ragionamento avanzato come un lusso per pochi, Alibaba lo trasforma in una commodity democratizzata. E in un mercato enterprise dove il costo operativo decide le adozioni, questa non è una differenza marginale: è un terremoto.

Ecosistema e compatibilità: pronti per l’enterprise senza frizioni

Nessuna tecnologia dirompente sopravvive senza una integrazione semplice per chi dovrà utilizzarla. Alibaba lo sa e ha reso Qwen3-Max-Thinking drop-in ready per gli sviluppatori esistenti. L’API supporta nativamente il formato OpenAI (basta cambiare base_url e nome modello) e, mossa astuta, anche il protocollo Anthropic, rendendolo compatibile con ambienti come Claude Code.

Questo abbassa drasticamente la barriera all’ingresso: team già formati nell’ecosistema “occidentale” possono testare Qwen3 in ore, non mesi. Per le multinazionali con requisiti di sicurezza nazionale, il modello cinese resta un tabù, ma per la stragrande maggioranza delle aziende (dalle scale-up europee alle stesse corporation asiatiche) Qwen3 rappresenta un’alternativa matura, performante e conveniente.

L’impatto di Qwen3-Max-Thinking va oltre i benchmark: ridefinisce il valore del ragionamento AI, spostandolo dalla ricerca di prestazioni assolute a un equilibrio tra intelligenza, efficienza e costo.

Alibaba non sta solo vendendo un modello: sta offrendo un nuovo paradigma dove l’AI enterprise diventa accessibile, scalabile e pragmaticamente utile. Mentre i giganti occidentali affrontano il dilemma tra innovazione e sostenibilità economica, Shenzhen consegna una lezione silenziosa ma inequivocabile: nel futuro dell’intelligenza artificiale vincerà chi saprà pensare meglio, non chi avrà più transistor.

E per la prima volta, quel pensiero arriva dall’Oriente con un prezzo imbattibile.

Gianluca Riccio, direttore creativo di Melancia adv, copywriter e giornalista. Fa parte di Italian Institute for the Future, World Future Society e H+. Dal 2006 dirige Futuroprossimo.it , la risorsa italiana di Futurologia. È partner di Forwardto - Studi e competenze per scenari futuri. Seguilo su LinkedIn

Per segnalare ricerche, scoperte e invenzioni, contatta la redazione!Segui Futuro Prossimo su Whatsapp: news e update esclusivi (gratis).