Robotica, Tecnologia

DeepMind presenta RT-2: robot che vedono, apprendono e agiscono

Il modello di AI sviluppato da DeepMind, che combina visione e linguaggio per controllare le macchine, aprirà nuovi orizzonti nella robotica.

Gianluca Riccio

30 Luglio 2023

628644ed1fd288f73df6d946 IMG 0831 1 scaled

Entra nel Canale Whatsapp di Futuro Prossimo >

In un ambiente luminoso, pieno di monitor e apparecchiature tecnologiche, un robot si erge come protagonista. La sua struttura metallica riflette la luce, ma è nei suoi “occhi” che si nasconde la vera magia. Questi occhi, alimentati dal modello RT-2 di DeepMind, sono capaci di vedere, interpretare e agire.

Mentre il robot si muove con grazia, gli scienziati intorno a lui scrutano ogni sua mossa. Non è solo un pezzo di metallo e circuiti, ma l’incarnazione di un’intelligenza che unisce il vasto mondo del web con la realtà tangibile.

L’evoluzione di RT-2

La robotica ha fatto passi da gigante negli ultimi anni, ma DeepMind ha appena portato il gioco a un livello completamente nuovo. Illustrato in un paper appena diffuso arriva RT-2. Cos’è? È un modello visione-linguaggio-azione (VLA) che non solo apprende dai dati del web, ma anche dai dati robotici, traducendo questa conoscenza in istruzioni generalizzate per il controllo robotico.

In un’era in cui la tecnologia avanza a passi da gigante, RT-2 rappresenta un balzo significativo, promettendo di rivoluzionare non solo il campo della robotica, ma anche il modo in cui viviamo e lavoriamo ogni giorno. Ma che significa in pratica?

DeepMind RT-2, da visione ad azione

I modelli di visione-linguaggio ad alta capacità (VLM) sono addestrati su grandi dataset, e questo li rende straordinariamente bravi anche nel riconoscere schemi visivi o linguistici (operando, ad esempio, in diverse lingue). Ma immaginate di poter far fare ai robot ciò che fanno questi modelli. Anzi, smettete di immaginarlo: DeepMind lo sta rendendo possibile con RT-2.

Robotic Transformer 1 (RT-1) era già una meraviglia di per sé, ma RT-2 va oltre, mostrando capacità di generalizzazione migliorate e una comprensione semantica e visiva che va oltre i dati robotici a cui è stato esposto.

Ragionamento a catena

Uno degli aspetti più affascinanti di RT-2 è la sua capacità di ragionamento a catena. Può decidere quale oggetto potrebbe essere usato come martello improvvisato o quale tipo di bevanda è la migliore per una persona stanca. Questa capacità di ragionamento profondo potrebbe rivoluzionare il modo in cui interagiamo con i robot.

E mal che vada, potreste comunque chiedere a un robot di prepararvi un buon caffè per ritrovare un po’ di lucidità.

Ma come fa DeepMind RT-2 a controllare un robot?

La risposta sta nel modo in cui è stato addestrato. Di fatto, usa una rappresentazione non dissimile ai token del linguaggio che vengono sfruttati da modelli come ChatGPT.

RT-2 ha dimostrato capacità emergenti sorprendenti, come la comprensione dei simboli, il ragionamento e il riconoscimento umano. Abilità che al momento mostrano un miglioramento di oltre 3 volte rispetto ai modelli precedenti.

Con RT-2, DeepMind non solo ha mostrato che i modelli di visione-linguaggio possono essere trasformati in potenti modelli visione-linguaggio-azione, ma ha anche aperto la porta a un futuro in cui i robot possono ragionare, risolvere problemi e interpretare informazioni per svolgere una vasta gamma di compiti nel mondo reale.

E ora?

In un mondo in cui l’intelligenza artificiale e la robotica saranno sempre più centrali, RT-2 ci mostra che la prossima evoluzione non sarà puramente tecnica, ma “percettiva”. Le macchine comprenderanno e risponderanno alle nostre esigenze in modi che non avremmo mai immaginato.

Se questo è solo l’inizio, chissà cosa ci riserva il futuro.

Gianluca Riccio, direttore creativo di Melancia adv, copywriter e giornalista. Fa parte di Italian Institute for the Future, World Future Society e H+. Dal 2006 dirige Futuroprossimo.it , la risorsa italiana di Futurologia. È partner di Forwardto - Studi e competenze per scenari futuri. Seguilo su LinkedIn

Per segnalare ricerche, scoperte e invenzioni, contatta la redazione!Segui Futuro Prossimo su Whatsapp: news e update esclusivi (gratis).