Google introduce Gemini Robotics: l'AI nel mondo fisico

Google DeepMind ha fatto progressi significativi nell’utilizzo dei modelli Gemini per risolvere problemi complessi attraverso il ragionamento multimodale su testo, immagini, audio e video. Tuttavia, finora queste capacità sono state limitate al mondo digitale. Affinché l’intelligenza artificiale possa essere utile nel mondo fisico, deve dimostrare un ragionamento “incarnato”, ovvero la capacità di comprendere e reagire al contesto circostante, oltre a eseguire azioni in sicurezza per portare a termine compiti.

Google introduce due nuovi modelli di intelligenza artificiale basati su Gemini 2.0, che pongono le basi per una nuova generazione di robot avanzati.

Il primo è Gemini Robotics, un modello avanzato di visione-linguaggio-azione (VLA) costruito su Gemini 2.0, con l’aggiunta di azioni fisiche come nuova modalità di output per il controllo diretto dei robot. Il secondo è Gemini Robotics-ER, un modello di Gemini con capacità avanzate di comprensione spaziale, che consente ai roboticisti di eseguire i propri programmi sfruttando le capacità di ragionamento incarnato (ER) di Gemini.

Entrambi i modelli consentono a una varietà di robot di eseguire un numero più ampio di compiti nel mondo reale rispetto al passato. Nell’ambito di questi sforzi, Google ha stretto una collaborazione con Apptronik per sviluppare la prossima generazione di robot umanoidi basati su Gemini 2.0. Inoltre, sta lavorando con un gruppo selezionato di tester affidabili per guidare il futuro di Gemini Robotics-ER.

Google si propone di esplorare ulteriormente le capacità di questi modelli e di svilupparli verso applicazioni reali.

Gemini Robotics: il modello più avanzato di visione-linguaggio-azione

Affinché i modelli di intelligenza artificiale per la robotica siano realmente utili, devono possedere tre caratteristiche principali:

Generalità: la capacità di adattarsi a situazioni diverse;
Interattività: la capacità di comprendere e rispondere rapidamente ai comandi o ai cambiamenti nell’ambiente;
Destrezza: la capacità di eseguire azioni precise, come manipolare oggetti con le mani e le dita.

Sebbene il lavoro precedente di Google abbia mostrato progressi in queste aree, Gemini Robotics rappresenta un miglioramento significativo in tutte e tre le dimensioni, avvicinando il traguardo dei robot veramente versatili.

Generalità

Gemini Robotics sfrutta la comprensione del mondo di Gemini per generalizzare a nuove situazioni e risolvere una vasta gamma di compiti, anche quelli mai affrontati durante l’addestramento.

Interattività

Basato su Gemini 2.0, il modello è altamente interattivo, comprendendo e rispondendo a comandi formulati in linguaggio naturale in diverse lingue.

Destrezza

Gemini Robotics può eseguire compiti complessi, come piegare la carta per l’origami o inserire uno snack in una busta richiudibile.

Adattabilità a diverse strutture robotiche

Il modello è stato addestrato principalmente sulla piattaforma robotica ALOHA 2, ma si adatta anche ad altre strutture, inclusi robot bi-braccio basati su Franka e robot umanoidi come Apollo di Apptronik.

Gemini Robotics-ER: potenziare la comprensione spaziale di Gemini

Google introduce anche Gemini Robotics-ER, un modello avanzato di visione-linguaggio progettato per migliorare la comprensione spaziale necessaria alla robotica.

Questo modello migliora significativamente le capacità di Gemini 2.0, come il riconoscimento degli oggetti e il rilevamento in 3D. Può eseguire tutti i passaggi necessari per controllare un robot, tra cui percezione, stima dello stato, comprensione spaziale, pianificazione e generazione di codice, con un tasso di successo da 2 a 3 volte superiore rispetto a Gemini 2.0.

Gemini Robotics-ER eccelle nelle capacità di ragionamento incarnato, tra cui individuare oggetti, riconoscere parti specifiche e rilevare punti corrispondenti.

Sicurezza e sviluppo responsabile dell’AI nella robotica

Google adotta un approccio olistico alla sicurezza nella robotica, affrontando aspetti critici che vanno dal controllo motorio di basso livello alla comprensione semantica di alto livello.

La sicurezza fisica dei robot e delle persone è una preoccupazione fondamentale nella scienza della robotica. Per questo motivo, Google ha implementato misure di sicurezza tradizionali come l’evitamento delle collisioni e la limitazione delle forze di contatto.

Per promuovere la ricerca sulla sicurezza nella robotica, Google ha sviluppato un nuovo dataset per valutare e migliorare la sicurezza semantica nell’intelligenza artificiale incarnata. Inoltre, ispirandosi alle Tre Leggi della Robotica di Isaac Asimov, ha sviluppato un framework che permette di creare costituzioni basate su dati, regole espresse in linguaggio naturale per orientare il comportamento dei robot.

Per valutare le implicazioni sociali di questa tecnologia, Google collabora con esperti del team di Responsible Development and Innovation e del Responsibility and Safety Council. Consulta anche specialisti esterni per affrontare le sfide dell’AI incarnata nella robotica.

Oltre alla collaborazione con Apptronik, Google ha reso disponibile Gemini Robotics-ER a tester selezionati, tra cui Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools. L’obiettivo è esplorare ulteriormente le capacità dei modelli Gemini e continuare a sviluppare l’AI per la prossima generazione di robot più avanzati e utili.