Google rilascia un modello di robot "simile a GPT", l'RT-1

Google ha rilasciato un nuovo modello di robot, l'RT-1, simile al modello GPT utilizzato nel suo programma di intelligenza artificiale OpenAI. Il nuovo modello è progettato pensando agli altri programmi di robotica di Google, incluso il programma per le auto senza conducente. Il modello RT-1 qui presentato rappresenta un passo avanti verso modelli di intelligenza artificiale generativa nel campo della robotica. Nel mondo reale, l'RT-1 può eseguire oltre 700 istruzioni con una percentuale di successo del 97%.
I recenti progressi nella ricerca sull’apprendimento automatico (ML), come la visione artificiale e l’elaborazione del linguaggio naturale, sono stati resi possibili da un approccio comune condiviso che utilizza set di dati e modelli espressivi ampi e diversificati. Sebbene ci siano stati vari tentativi di applicare questo approccio alla robotica, finora i robot non hanno utilizzato modelli altamente capaci tanto quanto altri sottocampi.
Il modello codifica un comando scritto e un set di immagini come token utilizzando un modello FiLM EfficientNet pre-addestrato prima di comprimerli utilizzando TokenLearner. Questa è l'architettura di RT-1. Il Transformer riceve quindi questi e produce token di azione.
Gli sviluppatori hanno raccolto un dataset considerevole e vario di traiettorie di robot per sviluppare un sistema che potesse generalizzare a nuovi compiti e dimostrare robustezza a varie distrazioni e background. Per raccogliere 130.000 episodi in 17 mesi, hanno distribuito 13 manipolatori robot EDR, ognuno dei quali ha un braccio con 7 gradi di libertà, una pinza a due dita e una base mobile. I ricercatori hanno utilizzato esempi umani ottenuti tramite teleoperazione a distanza e hanno contrassegnato ogni evento con una spiegazione scritta del comando che il robot aveva appena eseguito. Raccogliere e disporre oggetti, aprire e chiudere cassetti, mettere e togliere oggetti dai cassetti, posizionare oggetti allungati in posizione verticale, rovesciare oggetti, tirare tovaglioli e aprire barattoli sono tra le competenze di alto livello incluse nel dataset.
Il video seguente mostra alcuni esempi di prestazioni di attività a lungo termine con PaLM-SayCan-RT1 in diverse cucine reali.
In tutte e quattro le aree, RT-1 ha prestazioni significativamente migliori rispetto ai valori di base, mostrando livelli eccezionali di generalizzazione e resilienza.
RT-1 Robotics Transformer è un modello di generazione di azioni per attività di robotica del mondo reale, semplice e scalabile. Tokenizza tutti gli input e gli output e li comprime utilizzando un modello EfficientNet pre-addestrato con fusione linguistica precoce e un token learner. RT-1 dimostra prestazioni elevate in centinaia di attività, nonché un'ampia generalizzazione e robustezza in contesti del mondo reale.
Saperne di più:
GPT-3: Può davvero predire il futuro degli USA nei prossimi 5 anni?
OpenAI ha aggiornato GPT-3: scrittura di qualità superiore e capacità di testo più lungo
Sber AI ha presentato Kandinsky 2.0, il primo modello testo-immagine per la generazione in più di 100 lingue
Il post Google rilascia un modello di robot "simile a GPT", l'RT-1 è apparso per la prima volta su Metaverse Post.