Fonte ristampa articolo: The trend of AI

Fonte dell'articolo: Xinzhiyuan

Redattore: Enea così assonnato

Recentemente, RoboGen, il primo agente robotico generativo al mondo proposto da CMU/MIT/Tsinghua/Umass, può generare dati illimitati e consentire ai robot di addestrarsi senza sosta 24 ore su 24, 7 giorni su 7. L’AIGC per la robotica è infatti la direzione futura.

Viene rilasciato il primo agente robot generativo al mondo!

Per molto tempo, rispetto ai modelli linguistici o visivi che possono essere addestrati su dati Internet su larga scala, l’addestramento dei modelli di strategia dei robot richiede dati con informazioni sull’interazione fisica dinamica, e la mancanza di questi dati è stata il più grande collo di bottiglia nello sviluppo di modelli incarnati. intelligenza.

Recentemente, i ricercatori di CMU, Tsinghua, MIT, UMass e altre istituzioni hanno proposto un nuovo agente RoboGen.

Utilizzando la conoscenza su larga scala contenuta in grandi modelli linguistici e modelli generativi, insieme alle informazioni fisiche fornite dal mondo simulato realistico, è possibile generare "infinitamente" vari compiti, scenari e dati didattici per ottenere un addestramento completamente automatico dei robot 24 ore su 24, 7 giorni su 7. .

Ora stiamo rapidamente esaurendo i token reali di alta qualità dalla rete. I dati mondiali per l’addestramento dell’intelligenza artificiale stanno quasi esaurendosi.

Hinton, il padre del deep learning, ha dichiarato: "Nei prossimi 18 mesi, le aziende tecnologiche utilizzeranno 100 volte più potenza di calcolo dell'attuale GPT-4 per addestrare nuovi modelli". I parametri del modello sono più grandi e la potenza di calcolo è enorme, ma dove sono i dati?

Di fronte a modelli affamati, la sintesi dell’intelligenza artificiale è la risposta.

Indirizzo del documento: https://arxiv.org/abs/2311.01455

Home page del progetto: https://robogen-ai.github.io/

Indirizzo open source: https://github.com/Genesis-Embody-AI

Nello specifico, il gruppo di ricerca guidato dal capo scienziato del MIT-IBM Gan Chuang, con il supporto dell'intelligenza artificiale generativa e della simulazione fisica differenziabile, ha proposto un ciclo "proponi-genera-impara" per consentire all'Agente di generare domande da solo Addestra il robot da solo .

Innanzitutto, l'agente ha proposto di sviluppare questa abilità.

Quindi genera l'ambiente, la configurazione e la guida all'apprendimento delle competenze appropriati per creare l'ambiente di simulazione.

Infine, l'Agente scomporrà l'attività di livello superiore proposta in sotto-attività, selezionerà il miglior metodo di apprendimento, quindi imparerà la strategia e padroneggerà le competenze proposte.

Vale la pena notare che l’intero processo non richiede quasi alcuna supervisione umana e il numero di attività è in realtà infinito!

Per questa ricerca di successo, anche lo scienziato senior di NVIDIA, Jim Fan, l'ha inoltrata.

Ora, il robot ha imparato una serie di operazioni di esplosione——

Mettere gli oggetti negli armadietti:

Per scaldare una ciotola di zuppa nel microonde:

Tirare la leva per erogare il caffè:

E salti mortali all'indietro, ecc.:

Ambiente simulato, la chiave per apprendere competenze diverse

Nella ricerca sulla robotica esiste un problema di vecchia data: come fornire ai robot molteplici competenze in modo che possano operare in ambienti diversi dalle fabbriche e svolgere un’ampia gamma di compiti per gli esseri umani?

Negli ultimi anni abbiamo insegnato ai robot una serie di abilità complesse, come la manipolazione dei fluidi, il lancio di oggetti, il gioco del calcio, il parkour, ecc. Tuttavia, queste abilità sono indipendenti, hanno un campo visivo breve e richiedono descrizioni di attività progettate manualmente e supervisione della formazione.

Poiché la raccolta dei dati nel mondo reale è costosa e laboriosa, queste competenze vengono addestrate in simulazioni con un'appropriata randomizzazione dei domini e quindi implementate nel mondo reale.

Rispetto all’esplorazione e alla raccolta dei dati nel mondo reale, gli ambienti di simulazione presentano molti vantaggi, come fornire un accesso privilegiato agli stati di basso livello e opportunità di esplorazione illimitate; supportare il calcolo parallelo su larga scala, accelerando significativamente la raccolta dei dati consentendo ai robot di svilupparsi in modo chiuso Strategie a ciclo continuo e resilienza agli errori.

Tuttavia, la costruzione di un ambiente di simulazione richiede una serie di compiti noiosi (progettazione di compiti, selezione di risorse rilevanti e semanticamente significative, generazione di layout e configurazioni di scene ragionevoli, formulazione di funzioni di ricompensa o perdita, ecc. supervisione della formazione). Anche in un mondo simulato, ciò limita notevolmente la scalabilità dell’apprendimento delle abilità dei robot.

Pertanto, i ricercatori propongono un paradigma di “simulazione generativa” che combina i progressi nell’apprendimento simulato delle abilità dei robot con i recenti progressi nei modelli di base e generativi.

Sfruttando le capacità generative di modelli base all'avanguardia, le simulazioni generative possono generare informazioni per tutte le fasi necessarie per l'apprendimento delle varie abilità del robot nella simulazione.

Grazie alla conoscenza completa codificata negli ultimi modelli base, è probabile che i dati delle scene e delle attività generati in questo modo assomiglino molto alla distribuzione delle scene del mondo reale.

Inoltre, questi modelli possono fornire ulteriori sottoattività scomposte di basso livello che possono essere elaborate senza soluzione di continuità da metodi di apprendimento delle politiche specifici del dominio, dando luogo a dimostrazioni a circuito chiuso di varie competenze e scenari.

Processo RoboGen

RoboGen è un processo completamente automatizzato che consente ai robot di apprendere varie competenze 24 ore su 24, 7 giorni su 7, incluse 4 fasi:

1. Suggerimenti per i compiti;

2. Generazione della scena;

3. Generazione della supervisione della formazione;

4. Utilizzare le informazioni generate per l'apprendimento delle competenze.

Utilizzando il buon senso incorporato e le capacità di generazione degli ultimi modelli di base, RoboGen può generare automaticamente attività, scenari e supervisione della formazione, consentendo così ai robot di apprendere molteplici competenze su larga scala.

Suggerimenti per le attività

In questa fase, RoboGen è in grado di proporre compiti di livello superiore, generare ambienti corrispondenti, scomporre gli obiettivi di livello superiore in sottoattività di livello inferiore e quindi apprendere le sottoabilità in sequenza.

Innanzitutto, RoboGen genera compiti significativi, diversificati e di alto livello che i robot possono apprendere.

I ricercatori inizializzano il sistema utilizzando un tipo di robot specifico e oggetti campionati casualmente dal pool. Le informazioni fornite sul robot e sull'oggetto di campionamento vengono quindi inserite in LLM.

Questo processo di campionamento garantisce la diversità dei compiti generati.

Ad esempio, i robot con gambe come i robot quadrupedi possono acquisire una varietà di abilità di movimento, mentre i manipolatori di bracci robotici, se accoppiati, possono eseguire più attività di manipolazione e diversi oggetti di campionamento.

I ricercatori utilizzano GPT-4 per eseguire query nella pipeline attuale. I dettagli di RoboGen vengono poi spiegati in un contesto meccanico, così come i compiti associati alla manipolazione degli oggetti.

Gli oggetti utilizzati per l'inizializzazione vengono campionati da un elenco predefinito e includono oggetti comuni articolati e non articolati presenti negli scenari domestici, come forni, microonde, distributori d'acqua, laptop, lavastoviglie, ecc.

Poiché GPT-4 è stato addestrato su enormi set di dati Internet, ha una conoscenza approfondita delle opportunità di questi oggetti, di come interagire con essi e a quali compiti significativi possono essere associati.

Ad esempio, supponendo che l'oggetto articolato campionato sia un forno a microonde, dove il giunto 0 è il giunto rotante collegato alla porta e il giunto 1 è un altro giunto rotante che controlla la manopola del timer, GPT-4 restituirà un'attività: "Il robot braccio mette una ciotola di zuppa sul microonde. Inserire il microonde, chiudere lo sportello e impostare il timer del microonde sul tempo di riscaldamento appropriato a".

Altri oggetti richiesti per l'attività generata sono una ciotola di zuppa a e giunti e collegamenti relativi all'attività, tra cui giunto 0 (utilizzato per aprire la porta del microonde), giunto 1 (utilizzato per impostare il timer), collegamento 0 (porta) e Link 1 (manopola del timer).

Per gli oggetti articolati, poiché PartNetMobility è l'unico dataset di oggetti articolati di alta qualità e copre già una varietà di risorse articolate, le attività verranno generate in base alle risorse campionate.

Interrogando ripetutamente diversi oggetti ed esempi campionati, è possibile generare una varietà di attività di manipolazione e movimento.

generazione della scena

Data un'attività, puoi continuare a generare scenari di simulazione corrispondenti per apprendere le competenze necessarie per completare l'attività.

Come mostrato nella figura, i componenti e le configurazioni dello scenario vengono generati in base alla descrizione dell'attività, le risorse dell'oggetto vengono recuperate o generate e lo scenario di simulazione viene successivamente popolato.

I componenti e le configurazioni della scena consistono in query relative alle risorse rilevanti da inserire nella scena, ai relativi parametri fisici (come le dimensioni), alla configurazione (come gli angoli dei giunti iniziali) e alla configurazione spaziale complessiva della risorsa.

Oltre alle risorse oggetto necessarie per l'attività generata nel passaggio precedente, al fine di aumentare la complessità e la diversità della scena generata e assomigliare alla distribuzione degli oggetti della scena reale, i ricercatori hanno anche chiesto a GPT-4 di restituire semanticamente gli oggetti relative all'attività.

Ad esempio, per l'attività "apri l'armadietto, metti dentro i giocattoli e poi chiudilo", la scena generata includerà anche i cuscini del soggiorno, le lampade da tavolo, un libro e una sedia da ufficio.

Generazione della supervisione della formazione

Per acquisire competenze rilevanti, l’apprendimento delle competenze deve essere supervisionato.

RoboGen interrogherà innanzitutto GPT-4 per pianificare e scomporre le attività lunghe in sottoattività a breve termine.

Un presupposto chiave è che quando un'attività viene scomposta in sottoattività sufficientemente brevi, ciascuna sottoattività può essere risolta in modo affidabile da algoritmi esistenti come l'apprendimento per rinforzo, la pianificazione del movimento, l'ottimizzazione della traiettoria, ecc.

Dopo la scomposizione, RoboGen interroga GPT-4 e seleziona l'algoritmo appropriato per risolvere ciascuna attività secondaria.

In RoboGen sono integrati diversi tipi di algoritmi di apprendimento: apprendimento per rinforzo, strategie evolutive, ottimizzazione della traiettoria basata sul gradiente e inizializzazione dell'azione con pianificazione del movimento.

Ciascuno è adatto a compiti diversi, con l'ottimizzazione della traiettoria basata sul gradiente che è più adatta all'apprendimento di compiti di manipolazione a grana fine che coinvolgono corpi morbidi, come modellare l'impasto in una forma target.

L'inizializzazione dell'azione combinata con la pianificazione del movimento è più affidabile durante la risoluzione di compiti, come l'avvicinamento a un oggetto target attraverso un percorso privo di collisioni.

L'apprendimento per rinforzo e le strategie evolutive sono più adatte a compiti ricchi di contatto e che implicano un'interazione continua con altri componenti della scena, come i movimenti delle gambe, o quando l'azione richiesta non può essere semplicemente parametrizzata da pose discrete dell'effettore finale, come girare un forno Manopola.

In breve, GPT-4 sceglierà quale algoritmo utilizzare online in base alle sottoattività generate.

Successivamente, puoi creare scenari di simulazione in cui i robot apprendono le abilità.

Il robot impara ad aprire la cassaforte

Ad esempio, RoboGen permetterà al robot di imparare il delicatissimo compito di regolare la direzione di una lampada da scrivania.

È interessante notare che in questa scena ci sono oggetti fragili come i monitor dei computer a terra.

Si può dire che sia una grande prova della capacità di riconoscimento ambientale del robot.

A questo proposito, RoboGen genererà un codice operativo molto dettagliato, inclusa la configurazione della scena, la scomposizione delle attività e la supervisione:

Inoltre, verranno addestrate alcune attività che richiedono molti passaggi per essere completate, come chiedere al robot di estrarre oggetti da una cassaforte.

Si tratta di operazioni come aprire la porta, raccogliere oggetti, posarli e chiudere la porta. Durante questo processo, è anche necessario cercare di evitare collisioni con i mobili.

Il codice fornito da RoboGen è il seguente:

O, ad esempio, lasciare che il robot umanoide della Boston Dynamics giri in cerchio, cosa che può essere incontrata in uno spazio ristretto.

Il codice è il seguente:

Risultati sperimentali

- Diversità dei compiti

Come mostrato nella Tabella 1, RoboGen raggiunge il livello più basso di Self-BLEU e di somiglianza di incorporamento rispetto a tutti i benchmark precedenti. In altre parole, la diversità dei compiti generati da RoboGen è superiore a quella dei benchmark e dei set di dati sull’apprendimento delle competenze prodotti manualmente!

- Efficacia dello scenario

Come mostrato nella Figura 4, la rimozione della verifica delle dimensioni porta a un forte calo dei punteggi BLIP-2 perché esiste un'enorme differenza tra la dimensione degli oggetti in Objaverse e PartNetMobility e la dimensione effettiva nel mondo reale. Inoltre, anche i punteggi BLIP-2 senza validazione del soggetto erano inferiori e presentavano una varianza maggiore.

Al contrario, la fase di verifica in RoboGen può migliorare significativamente l'efficacia della selezione degli oggetti.

- Efficacia dell'orientamento formativo

Come mostrato nella Figura 3, il robot ha appreso abilità in base alla guida all'addestramento (ovvero, scomposizione delle attività e funzione di ricompensa) generata da RoboGen in quattro attività a lungo raggio.

I risultati hanno mostrato che il robot ha appreso con successo le competenze necessarie per completare i compiti corrispondenti. In altre parole, le istruzioni di formazione generate automaticamente possono effettivamente ricavare competenze significative e utili.

- Apprendimento delle abilità

I risultati nella Tabella 2 mostrano che consentire la scelta dell'algoritmo di apprendimento è vantaggioso per migliorare le prestazioni nel completamento delle attività. Se viene utilizzato solo RL, l'apprendimento delle abilità fallirà per la maggior parte delle attività.

- sistema

Come mostrato nella Figura 1, RoboGen può generare vari compiti per l'apprendimento di abilità, tra cui la manipolazione di oggetti rigidi/articolari, la locomozione e la manipolazione di corpi morbidi.

La Figura 3 mostra inoltre che RoboGen può fornire capacità operative a lungo raggio in modo ragionevole.

Introduzione dell'autore

Yufei Wang è uno studente di dottorato del terzo anno presso il Robotics Institute della Carnegie Mellon University. I suoi supervisori sono il professor Zackory Erickson e il professor David Held. Il suo interesse di ricerca è l'apprendimento dei robot.

In precedenza, ha conseguito un master in scienze informatiche presso la CMU nel dicembre 2020, sotto la supervisione del professor David Held, e una laurea in scienza dei dati presso lo Yuanpei College dell'Università di Pechino nel luglio 2019, sotto la supervisione del professor Bin Dong.

Zhou Xian è uno studente di dottorato presso il Robotics Institute della Carnegie Mellon University, sotto la guida di Katerina Fragkiadaki. I suoi interessi di ricerca riguardano la robotica, la visione artificiale e l'apprendimento dei modelli mondiali.

Prima di entrare alla CMU, ha completato la sua laurea presso la Nanyang Technological University di Singapore, dove ha studiato con Pham Quang Cuong e I-Ming Chen. Ha anche svolto uno stage presso Meta AI, Akshara Rai e MIT-IBM AI Lab, sotto la supervisione di Chuang Gan.

Attualmente, la sua ricerca si concentra sulla creazione di politiche neurali unificate e di infrastrutture di simulazione per l’apprendimento scalabile dei robot.

Inoltre, il coautore è Chen Feng della classe Yao dell'Università Tsinghua.

Il leader del team Gan Chuang è attualmente il capo scienziato dell'IBM e un assistente professore presso l'Università del Massachusetts. È un discepolo dell'accademico Yao Qizhi. Durante il suo dottorato di ricerca, ha vinto il premio speciale della Tsinghua University, Microsoft Scholar e Baidu Scholar. La sua ricerca è stata finanziata anche da Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program, ecc.

Riferimenti:

Italiano: https://robogen-ai.github.io