CMU, Tsinghua a MIT odpálily první neomezený tok agentů na světě a robot „007“ pracoval přesčas a nemohl se sám přestat učit! Vtělená inteligence přináší revoluci

Zdroj dotisku článku: Trend AI
Zdroj článku: Xinzhiyuan
Redaktor: Aeneas je tak ospalý
 Nedávno RoboGen, první generativní robotický agent na světě navržený CMU/MIT/Tsinghua/Umass, dokáže generovat neomezená data a umožnit robotům trénovat nonstop 24/7. AIGC for Robotics je skutečně směr budoucnosti.
První generativní robot Agent na světě je propuštěn!
Po dlouhou dobu ve srovnání s jazykovými nebo vizuálními modely, které lze trénovat na rozsáhlých internetových datech, vyžaduje trénování modelů strategie robota data s dynamickými informacemi o fyzické interakci a nedostatek těchto dat byl největším úzkým hrdlem ve vývoji vtělených inteligence.
Nedávno výzkumníci z CMU, Tsinghua, MIT, UMass a dalších institucí navrhli nového agenta RoboGen.
S využitím rozsáhlých znalostí obsažených ve velkých jazykových modelech a generativních modelech ve spojení s fyzickými informacemi poskytovanými realistickým simulovaným světem lze „nekonečně“ generovat různé úkoly, scénáře a výuková data, aby bylo dosaženo plně automatického tréninku robotů 24/7. .
Nyní nám rychle docházejí vysoce kvalitní skutečné tokeny ze sítě. Světová data pro trénování umělé inteligence téměř docházejí.
Hinton, otec hlubokého učení, řekl: "V příštích 18 měsících budou technologické společnosti používat 100krát více výpočetního výkonu než současný GPT-4 k trénování nových modelů." Parametry modelu jsou větší a výpočetní výkon obrovský, ale kde jsou data?
Tváří v tvář hladovým modelům je odpovědí syntéza umělé inteligence.
Adresa papíru: https://arxiv.org/abs/2311.01455
Domovská stránka projektu: https://robogen-ai.github.io/
Open source adresa: https://github.com/Genesis-Embodied-AI
Konkrétně výzkumný tým vedený vedoucím vědcem MIT-IBM Gan Chuangem s podporou generativní umělé inteligence a diferencovatelné fyzické simulace navrhl cyklus „navrhni-vygeneruj-nauč se“, který agentovi umožní generovat otázky samostatně Trénuj robota sám .
Nejprve Agent navrhl, že bychom měli tuto dovednost rozvíjet.
Poté vygeneruje vhodné prostředí, konfiguraci a pokyny pro učení dovedností pro vytvoření simulačního prostředí.
Nakonec agent rozloží navrhovaný úkol vyšší úrovně na dílčí úkoly, vybere nejlepší metodu učení a poté se naučí strategii a osvojí si navrhované dovednosti.
Stojí za zmínku, že celý proces nevyžaduje téměř žádný lidský dohled a počet úkolů je vlastně nekonečný!
Pro tento senzační výzkum jej také předal vedoucí vědec společnosti NVIDIA Jim Fan.
Nyní se robot naučil sérii operací výbuchu ——
Vkládání věcí do skříněk:
Chcete-li ohřát misku polévky v mikrovlnné troubě:
Zatáhněte za páku pro vaření kávy:
A backflipy atd.:
 Simulované prostředí, klíč k učení se rozmanitým dovednostem
V robotickém výzkumu existuje dlouhodobý problém: Jak dát robotům více dovedností, aby mohli operovat v netovárním prostředí a plnit širokou škálu úkolů pro lidi?
V posledních letech jsme učili roboty různé složité dovednosti, jako je manipulace s tekutinou, házení předmětů, hraní fotbalu, parkour atd. Tyto dovednosti jsou však nezávislé, mají krátké zorné pole a vyžadují ručně navržené popisy úkolů a dohled nad tréninkem. .
Vzhledem k tomu, že sběr dat v reálném světě je drahý a pracný, jsou tyto dovednosti trénovány v simulacích s vhodnou randomizací domén a poté nasazeny v reálném světě.
Ve srovnání s průzkumem a sběrem dat v reálném světě mají simulační prostředí mnoho výhod, jako je poskytování privilegovaného přístupu k nízkoúrovňovým stavům a neomezené možnosti průzkumu podporující rozsáhlé paralelní výpočty, což výrazně urychluje shromažďování dat; -smyčkové strategie a odolnost proti chybám.
Vybudování simulačního prostředí však vyžaduje řadu zdlouhavých úkolů (návrh úkolů, výběr relevantních a sémanticky smysluplných aktiv, generování rozumných rozvržení a konfigurací scén, formulování funkcí odměn nebo ztrát atd. školicí dohled). I v simulovaném světě to značně omezuje škálovatelnost učení robotických dovedností.
Vědci proto navrhují paradigma „generativní simulace“, které kombinuje pokroky v simulovaném učení dovedností robotů s nedávnými pokroky v základních a generativních modelech.
S využitím generativních schopností nejmodernějších základních modelů mohou generativní simulace generovat informace pro všechny fáze potřebné pro učení se různým robotickým dovednostem v simulaci.
Díky komplexním znalostem zakódovaným v nejnovějších základních modelech se takto generovaná data o scéně a úkolech pravděpodobně velmi podobají distribuci reálných scén.
Kromě toho mohou tyto modely dále poskytovat rozložené dílčí úkoly na nízké úrovni, které lze bez problémů zpracovat metodami učení se politikám specifickým pro doménu, což vede k ukázkám různých dovedností a scénářů v uzavřené smyčce.
 Proces RoboGen
RoboGen je plně automatizovaný proces, který umožňuje robotům učit se různé dovednosti 24 hodin denně, 7 dní v týdnu, včetně 4 fází:
1. Návrhy úkolů;
2. Generování scény;
3. Generování dohledu nad výcvikem;
4. Použijte vygenerované informace pro učení dovedností.
S využitím zabudovaného zdravého rozumu a schopností generování nejnovějších základních modelů může RoboGen automaticky generovat úkoly, scénáře a dohled nad školením, čímž umožňuje robotům naučit se více dovedností ve velkém měřítku.
Návrhy úkolů
V této fázi je RoboGen schopen navrhovat úkoly vyšší úrovně, generovat odpovídající prostředí, rozkládat cíle vyšší úrovně na dílčí úkoly nižší úrovně a následně se postupně učit dílčí dovednosti.
Za prvé, RoboGen generuje smysluplné, různorodé a na vysoké úrovni úkoly, které se mají roboti naučit.
Výzkumníci inicializují systém pomocí specifického typu robota a náhodně odebraných objektů z bazénu. Poskytnuté informace o robotu a vzorkovacím objektu jsou pak vloženy do LLM.
Tento proces vzorkování zajišťuje rozmanitost generovaných úloh.
Například roboti s nohama, jako jsou čtyřnožci, mohou získat různé pohybové dovednosti, zatímco manipulátory robotických paží, když jsou spárovány, mohou provádět různé manipulační úkoly a různé vzorkovací objekty.
Výzkumníci používají GPT-4 k provádění dotazů v aktuálním kanálu. Podrobnosti RoboGen jsou pak vysvětleny v mechanickém kontextu, stejně jako úkoly spojené s manipulací s objekty.
Objekty použité pro inicializaci jsou vzorkovány z předdefinovaného seznamu a zahrnují běžné kloubové a nekloubové objekty nalezené v domácích scénářích, jako jsou trouby, mikrovlnné trouby, dávkovače vody, notebooky, myčky nádobí atd.
Vzhledem k tomu, že GPT-4 byl trénován na masivních internetových datových sadách, dobře rozumí výhodám těchto objektů, jak s nimi interagovat a jaké smysluplné úkoly mohou být spojeny.
Například za předpokladu, že vzorkovaný kloubový objekt je mikrovlnná trouba, kde kloub 0 je otočný kloub spojený s dvířky a kloub 1 je další otočný kloub, který ovládá knoflík časovače, GPT-4 vrátí úlohu – „Robot paže položí misku polévky na vstup do mikrovlnné trouby, zavřete dvířka a nastavte časovač mikrovlnky na vhodnou dobu ohřevu a“.
Další objekty potřebné pro vygenerovaný úkol jsou miska polévky a a spoje a odkazy související s úkolem, včetně spoje 0 (používá se k otevření dvířek mikrovlnné trouby), spoje 1 (používá se k nastavení časovače), spoje 0 (dveře) a Link 1 (knoflík časovače).
Vzhledem k tomu, že PartNetMobility je jediným vysoce kvalitním datovým souborem kloubových objektů a již pokrývá řadu kloubových aktiv, budou pro kloubové objekty úkoly generovány na základě vzorkovaných aktiv.
Opakovaným dotazováním na různé vzorkované objekty a příklady lze generovat různé manipulační a pohybové úlohy.
generace scény
Po zadání úkolu můžete pokračovat ve vytváření odpovídajících simulačních scénářů, abyste se naučili dovednosti pro dokončení úkolu.
Jak je znázorněno na obrázku, komponenty a konfigurace scénáře se generují na základě popisu úlohy a aktiva objektů se načítají nebo generují a následně se naplní scénář simulace.
Komponenty a konfigurace scény se skládají z dotazů na relevantní aktiva, která mají být naplněna do scény, jejich fyzické parametry (jako je velikost), konfigurace (jako jsou počáteční úhly spojení) a celková prostorová konfigurace aktiva.
Kromě nezbytných objektových aktiv požadovaných pro úkol vygenerovaný v předchozím kroku, aby se zvýšila složitost a rozmanitost generované scény a podobala se rozložení objektů skutečné scéně, výzkumníci také požádali GPT-4, aby vrátil objekty sémanticky. související s úkolem.
Například pro úkol „otevři skříň, dej do ní hračky a pak ji zavři“ bude vygenerovaná scéna obsahovat také polštáře do obývacího pokoje, stolní lampy, knihu a kancelářskou židli.
 Generování školicích supervizí
Aby bylo možné získat příslušné dovednosti, musí být učení dovedností pod dohledem.
RoboGen nejprve požádá GPT-4, aby naplánoval a rozložil dlouhé úkoly na dílčí úkoly kratšího dosahu.
Klíčovým předpokladem je, že když je úkol rozložen na dostatečně krátké dílčí úkoly, lze každý dílčí úkol spolehlivě vyřešit existujícími algoritmy, jako je učení se zesílením, plánování pohybu, optimalizace trajektorie atd.
Po rozkladu se RoboGen dotáže GPT-4 a vybere vhodný algoritmus pro vyřešení každého dílčího úkolu.
Do RoboGen je integrováno několik různých typů výukových algoritmů: zesílení učení, evoluční strategie, optimalizace trajektorie na základě gradientu a inicializace akce pomocí plánování pohybu.
Každý je vhodný pro různé úkoly, přičemž optimalizace trajektorie založená na gradientu je vhodnější pro učení jemnozrnných manipulačních úkolů zahrnujících měkká těla, jako je tvarování těsta do cílového tvaru.
Inicializace akcí v kombinaci s plánováním pohybu je spolehlivější při řešení úloh, jako je přiblížení k cílovému objektu po cestě bez kolizí.
Posílené učení a evoluční strategie jsou vhodnější pro úkoly, které jsou bohaté na kontakty a zahrnují nepřetržitou interakci s ostatními komponentami scény, jako jsou pohyby nohou, nebo když požadovanou akci nelze jednoduše parametrizovat pomocí diskrétních pozic koncových efektorů, jako je otáčení trouby. Knoflík.
Stručně řečeno, GPT-4 vybere, který algoritmus použije online, na základě vygenerovaných dílčích úkolů.
Dále můžete vytvořit simulační scénáře pro roboty, aby se naučili dovednosti.
 Robot se učí otevírat trezor
Například RoboGen nechá robota naučit se velmi delikátní úkol, kterým je nastavení směru stolní lampy.
Zajímavé je, že v této scéně jsou na zemi křehké předměty, jako jsou počítačové monitory.
Dá se říci, že je to skvělý test schopnosti robota rozpoznávat prostředí.
V tomto ohledu RoboGen vygeneruje velmi podrobný operační kód, včetně konfigurace scény, dekompozice úloh a dohledu:
Kromě toho budou trénovány některé úkoly, které vyžadují mnoho kroků k dokončení, například požádání robota, aby vyndal předměty z trezoru.
Jedná se o operace, jako je otevírání dvířek, vybírání předmětů, jejich odkládání a zavírání dvířek Během tohoto procesu je také nutné snažit se vyhnout kolizím s nábytkem.
Kód daný RoboGen je následující:
Nebo například nechat točit v kruhu humanoidního robota Boston Dynamics, na kterého lze na malém prostoru narazit.
kód zobrazit níže:
 Experimentální výsledky
- Rozmanitost úkolů
Jak ukazuje tabulka 1, RoboGen dosahuje nejnižší podobnosti Self-BLEU a vkládání ve srovnání se všemi předchozími benchmarky. Jinými slovy, rozmanitost úkolů generovaných RoboGen je vyšší než u manuálně vytvořených benchmarků učení dovedností a datových sad!
- Účinnost scénáře
Jak je znázorněno na obrázku 4, odstranění ověření velikosti vede k prudkému poklesu skóre BLIP-2, protože existuje obrovský rozdíl mezi velikostmi objektů v Objaverse a PartNetMobility a skutečnými velikostmi v reálném světě. Navíc skóre BLIP-2 bez ověření subjektem bylo také nižší a mělo větší rozptyl.
Naproti tomu ověřovací krok v RoboGen může výrazně zlepšit efektivitu výběru objektů.
- Efektivita vedení školení
Jak je znázorněno na obrázku 3, robot se naučil dovednosti na základě tréninkového vedení (tj. funkce rozkladu úkolů a odměny) generovaných RoboGen ve čtyřech úkolech s dlouhým dosahem.
Výsledky ukázaly, že robot se úspěšně naučil dovednostem pro plnění odpovídajících úkolů. Jinými slovy, automaticky generované tréninkové pokyny mohou efektivně odvodit smysluplné a užitečné dovednosti.
- Učení dovedností
Výsledky v tabulce 2 ukazují, že umožnění volby učebního algoritmu je prospěšné pro zlepšení plnění úkolů. Pokud se použije pouze RL, učení dovedností selže u většiny úkolů.
- Systém
Jak je znázorněno na obrázku 1, RoboGen může generovat různé úkoly pro učení dovedností, včetně manipulace s pevnými/kloubovými předměty, lokomoce a manipulace s měkkým tělem.
Obrázek 3 dále ukazuje, že RoboGen může poskytnout provozní schopnosti na dlouhé vzdálenosti přiměřeným způsobem rozkladu.
o autorovi
Yufei Wang je studentem třetího ročníku doktorského studia na Robotickém institutu Carnegie Mellon University. Jeho školiteli jsou profesor Zackory Erickson a profesor David Held.
Předtím získal magisterský titul v oboru informatiky na CMU v prosinci 2020 pod vedením profesora Davida Helda a bakalářský titul v oboru datové vědy na Yuanpei College of Peking University v červenci 2019 pod vedením profesora Bin Dong.
Zhou Xian je doktorandkou na Carnegie Mellon University's Robotics Institute, kterou vede Kateřina Fragkiadaki. Jeho výzkumnými zájmy jsou robotika, počítačové vidění a učení světových modelů.
Před nástupem na CMU dokončil bakalářské studium na Technologické univerzitě Nanyang v Singapuru, kde studoval pod vedením Pham Quang Cuong a I-Ming Chen. On také internoval v Meta AI, Akshara Rai a MIT-IBM AI Lab, pod dohledem Chuang Gan.
V současné době se jeho výzkum zaměřuje na budování jednotných neuronových politik a simulační infrastruktury pro škálovatelné učení robotů.
Kromě toho je spoluautorem Chen Feng z Yao Class of Tsinghua University.
Vedoucí týmu Gan Chuang je v současné době hlavním vědcem IBM a odborným asistentem na University of Massachusetts. Je žákem akademika Yao Qizhi. Během svého Ph.D. získal zvláštní cenu Tsinghua University Special Award, Microsoft Scholar a Baidu Scholar. Jeho výzkum byl také financován z Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program atd.
Reference:
https://robogen-ai.github.io