Google hat ein neues Robotermodell, den RT-1, herausgebracht, das dem GPT-Modell ähnelt, das in seinem künstlichen Intelligenzprogramm OpenAI verwendet wird. Das neue Modell wurde im Hinblick auf andere Roboterprogramme von Google entwickelt, darunter das Programm für selbstfahrende Autos. Das hier vorgestellte RT-1-Modell ist ein Schritt in Richtung generativer KI-Modelle im Bereich der Robotik. In der realen Welt kann der RT-1 über 700 Anweisungen mit einer Erfolgsquote von 97 % ausführen.

Die jüngsten Fortschritte in der Forschung zum maschinellen Lernen (ML), wie Computer Vision und Verarbeitung natürlicher Sprache, wurden durch einen gemeinsamen Ansatz ermöglicht, der große, unterschiedliche Datensätze und ausdrucksstarke Modelle verwendet. Obwohl es verschiedene Versuche gab, diesen Ansatz auf die Robotik anzuwenden, wurden bei Robotern bisher nicht so viele hochleistungsfähige Modelle verwendet wie in anderen Teilbereichen.
Das Modell kodiert einen geschriebenen Befehl und eine Reihe von Bildern als Token mithilfe eines vorab trainierten FiLM EfficientNet-Modells, bevor es sie mit TokenLearner komprimiert. Dies ist die Architektur von RT-1. Der Transformer empfängt diese dann und erzeugt Aktionstoken.
Die Entwickler sammelten einen umfangreichen, vielfältigen Datensatz von Roboterbahnen, um ein System zu entwickeln, das sich auf neue Aufgaben übertragen lässt und Robustheit gegenüber verschiedenen Ablenkungen und Hintergründen zeigt. Um 130.000 Episoden über 17 Monate hinweg zu sammeln, setzten sie 13 EDR-Robotermanipulatoren ein, von denen jeder einen Arm mit 7 Freiheitsgraden, einen Zwei-Finger-Greifer und eine mobile Basis hat. Die Forscher verwendeten menschliche Beispiele, die durch Fernsteuerung gewonnen wurden, und sie kennzeichneten jedes Ereignis mit einer schriftlichen Erklärung des Befehls, den der Roboter gerade ausgeführt hatte. Zu den anspruchsvollen Fähigkeiten, die im Datensatz enthalten sind, gehören das Aufnehmen und Anordnen von Objekten, das Öffnen und Schließen von Schubladen, das Einlegen und Herausnehmen von Objekten in Schubladen, das Aufrichten länglicher Objekte, das Umwerfen von Objekten, das Ziehen von Servietten und das Öffnen von Gläsern.
Das folgende Video zeigt einige Beispiele für die Durchführung von PaLM-SayCan-RT1-Aufgaben mit großem Horizont in mehreren echten Küchen.
In allen vier Bereichen schneidet RT-1 deutlich besser ab als die Baselines und weist ein außergewöhnliches Maß an Generalisierung und Belastbarkeit auf.

Der RT-1 Robotics Transformer ist ein einfaches und skalierbares Aktionsgenerierungsmodell für reale Roboteraufgaben. Es tokenisiert alle Ein- und Ausgaben und komprimiert sie mithilfe eines vorab trainierten EfficientNet-Modells mit früher Sprachfusion und einem Token-Lerner. RT-1 zeigt eine starke Leistung bei Hunderten von Aufgaben sowie umfassende Generalisierung und Robustheit in realen Umgebungen.
Erfahren Sie mehr:
GPT-3: Kann es wirklich die Zukunft der USA für die nächsten fünf Jahre vorhersagen?
OpenAI hat GPT-3 aktualisiert: Höhere Schreibqualität und Möglichkeit für längere Texte
Sber AI hat Kandinsky 2.0 vorgestellt, das erste Text-zu-Bild-Modell zur Generierung in mehr als 100 Sprachen
Der Beitrag „Google veröffentlicht ein „GPT-ähnliches“ Robotermodell, den RT-1“ erschien zuerst auf Metaverse Post.
