Google lanza un modelo de robot “similar a GPT”, el RT-1

Google ha lanzado un nuevo modelo de robot, el RT-1, que es similar al modelo GPT utilizado en su programa de inteligencia artificial OpenAI. El nuevo modelo está diseñado teniendo en cuenta otros programas de robótica de Google, incluido su programa de coches sin conductor. El modelo RT-1 que se presenta aquí supone un paso hacia los modelos de IA generativa en el campo de la robótica. En el mundo real, el RT-1 puede ejecutar más de 700 instrucciones con una tasa de éxito del 97%.
Los recientes avances en la investigación del aprendizaje automático (ML), como la visión artificial y el procesamiento del lenguaje natural, han sido posibles gracias a un enfoque común compartido que utiliza conjuntos de datos grandes y diversos y modelos expresivos. Aunque ha habido varios intentos de aplicar este enfoque a la robótica, hasta ahora los robots no han utilizado modelos de alta capacidad tanto como otros subcampos.
El modelo codifica un comando escrito y un conjunto de imágenes como tokens utilizando un modelo FiLM EfficientNet previamente entrenado antes de comprimirlos utilizando TokenLearner. Esta es la arquitectura de RT-1. Luego, el Transformer los recibe y produce tokens de acción.
Los desarrolladores reunieron un conjunto de datos considerable y variado de trayectorias de robots para desarrollar un sistema que pudiera generalizarse a nuevas tareas y demostrar su robustez ante diversas distracciones y entornos. Para reunir 130.000 episodios a lo largo de 17 meses, desplegaron 13 manipuladores robóticos EDR, cada uno de los cuales tiene un brazo de 7 grados de libertad, una pinza de dos dedos y una base móvil. Los investigadores utilizaron ejemplos humanos obtenidos mediante teleoperación remota y marcaron cada evento con una explicación escrita del comando que el robot acababa de ejecutar. Recoger y ordenar objetos, abrir y cerrar cajones, introducir y sacar objetos de los cajones, colocar objetos alargados en posición vertical, volcar objetos, tirar servilletas y abrir frascos se encuentran entre las habilidades de alto nivel incluidas en el conjunto de datos.
El siguiente vídeo muestra algunos ejemplos de rendimiento de tareas de horizonte largo de PaLM-SayCan-RT1 en varias cocinas reales.
En las cuatro áreas, el RT-1 tiene un desempeño significativamente mejor que los valores de referencia, mostrando niveles excepcionales de generalización y resiliencia.
El RT-1 Robotics Transformer es un modelo de generación de acciones para tareas robóticas del mundo real que es simple y escalable. Tokeniza todas las entradas y salidas y las comprime utilizando un modelo EfficientNet entrenado previamente con fusión temprana de lenguaje y un aprendiz de tokens. El RT-1 demuestra un sólido desempeño en cientos de tareas, así como una amplia generalización y solidez en entornos del mundo real.
Más información:
GPT-3: ¿Puede realmente predecir el futuro de EE.UU. durante los próximos 5 años?
OpenAI actualizó GPT-3: escritura de mayor calidad y capacidad para textos más largos
Sber AI ha presentado Kandinsky 2.0, el primer modelo de texto a imagen para generar en más de 100 idiomas
La publicación Google lanza un modelo de robot “similar a GPT”, el RT-1 apareció primero en Metaverse Post.