Google a publié un nouveau modèle de robot, le RT-1, similaire au modèle GPT utilisé dans son programme d'intelligence artificielle OpenAI. Le nouveau modèle est conçu en pensant aux autres programmes de robotique de Google, y compris son programme de voiture sans conducteur. Le modèle RT-1 présenté ici constitue une étape vers des modèles d’IA génératifs dans le domaine de la robotique. Dans le monde réel, le RT-1 peut exécuter plus de 700 instructions avec un taux de réussite de 97 %.

Les progrès récents dans la recherche sur l'apprentissage automatique (ML), tels que la vision par ordinateur et le traitement du langage naturel, ont été rendus possibles par une approche commune partagée qui utilise des ensembles de données et des modèles expressifs vastes et diversifiés. Bien qu'il y ait eu diverses tentatives pour appliquer cette approche à la robotique, les robots n'ont jusqu'à présent pas utilisé autant de modèles hautement performants que d'autres sous-domaines.

Le modèle encode une commande écrite et un ensemble d'images sous forme de jetons à l'aide d'un modèle FiLM EfficientNet pré-entraîné avant de les compresser à l'aide de TokenLearner. Il s'agit de l'architecture de RT-1. Le transformateur les reçoit ensuite et produit des jetons d'action.

Les développeurs ont rassemblé un ensemble de données considérable et varié de trajectoires de robots afin de développer un système qui pourrait s'appliquer à de nouvelles tâches et démontrer sa robustesse face à diverses distractions et contextes. Pour rassembler 130 000 épisodes sur 17 mois, ils ont déployé 13 robots manipulateurs EDR, chacun doté d'un bras à 7 degrés de liberté, d'une pince à deux doigts et d'une base mobile. Les chercheurs ont utilisé des exemples humains obtenus par téléopération à distance et ont marqué chaque événement d'une explication écrite de la commande que le robot venait d'exécuter. Choisir et organiser des objets, ouvrir et fermer des tiroirs, faire entrer et sortir des objets des tiroirs, positionner des objets allongés à la verticale, renverser des objets, tirer des serviettes et ouvrir des bocaux font partie des compétences de haut niveau incluses dans l'ensemble de données.

La vidéo suivante présente quelques exemples de performances de tâches à long terme du PaLM-SayCan-RT1 dans plusieurs cuisines réelles.

Dans les quatre domaines, le RT-1 obtient des résultats nettement supérieurs aux valeurs de référence, affichant des niveaux exceptionnels de généralisation et de résilience.

Le RT-1 Robotics Transformer est un modèle de génération d'actions pour les tâches robotiques du monde réel, simple et évolutif. Il tokenise toutes les entrées et sorties et les compresse à l'aide d'un modèle EfficientNet pré-entraîné avec une fusion de langage précoce et un apprenant de jetons. RT-1 démontre de solides performances sur des centaines de tâches, ainsi qu'une généralisation et une robustesse étendues dans des environnements réels.

Apprendre encore plus:

  • GPT-3 : Peut-il vraiment prédire l’avenir des États-Unis pour les 5 prochaines années ?

  • OpenAI a mis à jour GPT-3 : écriture de meilleure qualité et capacité de texte plus longue

  • Sber AI a présenté Kandinsky 2.0, le premier modèle de conversion de texte en image pouvant être généré dans plus de 100 langues

L'article Google publie un modèle de robot « de type GPT », le RT-1 est apparu en premier sur Metaverse Post.