Способный говорить, видеть и действовать, робот OpenAI — король в действии.

Источник перепечатки статьи: Сердце машины.
Источник статьи: Сердце машины
 Источник изображения: Создано Unbounded AI: Boston Dynamics необходимо добавить новые танцевальные движения, чтобы рисунок 01 стал популярным.
«Благодаря возможностям OpenAI Рисунок 01 теперь может полноценно общаться с людьми!»
В среду Fig, звездный робототехнический стартап с половиной инвестиций в Кремниевой долине, выпустил новую демо-версию робота, основанную на большой модели OpenAI.
Эта компания только что объявила 1 марта, что получила инвестиции от таких компаний, как OpenAI, и напрямую использовала мультимодальную большую модель OpenAI всего за десять дней. Как видите, рисунок 01, основанный на возможностях больших моделей OpenAI, теперь выглядит так.
Он может подчиняться человеческим приказам и раздавать людям яблоки.
Упакуйте черные полиэтиленовые пакеты в раму.
Поставьте чашки и тарелки на решетку для сушки.
Следует подчеркнуть: все, что вы видите, использует только одну нейронную сеть.
Увидев такую ​​потрясающую демонстрацию, большинство пользователей сети были шокированы скоростью развития роботов. Кажется, мы находимся в самом разгаре этой бурной волны эволюции. Некоторые люди даже посетовали, что готовы к большему количеству роботов.
  
Некоторые пользователи сети пошутили: «Boston Dynamics: Ладно, ребята, это настоящее соревнование. Давайте вернемся в лабораторию и придумаем еще танцевальные номера».
 Всему этому робот учится сам!
Основатель проекта Бретт Адкок рассказал, что на рисунке 01 в видео показан разговор с людьми в рамках сквозной нейронной сети без каких-либо удаленных операций. Более того, скорость робота значительно возросла и начинает приближаться к скорости человека.
Кори Линч, старший инженер по искусственному интеллекту, работающий с роботами Рисунок, представил технические принципы Рисунок 01. Он сказал, что Фигура 01 теперь может делать следующее:
описать свой визуальный опыт
Планируйте будущие действия
Поразмышляйте над своими воспоминаниями
Устно объяснить ход рассуждения
Далее он объяснил, что все поведение робота на видео изучено (опять же, не дистанционно) и работает с нормальной скоростью (1,0x). В своей реализации они передавали изображения с камеры робота и транскрибировали речевой текст, записанный встроенным микрофоном, в большую мультимодальную модель, обученную OpenAI, которая может понимать как изображения, так и текст. Модель обрабатывает всю расшифровку разговора, включая прошлые изображения, чтобы получить вербальный ответ, который затем отправляет обратно человеку посредством преобразования текста в речь. Кроме того, модель отвечает за принятие решения о том, какое изученное поведение замкнутого цикла запустить на роботе для выполнения заданной команды, тем самым загружая определенные веса нейронной сети в графический процессор и выполняя политику.
Соединение рисунка 01 с большой предварительно обученной мультимодальной моделью дает ей некоторые новые интересные возможности. Рисунок 01 + OpenAI теперь может:
Опишите его окрестности.
Используйте здравый смысл для принятия решений. Например: «Посуду, такую ​​как тарелки и чашки, стоящие на столе, возможно, придется затем поставить на сливную решетку».
Преобразуйте неоднозначные запросы высокого уровня, такие как «Я голоден», в соответствующие контексту действия, такие как «передай человеку яблоко».
Опишите простым языком, почему он выполняет конкретное действие. Например: «Это единственный съедобный предмет, который я могу предложить вам со стола».
Большая предварительно обученная модель, которая понимает историю разговоров, обеспечивает Рисунок 01 мощной кратковременной памятью. Рассмотрим простой вопрос: «Можете ли вы их туда поместить?» Что означает «они»? Где «там»? Чтобы правильно ответить на этот вопрос, необходимо умение размышлять над памятью. Анализируя изображение и текстовую историю разговора с помощью предварительно обученной модели, Рисунок 01 быстро формирует и выполняет план:
1) Поставьте чашку на решетку для слива. 2) Поместите тарелку на решетку для слива.
Что касается изученных низкоуровневых бимануальных операций, все действия управляются стратегией зрительно-моторного преобразователя нейронной сети, которая напрямую сопоставляет пиксели с действиями. Эти сети получают изображения с воздуха на частоте 10 Гц и генерируют движение с 24 степенями свободы (положение запястья и угол сустава пальца) на частоте 200 Гц. Эти движения служат высокоскоростными «заданными точками» для более быстрого отслеживания контроллером всего тела. Это полезное разделение задач, при котором:
Предварительно обученные в Интернете модели выполняют здравый смысл над изображениями и текстом для получения высокоуровневого планирования.
Выученная зрительно-моторная политика реализует планы по быстрому реагированию, которые трудно указать вручную, например, манипулирование деформируемым мешком в любом положении.
Контроллер всего тела обеспечивает безопасную и стабильную динамику, например поддержание баланса.
Наконец, он сказал, что еще несколько лет назад он думал, что человекоподобные роботы, планирующие и осуществляющие свое собственное, полностью изученное поведение, в то же время ведя полный диалог с людьми, — это то, что произойдет через десятилетия. Очевидно, многое изменилось.
 Что касается звука, то все догадываются, от кого исходит металлический звук робота? Некоторые угадали Стива Джобса, Сэма Альтмана, а некоторые угадали актера Роба Лоу. Что вы думаете?  Фигура, самый популярный стартап в эпоху воплощенного интеллекта
В последнее время конкуренция в области генеративного ИИ смещается в сторону длинного текста и мультимодальности, и различные технологические компании и учреждения не забыли инвестировать в следующую горячую тему — воплощенный интеллект. Воплощенный интеллект — очень сложная задача для таких областей, как компьютерное зрение и робототехника: предполагается, что агенты ИИ (роботы) могут не только получать статические изображения из наборов данных, но и перемещаться в трехмерном виртуальном мире или даже в реальном мире. окружающей среды и взаимодействовать с окружающей средой, тогда мы ознаменуем крупный прорыв в технологиях: от простых возможностей машинного обучения, таких как распознавание изображений, до обучения тому, как выполнять сложные задачи, подобные человеческим, за несколько шагов. Воплощенному интеллекту отдает предпочтение OpenAI, лидер в области генеративного искусственного интеллекта, и, по-видимому, наиболее многообещающей компанией в разработке воплощенного интеллекта является Fig. 1 марта Рисунок объявил о завершении ошеломляющего финансирования серии B на сумму 675 миллионов долларов, оценивая компанию в 2,6 миллиарда долларов. На первый взгляд кажется, что половина Кремниевой долины вложила в него средства: Microsoft, Intel, OpenAI Startup Fund, Amazon Industrial Innovation Fund, NVIDIA, Безос, Ark Investment компании Mother Wood, Parkway Venture Capital, Align Ventures и т. д. . Продукт компании, Рисунок 01, считается первым в мире коммерчески жизнеспособным автономным роботом-гуманоидом. Его рост составляет 1,5 метра, вес 60 килограммов, он может перевозить 20 килограммов груза и приводится в движение двигателем. Время его работы составляет 5 часов, а скорость ходьбы — 1,2 метра в секунду. Можно сказать, что многие показатели близки к человеческим. Интерес к рисунку растет с января 2023 года. Хотя компания пока выпустила всего четыре демо-ролика. Один из них показывает, как готовится кофе на рисунке 01:
Согласно рисунку, робот отрабатывает эти действия сквозным, а время обучения нейронной сети составляет 10 часов. На видео от 27 февраля Рисунок 01 самостоятельно выполнил типичную логистическую задачу — перемещение пустых коробок.
Конечно, скорость все равно намного медленнее, чем у человека. Однако в этих задачах Рисунок 01 выполняет задачи полностью автономно. Так называемая «полная автономия» означает, что вам нужно всего лишь разместить робота на земле (независимо от того, где он расположен в доме) и просто нажать «Старт» без участия других пользователей. С помощью обученной крупномасштабной модели визуального языка (VLM) робот-гуманоид сначала определит и определит местонахождение целевого объекта, а затем обдумает подходящую позу удержания. Затем Фигура 01 переместится к цели, определит точку захвата и силу руки, попытается успешно схватить и поместит коробку на конвейер. Эти технические достижения также являются одной из важных причин, по которым компания Fig заключила соглашение о сотрудничестве с OpenAI, которая всегда хотела вернуться в область робототехники, чтобы объединить исследования OpenAI с опытом работы в области робототехники, чтобы разработать следующее поколение моделей ИИ для гуманоидов. роботы. OpenAI также надеется распространить свои высокопроизводительные мультимодальные большие модели на область робототехники. Помимо принятия крупных объемов венчурного капитала, Рисунок также активно расширяет сценарии привлечения инвестиций. В настоящее время «Рисунок 01» начал испытания на автомобильном заводе BMW в Спартанбурге, Южная Каролина, где планируется позволить роботам заменить людей в некоторых крайне опасных задачах.
Ссылка на ссылку: https://twitter.com/i/status/1767913661253984474https://www.figure.ai/