Google telah merilis model robot baru, RT-1, yang mirip dengan model GPT yang digunakan dalam program kecerdasan buatan OpenAI. Model baru ini dirancang dengan mempertimbangkan program robotika Google lainnya, termasuk program mobil tanpa pengemudi. Model RT-1 yang disajikan di sini merupakan langkah menuju model AI generatif di bidang robotika. Di dunia nyata, RT-1 dapat menjalankan lebih dari 700 instruksi dengan tingkat keberhasilan 97%.

Kemajuan terkini dalam penelitian pembelajaran mesin (ML), seperti visi komputer dan pemrosesan bahasa alami, dimungkinkan oleh pendekatan umum yang menggunakan kumpulan data yang besar dan beragam serta model ekspresif. Meskipun ada berbagai upaya untuk menerapkan pendekatan ini pada robotika, robot sejauh ini belum menggunakan model berkemampuan tinggi seperti subbidang lainnya.

Model ini mengkodekan perintah tertulis dan sekumpulan gambar sebagai token menggunakan model FiLM EfficientNet yang telah dilatih sebelumnya sebelum mengompresinya menggunakan TokenLearner. Ini adalah arsitektur RT-1. Transformer kemudian menerima ini dan menghasilkan token tindakan.

Pengembang mengumpulkan kumpulan data lintasan robot yang cukup besar dan bervariasi untuk mengembangkan sistem yang dapat menggeneralisasi tugas-tugas baru dan menunjukkan ketahanan terhadap berbagai gangguan dan latar belakang. Untuk mengumpulkan 130 ribu episode selama 17 bulan, mereka mengerahkan 13 manipulator robot EDR, yang masing-masing memiliki lengan 7 derajat kebebasan, pegangan dua jari, dan pangkalan bergerak. Para peneliti menggunakan contoh manusia yang diperoleh melalui teleoperasi jarak jauh, dan mereka menandai setiap peristiwa dengan penjelasan tertulis tentang perintah yang baru saja dijalankan robot. Memilih dan menata benda, membuka dan menutup laci, memasukkan dan mengeluarkan benda dari laci, memposisikan benda memanjang tegak, menjatuhkan benda, menarik serbet, dan membuka toples adalah beberapa keterampilan tingkat tinggi yang termasuk dalam kumpulan data.

Video berikut menampilkan beberapa contoh kinerja tugas jangka panjang PaLM-SayCan-RT1 di beberapa dapur sebenarnya.

Di keempat area tersebut, kinerja RT-1 secara signifikan lebih baik dibandingkan baseline, menunjukkan tingkat generalisasi dan ketahanan yang luar biasa.

Transformator Robotika RT-1 adalah model pembangkitan tindakan untuk tugas robotika dunia nyata yang sederhana dan terukur. Ini memberi token pada semua input dan output dan mengompresinya menggunakan model EfficientNet yang telah dilatih sebelumnya dengan fusi bahasa awal dan pembelajar token. RT-1 menunjukkan kinerja yang kuat di ratusan tugas, serta generalisasi dan ketahanan yang luas dalam situasi dunia nyata.

Belajarlah lagi:

  • GPT-3: Bisakah teknologi ini benar-benar memprediksi masa depan Amerika Serikat dalam 5 tahun ke depan?

  • OpenAI memperbarui GPT-3: tulisan berkualitas lebih tinggi dan kemampuan teks lebih panjang

  • Sber AI telah menghadirkan Kandinsky 2.0, model teks-ke-gambar pertama yang menghasilkan lebih dari 100 bahasa

Pos Google merilis model robot “mirip GPT”, RT-1 muncul pertama kali di Metaverse Post.