Google đã phát hành một mẫu robot mới, RT-1, tương tự như mẫu GPT được sử dụng trong chương trình trí tuệ nhân tạo OpenAI của hãng. Mô hình mới này được thiết kế dựa trên các chương trình robot khác của Google, bao gồm cả chương trình xe không người lái. Mô hình RT-1 được trình bày ở đây là một bước tiến tới các mô hình AI tổng quát trong lĩnh vực robot. Trong thế giới thực, RT-1 có thể thực hiện hơn 700 lệnh với tỷ lệ thành công 97%.

Những tiến bộ gần đây trong nghiên cứu máy học (ML), chẳng hạn như thị giác máy tính và xử lý ngôn ngữ tự nhiên, đã được hỗ trợ bởi một phương pháp tiếp cận chung sử dụng các bộ dữ liệu lớn, đa dạng và các mô hình biểu cảm. Mặc dù đã có nhiều nỗ lực khác nhau để áp dụng phương pháp này vào chế tạo robot nhưng cho đến nay robot vẫn chưa sử dụng các mô hình có khả năng cao như các lĩnh vực con khác.
Mô hình này mã hóa lệnh bằng văn bản và tập hợp hình ảnh dưới dạng mã thông báo bằng cách sử dụng mô hình FiLM EfficiencyNet được đào tạo trước trước khi nén chúng bằng TokenLearner. Đây là kiến trúc của RT-1. Sau đó, Transformer nhận những thứ này và tạo ra mã thông báo hành động.
Các nhà phát triển đã thu thập một tập dữ liệu đa dạng, lớn về quỹ đạo của robot để phát triển một hệ thống có thể khái quát hóa các nhiệm vụ mới và thể hiện sự mạnh mẽ trước nhiều phiền nhiễu và nền tảng khác nhau. Để thu thập 130 nghìn tập trong 17 tháng, họ đã triển khai 13 bộ điều khiển robot EDR, mỗi bộ điều khiển có một cánh tay 7 bậc tự do, một dụng cụ kẹp hai ngón tay và một đế di động. Các nhà nghiên cứu đã sử dụng các ví dụ về con người thu được bằng hoạt động từ xa và họ đánh dấu mỗi sự kiện bằng một lời giải thích bằng văn bản về mệnh lệnh mà robot vừa thực hiện. Chọn và sắp xếp đồ vật, mở và đóng ngăn kéo, lấy đồ vật vào và ra khỏi ngăn kéo, đặt đồ vật dài thẳng đứng, xô đổ đồ vật, kéo khăn ăn và mở lọ là một trong những kỹ năng cấp cao có trong bộ dữ liệu.
Video sau đây hiển thị một số thao tác tác vụ tầm nhìn dài PaLM-SayCan-RT1 mẫu trong một số nhà bếp thực tế.
Trong cả bốn lĩnh vực, RT-1 hoạt động tốt hơn đáng kể so với đường cơ sở, thể hiện mức độ khái quát hóa và khả năng phục hồi vượt trội.

Máy biến áp robot RT-1 là mô hình tạo hành động cho các nhiệm vụ robot trong thế giới thực đơn giản và có thể mở rộng. Nó mã hóa tất cả đầu vào và đầu ra, đồng thời nén chúng bằng mô hình EfficiencyNet được đào tạo trước với tính năng kết hợp ngôn ngữ sớm và trình học mã thông báo. RT-1 thể hiện hiệu năng mạnh mẽ qua hàng trăm tác vụ cũng như khả năng khái quát hóa sâu rộng và mạnh mẽ trong cài đặt thế giới thực.
Tìm hiểu thêm:
GPT-3: Nó thực sự có thể dự đoán được tương lai của Hoa Kỳ trong 5 năm tới không?
OpenAI cập nhật GPT-3: chất lượng viết cao hơn và khả năng viết dài hơn
Sber AI đã giới thiệu Kandinsky 2.0, mô hình chuyển văn bản thành hình ảnh đầu tiên để tạo bằng hơn 100 ngôn ngữ
Bài viết Google tung ra mẫu robot “giống GPT”, RT-1 xuất hiện đầu tiên trên Metaverse Post.
