Phiên bản mã nguồn mở của mô hình Flamingo của DeepMind, OpenFlamingo, vừa được phát hành. OpenFlamingo về cơ bản là một khuôn khổ cho phép đào tạo và đánh giá các mô hình đa phương thức (LMM) có quy mô lớn. OpenFlamingo được xây dựng dựa trên mô hình ngôn ngữ lớn LLaMA do Meta AI phát triển.

Đọc thêm: Cách sử dụng Midjourney miễn phí mãi mãi: 5 bước đơn giản

Đóng góp của nhà phát triển cho phiên bản đầu tiên này như sau:

  • Một tập dữ liệu đa phương thức khá lớn kết hợp các chuỗi văn bản và hình ảnh.

  • Một chuẩn mực để đánh giá việc học tập trong bối cảnh cho các hoạt động bao gồm thị giác và ngôn ngữ.

  • Phiên bản sơ bộ của mô hình OpenFlamingo-9B dựa trên LLaMA của chúng tôi.

Thông qua OpenFlamingo, các nhà phát triển hy vọng sẽ tạo ra một hệ thống đa phương thức có thể xử lý nhiều thách thức về ngôn ngữ thị giác. Mục tiêu cuối cùng là ngang bằng với sức mạnh và khả năng thích ứng của GPT-4 trong việc xử lý dữ liệu nhập bằng hình ảnh và văn bản. Các nhà phát triển đang phát triển phiên bản nguồn mở của mô hình Flamingo của DeepMind, một LMM có khả năng xử lý và suy luận về hình ảnh, video và văn bản để hoàn thành mục tiêu này. Các nhà phát triển tận tâm phát triển các mô hình nguồn mở hoàn toàn vì họ cho rằng tính minh bạch là yếu tố quan trọng để thúc đẩy hợp tác, thúc đẩy phát triển và dân chủ hóa quyền truy cập vào các LMM tiên tiến.

Họ đang cung cấp điểm kiểm tra ban đầu cho mô hình OpenFlamingo-9B của chúng tôi. Mặc dù mô hình chưa được tối ưu hóa hoàn toàn nhưng nó cho thấy sự hứa hẹn của dự án. Các nhà phát triển có thể đào tạo LMM tốt hơn bằng cách hợp tác và nhận phản hồi của cộng đồng. Họ mời công chúng đóng góp ý kiến ​​và bổ sung vào kho lưu trữ để tham gia vào quá trình phát triển.

Việc triển khai gần giống với Flamingo. Các mô hình Flamingo phải được đào tạo trên các tập dữ liệu web quy mô lớn với văn bản và đồ họa xen kẽ để trang bị cho chúng các kỹ năng học tập trong bối cảnh ngắn. Kiến trúc tương tự đã được đề xuất trong nghiên cứu ban đầu của Flamingo (Bộ lấy mẫu lại nhận thức, các lớp chú ý chéo) cũng được triển khai trong OpenFlamingo. Tuy nhiên, vì công chúng không thể truy cập được dữ liệu đào tạo của Flamingo nên các nhà phát triển sử dụng bộ dữ liệu nguồn mở để đào tạo mô hình. Điểm kiểm tra OpenFlamingo-9B mới được xuất bản đã được đào tạo cụ thể trên 10 triệu mẫu từ LAION-2B và 5 triệu mẫu từ bộ dữ liệu Multimodal C4 mới.

Các nhà phát triển cũng đưa vào một điểm kiểm tra từ LMM OpenFlamingo-9B chưa hoàn thiện của chúng tôi, dựa trên LLaMA 7B và CLIP ViT/L-14, như một phần của bản phát hành. Mặc dù khái niệm này vẫn đang được phát triển nhưng cộng đồng có thể đã được hưởng lợi rất nhiều từ nó.

Để bắt đầu, hãy xem nguồn và bản demo GitHub.

Đọc thêm về AI:

  • Chi phí đào tạo mô hình AI dự kiến ​​sẽ tăng từ 100 triệu USD lên 500 triệu USD vào năm 2030

  • Đặc vụ AI thích ứng mới Ada của DeepMind gần như thông minh như con người

  • DeepMind đã phát hành công cụ AI Dramatron, công cụ tạo ra bản phác thảo đầy đủ của kịch bản phim hoặc chương trình truyền hình

Bài đăng OpenFlamingo: Khung chuyển đổi hình ảnh thành văn bản nguồn mở mới từ Meta AI và LAION xuất hiện đầu tiên trên Metaverse Post.