OpenFlamingo: Kerangka Kerja Gambar-ke-Teks Sumber Terbuka Baru Dari Meta AI dan LAION

Versi sumber terbuka model Flamingo DeepMind, OpenFlamingo, baru saja dirilis. OpenFlamingo pada dasarnya adalah kerangka kerja yang memungkinkan pelatihan dan penilaian model multimodal (LMM) yang cukup besar. OpenFlamingo dibangun di atas model bahasa besar LLaMA yang dikembangkan oleh Meta AI.
 Baca selengkapnya: Cara Menggunakan Midjourney Gratis Selamanya: 5 langkah sederhana
Kontribusi pengembang pada rilis pertama ini adalah sebagai berikut:
Kumpulan data multimodal yang cukup besar yang menggabungkan urutan teks dan visual.
Tolok ukur evaluasi pembelajaran dalam konteks untuk aktivitas termasuk penglihatan dan bahasa.
Versi awal dari model OpenFlamingo-9B berbasis LLaMA kami.
Melalui OpenFlamingo, pengembang berharap dapat menciptakan sistem multimodal yang dapat menangani berbagai tantangan bahasa visi. Tujuan utamanya adalah untuk menyamai kekuatan dan kemampuan beradaptasi GPT-4 dalam menangani input visual dan teks. Pengembang sedang mengembangkan versi open-source model Flamingo DeepMind, sebuah LMM yang mampu memproses dan memikirkan gambar, video, dan teks, untuk mencapai tujuan ini. Pengembang berdedikasi untuk mengembangkan model sumber terbuka sepenuhnya karena mereka berpendapat bahwa transparansi sangat penting untuk mendorong kerja sama, mempercepat pembangunan, dan mendemokratisasi akses ke LMM mutakhir.
Mereka menyediakan pos pemeriksaan awal model OpenFlamingo-9B kami. Meskipun model ini belum sepenuhnya dioptimalkan, hal ini menunjukkan potensi proyek tersebut. Pengembang dapat melatih LMM yang lebih baik dengan bekerja sama dan mendapatkan masukan dari komunitas. Mereka mengajak masyarakat untuk memberi masukan dan menambah repositori guna ikut serta dalam proses pembangunan.
Penerapannya sangat mirip dengan penerapan Flamingo. Model Flamingo harus dilatih pada kumpulan data web berskala besar dengan teks dan grafik yang disisipkan untuk membekali mereka dengan keterampilan pembelajaran singkat dalam konteks. Arsitektur yang sama yang disarankan dalam studi Flamingo asli (Perceiver resampler, lapisan perhatian silang) diimplementasikan di OpenFlamingo. Namun, karena data pelatihan Flamingo tidak dapat diakses oleh masyarakat umum, pengembang menggunakan kumpulan data sumber terbuka untuk melatih model. Pos pemeriksaan OpenFlamingo-9B yang baru diterbitkan secara khusus dilatih pada 10 juta sampel dari LAION-2B dan 5 juta sampel dari kumpulan data Multimodal C4 yang baru.
Pengembang juga menyertakan pos pemeriksaan dari LMM OpenFlamingo-9B kami yang belum selesai, yang didasarkan pada LLaMA 7B dan CLIP ViT/L-14, sebagai bagian dari rilis. Meski konsep ini masih terus dikembangkan, namun masyarakat mungkin sudah mendapatkan manfaat yang besar.
Untuk memulai, lihat sumber dan demo GitHub.
Baca lebih lanjut tentang AI:
Biaya Pelatihan Model AI Diperkirakan Meningkat dari $100 Juta menjadi $500 Juta pada tahun 2030
Agen AI Adaptif Baru DeepMind, Ada, Hampir Secerdas Manusia
DeepMind merilis alat AI Dramatron, yang menghasilkan draf lengkap naskah film atau acara TV
Pos OpenFlamingo: Kerangka Gambar-ke-Teks Sumber Terbuka Baru Dari Meta AI dan LAION muncul pertama pada Metaverse Post.