Sebanding dengan GPT-4V, hanya menggunakan 1,2 juta data dan 8 A100, pelatihan selesai dalam satu hari, LLaVA-1.5 menyegarkan 11 benchmark SOTA

Sumber cetak ulang artikel: Heart of the Machine
Sumber gambar: Dihasilkan oleh AI Tanpa Batas
Angin pendaratan model multimoda besar akhirnya mulai berhembus.
Belasan hari yang lalu, OpenAI menambahkan fungsionalitas pengenalan gambar ke ChatGPT, memungkinkan pengguna mengunggah satu atau lebih gambar untuk melakukan percakapan. Dari dokumen ringkasan publik OpenAI, kita mengetahui bahwa di balik fungsi pengenalan gambar ChatGPT terdapat model besar baru yang disebut GPT-4V.
Sebenarnya kemampuan ini sudah ada saat GPT-4 dirilis setengah tahun lalu, namun belum diungkapkan kepada pengguna awam. Di bidang AI, model multi-modal besar telah lama menjadi tren yang dikenal dan juga dianggap sebagai modul utama asisten AI umum.
Mengingat desakan OpenAI pada "sumber tertutup", banyak peneliti juga memimpin dalam meluncurkan hasil penelitian model besar multi-modal mereka sendiri. Misalnya, dua mahakarya utama "LLaVA" dan "MiniGPT-4" telah menunjukkan hasil yang mengesankan dalam pelacakan instruksi alami dan kemampuan penalaran visual.
Pada bulan April tahun ini, para peneliti dari Universitas Wisconsin-Madison, Microsoft Research, dan Universitas Columbia bersama-sama merilis LLaVA (Large Language and Vision Assistant). Meskipun LLaVA dilatih dengan kumpulan data instruksi multimodal kecil, LLaVA menunjukkan hasil inferensi yang sangat mirip dengan GPT-4 pada beberapa sampel.
Saat ini, pencapaian ini telah menerima peningkatan besar: LLaVA-1.5 telah resmi dirilis, menyegarkan SOTA pada 11 benchmark melalui modifikasi sederhana pada LLaVA asli.
Alamat kertas: https://browse.arxiv.org/pdf/2310.03744.pdf
Alamat demo: https://llava.hliu.cc/
Hanya menggunakan 1,2 juta data publik, LLaVA-1.5 dilatih dalam waktu kurang dari 1 hari pada satu node 8-A100.
Dalam makalah tersebut, para peneliti memperkenalkan dua perbaikan sederhana: konektor lintas modal MLP dan menggabungkan data yang terkait dengan tugas akademik seperti VQA. Ketika digunakan bersama dengan LLaVA, kedua peningkatan ini menghasilkan pemahaman multimodal yang lebih baik.
Dibandingkan dengan InstructBLIP atau Qwen-VL, yang melatih resampler visual yang dirancang khusus pada ratusan juta atau bahkan miliaran pasangan gambar-teks, LLaVA menggunakan desain arsitektur paling sederhana dan hanya perlu melatih 600 ribu pasangan gambar-teks lapisan.
Bisakah dibandingkan dengan GPT-4V?
Sebelum membaca makalah ini, mari kita lihat dulu kemampuan pengenalan LLaVA-1.5 dan apakah dapat dibandingkan dengan GPT-4V.
Proposisi 1: Ubah bahan makanan menjadi JSON
Petunjuk: Perlu mengidentifikasi semua buah-buahan (hanya buah-buahan) dan kemudian membuat objek untuk setiap buah dengan nama sifat dan sifat nutrisi termasuk perkiraan sifat kalori, karbohidrat, lemak dan protein.
Hasil jawaban LLaVA-1.5:
Hasil jawaban GPT-4V:
Proposisi 2: Identifikasi judul film dari sketsa yang disederhanakan
Petunjuk: Tentang film manakah gambar ini? Catatan: Saya mengubah nama karakter agar lebih sulit diidentifikasi.
Hasil jawaban LLaVA-1.5:
Hasil jawaban GPT-4V:
Detail kertas
LLaVA menunjukkan kemampuan terpuji dalam penalaran visual, mengungguli beberapa model canggih dalam berbagai tolok ukur tugas instruksi visual di kehidupan nyata, sementara hanya gagal dalam tolok ukur akademis yang biasanya memerlukan jawaban singkat. Tim peneliti mengaitkan metode terakhir ini dengan fakta bahwa LLaVA tidak dilatih sebelumnya pada data berskala besar seperti metode lainnya.
Secara khusus, penelitian ini terlebih dahulu menganalisis dampak perluasan data, model, dan resolusi gambar masukan pada tiga kumpulan data yang dipilih pada Tabel 1 di bawah, kemudian melakukan eksperimen komparatif pada 12 tolok ukur berbeda pada Tabel 2. Hasil eksperimen menunjukkan bahwa arsitektur LLaVA kuat dan efisien data untuk penyetelan instruksi vision, dan mencapai performa terbaik dengan menggunakan komputasi dan data pelatihan yang jauh lebih sedikit dibandingkan metode lainnya.
Perintah format respons
Studi ini menemukan bahwa metode seperti InstructBLIP tidak dapat mencapai keseimbangan antara VQA bentuk pendek dan panjang karena dua alasan utama:
Pertama, prompt yang diberikan kepada LLM bersifat ambigu dalam format respons. Misalnya, prompt seperti "Q: {Question} A: {Answer}" tidak secara jelas menyatakan format output yang diperlukan. Bahkan untuk percakapan visual alami, LLM mungkin terlalu cocok untuk memberikan jawaban singkat.
Kedua, LLM tidak disempurnakan. Misalnya, InstructBLIP memerlukan token keluaran visual Qformer untuk mengontrol panjang keluaran LLM (format panjang/format pendek), namun karena kapasitasnya yang terbatas, Qformer mungkin tidak memiliki kemampuan untuk melakukan ini dengan benar.
Untuk mengatasi masalah ini, penelitian ini mengusulkan untuk menggunakan "perintah format respons" yang secara jelas menentukan format keluaran. Misalnya, ketika model diminta untuk memberikan jawaban singkat, tambahkan kalimat di akhir pertanyaan VQA: "Jawab. pertanyaannya menggunakan satu kata atau frasa."
Studi ini secara eksperimental menunjukkan bahwa ketika LLM disempurnakan menggunakan perintah tersebut, LLaVA mampu menyesuaikan format keluaran dengan tepat sesuai dengan instruksi pengguna dan tidak memerlukan pemrosesan tambahan data VQA menggunakan ChatGPT.
Lebih lanjut, penelitian ini juga menemukan bahwa peningkatan kekuatan representasi konektor visual-verbal melalui MLP lapisan ganda dapat meningkatkan kemampuan multimodal LLaVA dibandingkan dengan model aslinya. Selain itu, penelitian ini juga memperluas data untuk tugas akademik, termasuk kumpulan data VQA berorientasi tugas akademik tambahan untuk VQA, OCR, dan persepsi tingkat wilayah untuk meningkatkan kemampuan multimodal model.
Pembaca yang tertarik dapat membaca teks asli makalah untuk mempelajari lebih lanjut isi penelitian.
Tautan referensi:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842