Pada presentasi GPT-4 baru-baru ini, salah satu fitur yang menonjol adalah kemampuannya untuk terlibat dalam percakapan yang diperkaya dengan gambar. Namun, kemampuan ini belum terintegrasi ke dalam penawaran OpenAI. Meskipun sebelumnya kami menyoroti kompetensi Bing dalam aspek ini, solusi sumber terbuka kini telah muncul dalam bentuk "Large Language and Vision Assistant" (LLaVA).

Potensi Multimoda LLaVA

LLaVA adalah AI multimodal sumber terbuka yang menggabungkan pemrosesan bahasa dan penglihatan. Demo LLaVA dapat diakses di sini.

Hal yang aneh dari gambar ini adalah seorang pria memegang tali jemuran dengan kemeja putih di atasnya sambil mencondongkan tubuhnya ke luar jendela taksi kuning. Situasi ini tidak biasa karena jarang terlihat orang mencondongkan tubuhnya ke luar jendela mobil sambil memegang pakaian atau pakaian dalam. Pria itu mungkin mencoba mengeringkan kemejanya dengan cara yang tidak aman dan tidak efisien saat taksi melaju.

Kami melakukan uji coba sederhana dengan memasukkan gambar Taksi dan manusia, dan LLaVA memberi saya analisis deskriptif. Namun, upaya saya untuk menantangnya dengan soal matematika, yang mirip dengan yang ditangani oleh Bing, terbukti sia-sia. LLaVA tampaknya kesulitan dengan matematika, meskipun kemampuannya dalam pengenalan gambar.

Tantangan dengan Tugas Matematika

Kami memberikan LLaVA soal matematika yang melibatkan trigonometri, mirip dengan soal yang berhasil dipecahkan oleh Bing. Sayangnya, LLaVA tidak dapat memberikan solusi yang benar, sehingga jawaban yang diberikan salah untuk akar kuadrat 169 menjadi 13,2.

Mari kita selesaikan pertanyaan ini

Tugas yang ada melibatkan penentuan panjang diagonal sebuah segitiga dengan sisi berukuran 5 cm dan 12 cm. Untuk menyelesaikannya, kita dapat menggunakan teorema Pythagoras, yang menyatakan bahwa dalam segitiga siku-siku, kuadrat panjang hipotenusa (sisi yang berhadapan dengan sudut siku-siku) sama dengan jumlah kuadrat kedua sisi lainnya.

Dalam skenario ini, sisi miring sesuai dengan diagonal segitiga, yang dapat kita pastikan dengan mengambil akar kuadrat dari jumlah kuadrat kedua sisi yang diberikan.

Untuk memulainya, kita harus mencari panjang diagonalnya, yaitu sisi yang menghubungkan dua titik sudut segitiga yang tidak bersebelahan. Dalam hal ini, kedua titik sudut tersebut dihubungkan dengan sisi berukuran 5 cm dan 12 cm.

Sekarang, mari kita terapkan teorema Pythagoras:

(5cm)^2 + (12cm)^2 = diagonal^2

5^2 + 12^2 = diagonal^2

25 + 144 = diagonal^2

169 = diagonal^2

Akhirnya, kita dapat menentukan panjang diagonal dengan mengambil akar kuadrat kedua sisi:

√169 = diagonal

Panjang diagonalnya sekitar 13,2 cm.

Perspektif Tidak Biasa pada Gambar

LLaVA unggul dalam kemampuannya untuk berkomunikasi dengan gambar, meskipun tantangan tetap ada, khususnya dalam pemecahan masalah matematika. Misalnya, ketika disajikan dengan gambar seorang pria yang mencondongkan tubuhnya keluar dari jendela taksi kuning, memegang tali jemuran dengan kemeja putih, LLaVA memberikan perspektif yang tidak biasa. Ia menyarankan bahwa adegan seperti itu tidak lazim, karena tidak umum untuk menyaksikan orang mencondongkan tubuhnya keluar dari jendela mobil sambil memegang pakaian. Analisis menunjukkan bahwa pria itu mungkin mencoba metode yang tidak konvensional dan berpotensi tidak aman untuk mengeringkan kemejanya saat taksi sedang melaju.

Meskipun LLaVA menawarkan kemampuan multimoda yang menjanjikan, khususnya dalam berkomunikasi dengan gambar, LLaVA menghadapi keterbatasan dalam pemecahan masalah matematika. Perlu dicatat bahwa kemampuan Google dalam hal ini melampaui LLaVA, seperti yang ditunjukkan oleh solusi yang lebih akurat untuk masalah matematika yang serupa.

Pengembangan AI dengan kemampuan multimoda tidak diragukan lagi merupakan kemajuan yang menggembirakan, dan LLaVA merupakan upaya sumber terbuka yang patut dipuji dalam arah ini. Namun, diperlukan peningkatan untuk meningkatkan kemampuan penalaran matematisnya agar sesuai dengan kemahirannya dalam analisis gambar.

Untuk solusi matematika yang lebih akurat, kemampuan Google saat ini lebih unggul: Pemecah Masalah Matematika Google.

Baca lebih lanjut tentang AI:

  • Cara Menghasilkan hingga $1000 Setiap Hari Menggunakan ChatGPT: 5+ Video

  • Google Ajari Model AI Flamingo untuk Menulis Deskripsi untuk Video YouTube

  • OpenAI Mengumumkan Plugin Canva untuk Memperlancar Pembuatan Visual dengan ChatGPT

Postingan LLaVA vs. GPT-4: Pertarungan AI Sumber Terbuka yang Menyorot Potensi Multimoda dan Keterbatasan Matematika muncul pertama kali di Metaverse Post.