GPT-4 の最近の発表では、画像が豊富な会話に参加できるという点が際立った特徴の 1 つでした。ただし、この機能はまだ OpenAI の製品に統合されていません。この点では Bing の能力が優れていることは以前取り上げましたが、現在では「Large Language and Vision Assistant」(LLaVA) というオープンソース ソリューションが登場しています。
LLaVAのマルチモーダルな可能性
LLaVA は、言語と視覚処理を組み合わせたオープンソースのマルチモーダル AI です。LLaVA のデモは、こちらからアクセスできます。
この写真の奇妙なところは、男性が黄色いタクシーの窓から身を乗り出し、白いシャツを掛けた物干しロープを持っていることです。車の窓から身を乗り出し、衣類や下着を持っている人を見ることは珍しいので、この状況は異常です。男性はおそらく、タクシーが走行している間、安全ではなく非効率的な方法でシャツを乾かそうとしているのでしょう。
タクシーと男性の画像を入力する簡単なテストを実施したところ、LLaVA は記述的な分析結果を提供してくれました。しかし、Bing が取り組んでいるのと同様の数学の問題に挑戦しようとしましたが、無駄でした。LLaVA は画像認識には優れているものの、数学には苦労しているようです。
数学的な課題の課題
私たちは、Bing がうまく解いた問題に似た三角法に関する数学の問題を LLaVA に提示しました。残念ながら、LLaVA は正しい解を出すことができず、169 の平方根として 13.2 という誤った答えを返しました。
この質問を解いてみましょう
手元のタスクは、辺の長さが 5 cm と 12 cm の三角形の対角線の長さを決定することです。これを達成するには、ピタゴラスの定理を利用できます。ピタゴラスの定理は、直角三角形では、斜辺 (直角の反対側の辺) の長さの 2 乗が、他の 2 辺の 2 乗の合計に等しいというものです。
このシナリオでは、斜辺は三角形の対角線に対応しており、これは 2 つの辺の二乗の合計の平方根を取ることで確認できます。
まず、三角形の隣接していない 2 つの頂点を結ぶ辺である対角線の長さを求めます。この例では、2 つの頂点は 5 cm と 12 cm の辺に関連付けられています。
さて、ピタゴラスの定理を適用してみましょう。
(5 cm)^2 + (12 cm)^2 = 対角線^2
5^2 + 12^2 = 対角線^2
25 + 144 = 対角線^2
169 = 対角線^2
最後に、両辺の平方根を取ることで対角線の長さを決定できます。
√169 = 対角線
対角線の長さは約13.2cmです。
画像に対する珍しい視点
LLaVA は画像との対話能力に優れていますが、特に数学的な問題解決においては課題が残っています。たとえば、黄色いタクシーの窓から身を乗り出し、白いシャツを干した物干しロープを持っている男性の画像を提示すると、LLaVA は珍しい視点を提供しました。衣服を持ちながら車の窓から身を乗り出す人を目撃することは一般的ではないため、このようなシーンは非典型的であると示唆しました。分析の結果、この男性はタクシーが走行中にシャツを乾かすために型破りで危険な可能性のある方法を試みている可能性があることが示されました。
LLaVA は、特に画像との対話において有望なマルチモーダル機能を提供しますが、数学的な問題の解決には限界があります。同様の数学的な問題に対するより正確な解決によって実証されているように、この点で Google の機能が LLaVA を上回っていることは注目に値します。
マルチモーダル機能を備えた AI の開発は間違いなく刺激的な進歩であり、LLaVA はこの方向へのオープンソースの取り組みとして称賛に値します。ただし、画像分析の能力に匹敵する数学的推論機能を強化するには、改善が必要です。
より正確な数学的解決については、現時点では Google の機能が優れています。Google の数学問題ソルバーです。
AI について詳しく読む:
ChatGPT を使って毎日最大 1000 ドルを稼ぐ方法: 5 つ以上のビデオ
Google が AI モデル Flamingo に YouTube 動画の説明文の書き方を教えた
OpenAI、ChatGPT によるビジュアル作成を効率化する Canva プラグインを発表
LLaVA vs. GPT-4: マルチモーダルの可能性と数学的限界を強調するオープンソース AI 対決という記事が最初に Metaverse Post に掲載されました。
