GPT-4V と同等で、120 万のデータと 8 つの A100 のみを使用し、トレーニングは 1 日で完了し、LLaVA-1.5 は 11 のベンチマーク SOTA を更新します

記事転載元：Heart of the Machine
画像ソース: Unbounded AI によって生成
いよいよ大型マルチモーダルモデル上陸の風が吹き始めた。
十数日前、OpenAI は ChatGPT に画像認識機能を追加し、ユーザーが 1 つ以上の画像をアップロードして会話できるようにしました。 OpenAI 自身の公開概要文書から、ChatGPT の画像認識機能の背後には GPT-4V と呼ばれる新しい大型モデルがあることがわかります。
実はこの機能はGPT-4が半年前にリリースされた時点ではすでに存在していましたが、一般ユーザーには公開されていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認知されているトレンドであり、一般的な AI アシスタントの重要なモジュールとも考えられています。
OpenAI の「クローズド ソース」へのこだわりを考慮して、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。たとえば、2 つの主要な傑作「LLaVA」と「MiniGPT-4」は、自然な命令追跡機能と視覚的推論機能において素晴らしい結果を示しています。
今年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル命令データセットを使用してトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。
本日、この成果は大幅にアップグレードされました。LLaVA-1.5 が正式にリリースされ、オリジナルの LLaVA に簡単な変更を加えて 11 のベンチマークで SOTA を更新しました。
論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
Demo 地址：https://llava.hliu.cc/
わずか 120 万の公開データを使用して、LLaVA-1.5 は単一の 8-A100 ノードで 1 日未満でトレーニングされました。
研究者らは論文の中で、MLP クロスモーダル コネクタと、VQA などの学術的なタスクに関連するデータの結合という 2 つの簡単な改善点を紹介しています。 LLaVA と一緒に使用すると、これら 2 つの改善により、マルチモーダルの理解が深まります。
特別に設計されたビジュアル リサンプラーを数億、さらには数十億の画像とテキストのペアでトレーニングする InstructBLIP や Qwen-VL と比較して、LLaVA は最も単純なアーキテクチャ設計を使用しており、600K の画像とテキストのペアでトレーニングするだけで済みます。層。
GPT-4Vと比較できますか？
論文を読む前に、まず LLaVA-1.5 の認識能力と GPT-4V と比較できるかどうかを見てみましょう。
提案 1: 食料品を JSON に変換する
手順: すべての果物 (果物のみ) を識別し、名前プロパティと、推定カロリー、炭水化物、脂肪、タンパク質の特性を含む栄養特性を含むオブジェクトを果物ごとに作成する必要があります。
LLaVA-1.5の回答結果：
GPT-4Vの回答結果：
提案 2: 簡略化されたスケッチから映画のタイトルを特定する
説明: この写真はどの映画についてのものですか?注：キャラクターの名前は識別しにくいように変更しました。
LLaVA-1.5の回答結果：
GPT-4Vの回答結果：
用紙詳細
LLaVA は、視覚的推論において賞賛に値する能力を実証し、実際の視覚的指導タスクのさまざまなベンチマークでは複数の最先端モデルを上回っていますが、通常短い回答が必要な学術的なベンチマークのみでは下回っています。研究チームは、後者の理由として、LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことが原因であると考えています。
具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実行します。実験結果によると、LLaVA アーキテクチャはビジョン命令の調整において強力かつデータ効率が高く、他のすべての方法よりも大幅に少ない計算量とトレーニング データを使用して最高のパフォーマンスを達成します。
応答形式プロンプト
この調査では、InstructBLIP などの方法では、次の 2 つの主な理由により、短い形式の VQA と長い形式の VQA の間のバランスを達成できないことがわかりました。
まず、LLM に与えられるプロンプトの応答形式があいまいです。たとえば、「Q: {Question} A: {Answer}」のようなプロンプトには、必要な出力形式が明確に示されていません。自然な視覚的な会話であっても、LLM が短い答えを返すことに過度に適している可能性があります。
次に、LLM が微調整されていませんでした。たとえば、InstructBLIP では、LLM の出力長 (ロング フォーマット/ショート フォーマット) を制御するために Qformer のビジュアル出力トークンが必要ですが、容量が限られているため、Qformer にはこれを正しく行う機能が不足している可能性があります。
この問題を解決するために、研究では、出力形式を明確に指定する「応答形式プロンプト」を使用することを提案しています。たとえば、モデルが短い回答を要求する場合、VQA の質問の最後に「回答してください」という文を追加します。単一の単語またはフレーズを使用した質問。」
この研究は、このようなプロンプトを使用して LLM を微調整すると、LLaVA がユーザーの指示に従って出力形式を適切に調整でき、ChatGPT を使用した VQA データの追加処理を必要としないことを実験的に示しています。
さらに、この研究では、二層 MLP を通じて視覚と言語の接続の表現力を向上させることで、元のモデルと比較して LLaVA のマルチモーダル機能を向上できることもわかりました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの知覚のための追加の学術タスク指向 VQA データセットを含む、学術タスクのデータも拡張されました。
興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。
参考リンク:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842