Quelle des Nachdrucks des Artikels: Heart of the Machine

Bildquelle: Erstellt von Unbounded AI

Der Wind der Landung großer multimodaler Modelle begann endlich zu wehen.

Vor einem Dutzend Tagen fügte OpenAI ChatGPT eine Bilderkennungsfunktion hinzu, die es Benutzern ermöglicht, ein oder mehrere Bilder hochzuladen, um Gespräche zu führen. Aus dem öffentlichen Kurzdokument von OpenAI wissen wir, dass hinter der Bilderkennungsfunktion von ChatGPT ein neues großes Modell namens GPT-4V steckt.

Tatsächlich war diese Fähigkeit bereits vorhanden, als GPT-4 vor einem halben Jahr veröffentlicht wurde, sie wurde jedoch nicht für normale Benutzer offengelegt. Im Bereich der KI sind multimodale Großmodelle längst ein anerkannter Trend und gelten auch als Schlüsselmodul allgemeiner KI-Assistenten.

Angesichts des Beharrens von OpenAI auf „Closed Source“ haben viele Forscher auch die Führung übernommen und ihre eigenen multimodalen Forschungsergebnisse für große Modelle veröffentlicht. Beispielsweise haben die beiden großen Meisterwerke „LLaVA“ und „MiniGPT-4“ beeindruckende Ergebnisse bei der Verfolgung natürlicher Anweisungen und den Fähigkeiten zum visuellen Denken gezeigt.

Im April dieses Jahres veröffentlichten Forscher der University of Wisconsin-Madison, Microsoft Research und der Columbia University gemeinsam LLaVA (Large Language and Vision Assistant). Obwohl LLaVA mit einem kleinen multimodalen Befehlsdatensatz trainiert wurde, zeigte es bei einigen Proben sehr ähnliche Inferenzergebnisse wie GPT-4.

Heute wurde diese Errungenschaft erheblich verbessert: LLaVA-1.5 wurde offiziell veröffentlicht und aktualisiert SOTA in 11 Benchmarks durch einfache Modifikationen am ursprünglichen LLaVA.

  • Papieradresse: https://browse.arxiv.org/pdf/2310.03744.pdf

  • Demoseite: https://llava.hliu.cc/

Unter Verwendung von nur 1,2 Millionen öffentlichen Daten wurde LLaVA-1.5 in weniger als einem Tag auf einem einzelnen 8-A100-Knoten trainiert.

In der Arbeit stellen die Forscher zwei einfache Verbesserungen vor: einen modalübergreifenden MLP-Anschluss und die Zusammenführung von Daten, die für akademische Aufgaben wie VQA relevant sind. In Verbindung mit LLaVA führen diese beiden Verbesserungen zu einem besseren multimodalen Verständnis.

Im Vergleich zu InstructBLIP oder Qwen-VL, die speziell entwickelte visuelle Resampler für Hunderte Millionen oder sogar Milliarden Bild-Text-Paare trainieren, verwendet LLaVA das einfachste Architekturdesign und muss nur 600.000 Bild-Text-Paare trainieren. Eine einfache, vollständig verbundene Projektion Schicht.

Kann es mit GPT-4V verglichen werden?

Bevor wir den Artikel lesen, werfen wir zunächst einen Blick auf die Erkennungsfähigkeit von LLaVA-1.5 und darauf, ob es mit GPT-4V vergleichbar ist.

Vorschlag 1: Konvertieren Sie Lebensmittel in JSON

Anleitung: Sie müssen alle Früchte (nur Früchte) identifizieren und dann für jede Frucht ein Objekt mit einer Namenseigenschaft und Nährwerteigenschaften erstellen, einschließlich geschätzter Kalorien-, Kohlenhydrat-, Fett- und Proteineigenschaften.

Antwortergebnisse von LLaVA-1.5:

Antwortergebnisse von GPT-4V:

Vorschlag 2: Identifizieren Sie Filmtitel anhand vereinfachter Skizzen

Anleitung: Um welchen Film handelt es sich in diesem Bild? Hinweis: Ich habe die Namen der Charaktere geändert, um sie schwerer zu identifizieren.

Antwortergebnisse von LLaVA-1.5:

Antwortergebnisse von GPT-4V:

Papierdetails

LLaVA zeigt lobenswerte Fähigkeiten im visuellen Denken und übertrifft mehrere hochmoderne Modelle bei einer Vielzahl von Benchmarks für reale visuelle Unterrichtsaufgaben, während es nur bei akademischen Benchmarks zurückbleibt, die normalerweise kurze Antworten erfordern. Letzteres führt das Forschungsteam auf die Tatsache zurück, dass LLaVA nicht wie andere Methoden vorab auf großen Datenmengen trainiert ist.

Insbesondere analysiert diese Studie zunächst die Auswirkungen erweiterter Daten, des Modells und der Eingabebildauflösung auf drei in Tabelle 1 unten ausgewählte Datensätze und führt dann Vergleichsexperimente mit 12 verschiedenen Benchmarks in Tabelle 2 durch. Experimentelle Ergebnisse zeigen, dass die LLaVA-Architektur leistungsstark und dateneffizient für die Optimierung von Sehanweisungen ist und Spitzenleistungen mit deutlich weniger Berechnungs- und Trainingsdaten als alle anderen Methoden erzielt.

Eingabeaufforderung für das Antwortformat

Die Studie ergab, dass Methoden wie InstructBLIP aus zwei Hauptgründen kein Gleichgewicht zwischen Kurzform- und Langform-VQA erreichen können:

Erstens ist die an LLM gegebene Eingabeaufforderung im Antwortformat nicht eindeutig. Beispielsweise gibt eine Eingabeaufforderung wie „F: {Frage} A: {Antwort}“ das erforderliche Ausgabeformat nicht eindeutig an. Selbst für natürliche visuelle Gespräche kann es möglich sein, LLM zu sehr für kurze Antworten geeignet zu machen.

Zweitens war LLM nicht fein abgestimmt. Beispielsweise erfordert InstructBLIP das visuelle Ausgabetoken von Qformer, um die Ausgabelänge des LLM zu steuern (Langformat/Kurzformat). Aufgrund seiner begrenzten Kapazität ist Qformer jedoch möglicherweise nicht in der Lage, dies korrekt zu tun.

Um dieses Problem zu lösen, schlägt die Studie die Verwendung einer „Antwortformat-Eingabeaufforderung“ vor, die das Ausgabeformat klar angibt. Wenn das Modell beispielsweise eine kurze Antwort geben muss, fügen Sie am Ende der VQA-Frage einen Satz hinzu: „Antwort“. die Frage mit einem einzelnen Wort oder Satz.

Diese Studie zeigt experimentell, dass LLaVA bei einer Feinabstimmung von LLM mithilfe solcher Eingabeaufforderungen das Ausgabeformat gemäß den Anweisungen des Benutzers entsprechend anpassen kann und keine zusätzliche Verarbeitung von VQA-Daten mithilfe von ChatGPT erfordert.

Darüber hinaus ergab diese Studie auch, dass die Verbesserung der Darstellungskraft des visuell-verbalen Konnektors durch zweischichtiges MLP die multimodalen Fähigkeiten von LLaVA im Vergleich zum Originalmodell verbessern kann. Darüber hinaus erweiterte die Studie auch die Daten für akademische Aufgaben, einschließlich zusätzlicher akademischer aufgabenorientierter VQA-Datensätze für VQA, OCR und Wahrnehmung auf Regionsebene, um die multimodalen Fähigkeiten des Modells zu verbessern.

Interessierte Leser können den Originaltext der Arbeit lesen, um mehr über den Forschungsinhalt zu erfahren.

Referenzlinks:

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842