Ve srovnání s GPT-4V, s použitím pouze 1,2 milionu dat a 8 A100, trénink je dokončen za jeden den, LLaVA-1.5 obnovuje 11 benchmarkových SOTA

Zdroj dotisku článku: Heart of the Machine
Zdroj obrázku: Generated by Unbounded AI
Konečně začal foukat vítr přistávajících velkých multimodálních modelů.
Před tuctem dnů OpenAI přidala do ChatGPT funkci rozpoznávání obrázků, která uživatelům umožnila nahrát jeden nebo více obrázků za účelem konverzace. Z vlastního veřejného stručného dokumentu OpenAI víme, že za funkcí rozpoznávání obrázků ChatGPT je nový velký model s názvem GPT-4V.
Ve skutečnosti tato schopnost existovala již při vydání GPT-4 před půl rokem, ale běžným uživatelům nebyla prozrazena. V oblasti AI jsou multimodální velké modely již dlouho uznávaným trendem a jsou také považovány za klíčový modul obecných asistentů AI.
Vzhledem k tomu, že OpenAI trvá na „uzavřeném zdroji“, mnoho výzkumníků se také ujalo vedení při spouštění svých vlastních multimodálních výsledků výzkumu velkého modelu. Například dvě hlavní mistrovská díla „LLaVA“ a „MiniGPT-4“ prokázaly působivé výsledky v přirozeném sledování instrukcí a schopnostech vizuálního uvažování.
Letos v dubnu výzkumníci z University of Wisconsin-Madison, Microsoft Research a Columbia University společně vydali LLaVA (Large Language and Vision Assistant). Ačkoli byl LLaVA trénován s malým multimodálním souborem instrukčních dat, u některých vzorků vykazoval velmi podobné výsledky odvození jako GPT-4.
Dnes se tento úspěch dočkal významného vylepšení: byla oficiálně vydána LLaVA-1.5, která osvěžuje SOTA v 11 benchmarcích prostřednictvím jednoduchých úprav původní LLaVA.
Adresa příspěvku: https://browse.arxiv.org/pdf/2310.03744.pdf
Demo adresa: https://llava.hliu.cc/
Pomocí pouze 1,2 milionu veřejných dat byl LLaVA-1.5 trénován za méně než 1 den na jediném uzlu 8-A100.
V článku vědci představují dvě jednoduchá vylepšení: MLP cross-modální konektor a slučování dat souvisejících s akademickými úkoly, jako je VQA. Při použití společně s LLaVA vedou tato dvě vylepšení k lepšímu multimodálnímu porozumění.
Ve srovnání s InstructBLIP nebo Qwen-VL, které trénují speciálně navržené vizuální resamplery na stovkách milionů nebo dokonce miliardách párů obrázek-text, LLaVA používá nejjednodušší návrh architektury a potřebuje trénovat pouze na 600K párech obrázek-text Jednoduchá plně propojená projekce vrstva.
Dá se to srovnat s GPT-4V?
Před přečtením článku se nejprve podívejme na rozpoznávací schopnost LLaVA-1.5 a na to, zda se může srovnávat s GPT-4V.
Návrh 1: Převeďte potraviny na JSON
Návod: Potřebujete identifikovat všechny druhy ovoce (pouze ovoce) a poté pro každé ovoce vytvořit objekt s vlastnostmi názvu a nutričních vlastností včetně odhadovaných kalorií, sacharidů, tuků a bílkovin.
Výsledky odpovědí LLaVA-1.5:
Výsledky odpovědí GPT-4V:
Návrh 2: Identifikujte názvy filmů ze zjednodušených náčrtů
Pokyn: O jakém filmu je tento obrázek? Poznámka: Změnil jsem jména postav, aby bylo těžší je identifikovat.
Výsledky odpovědí LLaVA-1.5:
Výsledky odpovědí GPT-4V:
Papírové detaily
LLaVA demonstruje chvályhodné schopnosti ve vizuálním uvažování, překonává několik nejmodernějších modelů v různých měřítcích v reálných úlohách vizuální výuky, přičemž nedosahuje pouze akademických měřítek, které obvykle vyžadují krátké odpovědi. Výzkumný tým to připisuje skutečnosti, že LLaVA není předem trénována na data ve velkém měřítku jako jiné metody.
Konkrétně tato studie nejprve analyzuje dopad rozšířených dat, modelu a rozlišení vstupního obrazu na tři soubory dat vybrané v tabulce 1 níže, poté provádí srovnávací experimenty na 12 různých benchmarkech v tabulce 2. Experimentální výsledky ukazují, že architektura LLaVA je výkonná a datově efektivní pro ladění instrukcí vidění a dosahuje špičkového výkonu s použitím výrazně menšího množství výpočetních a tréninkových dat než všechny ostatní metody.
Výzva k formátu odpovědi
Studie zjistila, že metody jako InstructBLIP nemohou dosáhnout rovnováhy mezi krátkou a dlouhou formou VQA ze dvou hlavních důvodů:
Za prvé, výzva poskytnutá LLM je nejednoznačná ve formátu odpovědi. Například výzva jako "Q: {Question} A: {Answer}" jasně neuvádí požadovaný výstupní formát. I pro přirozené vizuální konverzace může být možné učinit LLM příliš vhodným pro poskytování krátkých odpovědí.
Za druhé, LLM nebyl doladěn. Například InstructBLIP vyžaduje vizuální výstupní token Qformer pro řízení výstupní délky LLM (dlouhý formát/krátký formát), ale kvůli své omezené kapacitě může Qformer postrádat schopnost to udělat správně.
K vyřešení tohoto problému studie navrhuje použít „výzvu formátu odpovědi“, která jasně specifikuje výstupní formát. Například, když je od modelu požadována krátká odpověď, přidejte na konec otázky VQA větu: „Odpověď. otázka pomocí jediného slova nebo fráze."
Tato studie experimentálně ukazuje, že když je LLM doladěn pomocí takových výzev, LLaVA je schopna vhodně upravit výstupní formát podle pokynů uživatele a nevyžaduje další zpracování dat VQA pomocí ChatGPT.
Kromě toho tato studie také zjistila, že zlepšení reprezentativní síly vizuálně-verbálního konektoru prostřednictvím dvouvrstvého MLP může zlepšit multimodální schopnosti LLaVA ve srovnání s původním modelem. Kromě toho studie také rozšířila data pro akademické úkoly, včetně dalších datových sad VQA zaměřených na akademické úkoly pro VQA, OCR a vnímání na úrovni regionu, aby se zlepšily multimodální schopnosti modelu.
Zainteresovaní čtenáři si mohou přečíst původní text příspěvku a dozvědět se více o obsahu výzkumu.
Referenční odkazy:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842