W porównaniu do GPT-4V, wykorzystujący tylko 1,2M danych i 8 A100, szkolenie trwa jeden dzień, LLaVA-1.5 odświeża 11 benchmarków SOTA

Źródło przedruku artykułu: Heart of the Machine
Źródło obrazu: wygenerowane przez Unbounded AI
Wreszcie zaczął wiać wiatr lądowania dużych modeli multimodalnych.
Kilkanaście dni temu OpenAI dodało do ChatGPT funkcję rozpoznawania obrazów, umożliwiającą użytkownikom przesyłanie jednego lub większej liczby obrazów w celu prowadzenia rozmów. Z publicznego dokumentu OpenAI wiemy, że za funkcją rozpoznawania obrazu ChatGPT kryje się nowy, duży model o nazwie GPT-4V.
W rzeczywistości taka możliwość istniała już w momencie wypuszczenia GPT-4 pół roku temu, ale nie została ujawniona zwykłym użytkownikom. W dziedzinie AI duże modele multimodalne są od dawna uznanym trendem i są również uważane za kluczowy moduł ogólnych asystentów AI.
W związku z naciskiem OpenAI na „zamknięte źródło” wielu badaczy objęło także inicjatywę w opracowywaniu własnych wyników badań nad multimodalnymi dużymi modelami. Na przykład dwa główne arcydzieła „LLaVA” i „MiniGPT-4” wykazały imponujące wyniki w zakresie naturalnego śledzenia instrukcji i możliwości wnioskowania wizualnego.
W kwietniu tego roku naukowcy z Uniwersytetu Wisconsin-Madison, Microsoft Research i Columbia University wspólnie opublikowali LLaVA (Large Language and Vision Assistant). Chociaż LLaVA została przeszkolona przy użyciu małego zestawu danych instrukcji multimodalnych, w niektórych próbkach wykazała bardzo podobne wyniki wnioskowania do GPT-4.
Dzisiaj to osiągnięcie otrzymało poważną aktualizację: LLaVA-1.5 została oficjalnie wypuszczona, odświeżając SOTA w 11 testach porównawczych poprzez proste modyfikacje oryginalnej LLaVA.
Adres artykułu: https://browse.arxiv.org/pdf/2310.03744.pdf
Adres demonstracyjny: https://llava.hliu.cc/
Wykorzystując jedynie 1,2 miliona publicznych danych, LLaVA-1.5 został przeszkolony w mniej niż 1 dzień na jednym węźle 8-A100.
W artykule badacze wprowadzają dwa proste ulepszenia: złącze międzymodalne MLP i łączenie danych związanych z zadaniami akademickimi, takimi jak VQA. W połączeniu z LLaVA te dwa ulepszenia prowadzą do lepszego zrozumienia multimodalności.
W porównaniu do InstructBLIP lub Qwen-VL, które szkolą specjalnie zaprojektowane resampery wizualne na setkach milionów, a nawet miliardach par obraz-tekst, LLaVA wykorzystuje najprostszą architekturę i potrzebuje jedynie trenowania na 600 tys. par obraz-tekst. Prosta, w pełni połączona projekcja warstwa.
Czy można go porównać z GPT-4V?
Przed przeczytaniem artykułu przyjrzyjmy się najpierw zdolności rozpoznawania LLaVA-1.5 i temu, czy można go porównać z GPT-4V.
Propozycja 1: Konwertuj artykuły spożywcze na JSON
Instrukcje: Należy zidentyfikować wszystkie owoce (tylko owoce), a następnie utworzyć dla każdego owocu obiekt z nazwą i właściwościami odżywczymi, w tym szacunkowymi kaloriami, węglowodanami, tłuszczami i właściwościami białkowymi.
Odpowiedź na wyniki LLaVA-1.5:
Wyniki odpowiedzi GPT-4V:
Propozycja 2: Zidentyfikuj tytuły filmów na podstawie uproszczonych szkiców
Instrukcja: O jakim filmie jest ten obrazek? Uwaga: zmieniłem imiona bohaterów, aby utrudnić ich identyfikację.
Odpowiedź na wyniki LLaVA-1.5:
Wyniki odpowiedzi GPT-4V:
Szczegóły papieru
LLaVA wykazuje godne pochwały zdolności w zakresie wnioskowania wizualnego, przewyższając wiele najnowocześniejszych modeli w różnych testach porównawczych w rzeczywistych zadaniach z zakresu instrukcji wizualnych, a wypada jedynie w testach akademickich, które zazwyczaj wymagają krótkich odpowiedzi. Zespół badawczy przypisuje to drugie faktowi, że LLaVA nie jest wstępnie szkolona na danych wielkoskalowych, jak ma to miejsce w przypadku innych metod.
W szczególności w tym badaniu najpierw przeanalizowano wpływ rozszerzonych danych, modelu i rozdzielczości obrazu wejściowego na trzy zbiory danych wybrane w Tabeli 1 poniżej, a następnie przeprowadzono eksperymenty porównawcze na 12 różnych testach porównawczych w Tabeli 2. Wyniki eksperymentów pokazują, że architektura LLaVA jest wydajna i wydajna pod względem danych w przypadku dostrajania instrukcji wizyjnych, a także osiąga najwyższą wydajność przy użyciu znacznie mniejszej ilości danych obliczeniowych i szkoleniowych niż w przypadku wszystkich innych metod.
Monit w formacie odpowiedzi
Badanie wykazało, że metody takie jak InstructBLIP nie pozwalają na osiągnięcie równowagi pomiędzy krótką i długą formą VQA z dwóch głównych powodów:
Po pierwsze, monit przekazany LLM jest niejednoznaczny w formacie odpowiedzi. Na przykład monit taki jak „P: {Pytanie} O: {Odpowiedź}” nie określa jasno wymaganego formatu wyjściowego. Nawet w przypadku naturalnych rozmów wizualnych może okazać się możliwe, że LLM będzie nadmiernie dostosowany do udzielania krótkich odpowiedzi.
Po drugie, LLM nie zostało dostrojone. Na przykład InstructBLIP wymaga wizualnego tokena wyjściowego Qformer do kontrolowania długości wyjściowej LLM (format długi/krótki), ale ze względu na ograniczone możliwości Qformer może nie mieć możliwości prawidłowego wykonania tego.
Aby rozwiązać ten problem, w badaniu zaproponowano użycie „podpowiedzi w formacie odpowiedzi”, która jasno określa format wyjściowy. Na przykład, gdy model ma udzielić krótkiej odpowiedzi, na końcu pytania VQA należy dodać zdanie: „Odpowiedź”. pytanie, używając jednego słowa lub wyrażenia.”
To badanie pokazuje eksperymentalnie, że po dostrojeniu LLM przy użyciu takich podpowiedzi, LLaVA jest w stanie odpowiednio dostosować format wyjściowy zgodnie z instrukcjami użytkownika i nie wymaga dodatkowego przetwarzania danych VQA przy użyciu ChatGPT.
Co więcej, badanie to wykazało również, że poprawa mocy reprezentacyjnej łącznika wizualno-werbalnego za pomocą dwuwarstwowego MLP może poprawić możliwości multimodalne LLaVA w porównaniu z oryginalnym modelem. Co więcej, w badaniu poszerzono także dane dotyczące zadań akademickich, w tym dodatkowe zbiory danych VQA zorientowane na zadania akademickie na potrzeby VQA, OCR i percepcji na poziomie regionu, aby zwiększyć multimodalne możliwości modelu.
Zainteresowani czytelnicy mogą zapoznać się z oryginalnym tekstem artykułu, aby dowiedzieć się więcej o treści badawczej.
Linki referencyjne:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842