Salīdzināms ar GPT-4V, izmantojot tikai 1,2 miljonus datu un 8 A100, apmācības pabeigtas vienā dienā, LLaVA-1.5 atsvaidzina 11 standartus SOTA

Raksts pārdrukāts no: Machine Heart
Attēla avots: ģenerēja Unbounded AI
Beidzot uzpūta multimodālo lielo modeļu nolaišanās vējš.
Pirms desmit dienām OpenAI pievienoja ChatGPT attēlu atpazīšanas iespējas, ļaujot lietotājiem augšupielādēt vienu vai vairākus attēlus, lai iesaistītos sarunā. No paša OpenAI izdotā īsa dokumenta mēs zinām, ka aiz ChatGPT attēla atpazīšanas funkcijas ir jauns liels modelis ar nosaukumu GPT-4V.
Patiesībā šī iespēja pastāvēja jau tad, kad pirms pusgada iznāca GPT-4, taču tā nekad nav bijusi pieejama parastajiem lietotājiem. AI jomā multimodālie lielie modeļi jau sen ir atzīta tendence un tiek uzskatīti arī par galvenajiem moduļiem vispārējiem AI palīgiem.
Ņemot vērā OpenAI uzstājību uz "slēgto avotu", daudzi pētnieki ir uzņēmušies vadību savu multimodālo lielo modeļu pētījumu rezultātu izstrādē. Piemēram, divi reprezentatīvie darbi "LLaVA" un "MiniGPT-4" ir uzrādījuši iespaidīgus rezultātus dabiskās instrukciju izsekošanas un vizuālās spriešanas spējās.
Šī gada aprīlī pētnieki no Viskonsinas-Medisonas Universitātes, Microsoft Research un Kolumbijas universitātes kopīgi izlaida LLaVA (Large Language and Vision Assistant). Lai gan LLaVA ir apmācīts, izmantojot nelielu multimodālu instrukciju datu kopu, dažos paraugos tā parāda ļoti līdzīgus argumentācijas rezultātus kā GPT-4.
Šodien šis sasniegums ir saņēmis ievērojamu jauninājumu: LLaVA-1.5 ir oficiāli izlaists. Vienkārši pārveidojot oriģinālo LLaVA, tas ir atsvaidzinājis SOTA uz 11 etaloniem.
Papīra adrese: https://browse.arxiv.org/pdf/2310.03744.pdf
Demonstrācijas adrese: https://llava.hliu.cc/
Izmantojot tikai 1,2 miljonus publiski pieejamu datu, LLaVA-1.5 pabeidza apmācību mazāk nekā 1 dienā vienā 8-A100 mezglā.
Rakstā pētnieki ieviesa divus vienkāršus uzlabojumus: MLP starpmodālu savienotāju un iekļaujot datus, kas saistīti ar akadēmiskiem uzdevumiem, piemēram, VQA. Lietojot kopā ar LLaVA, šie divi uzlabojumi nodrošina labākas multimodālās izpratnes iespējas.
Salīdzinājumā ar InstructBLIP vai Qwen-VL, kas apmāca īpaši izstrādātus vizuālos resamplerus simtiem miljonu vai pat miljardu attēlu un teksta pāriem, LLaVA izmanto visvienkāršāko arhitektūras dizainu un ir jāapmāca tikai vienkāršs, pilnībā savienots projekcijas slānis uz 600 000 attēla un teksta pāriem.
Vai tas var pārspēt GPT-4V?
Pirms darba lasīšanas apskatīsim LLaVA-1.5 atpazīšanas iespējas un to, vai tas spēj konkurēt ar GPT-4V.
1. priekšlikums: pārveidojiet pārtikas preces uz JSON
Norādījumi: jums ir jāidentificē visi augļi (un tikai augļi) un pēc tam katram auglim jāizveido objekts ar nosaukuma atribūtu un uzturvērtības atribūtiem, tostarp aprēķinātajām kaloriju, ogļhidrātu, tauku un olbaltumvielu atribūtiem.
LLaVA-1.5 atbilžu rezultāti:
GPT-4V atbilžu rezultāti:
2. priekšlikums: identificējiet filmu nosaukumus no vienkāršotām skicēm
Norādījumi: Par kādu filmu ir šis attēls? Piezīme: es mainīju rakstzīmju nosaukumus, lai padarītu identifikāciju grūtāku.
LLaVA-1.5 atbilžu rezultāti:
GPT-4V atbilžu rezultāti:
Papīra detaļas
LLaVA demonstrē slavējamas spējas vizuālajā spriešanā, pārspējot vairākus modernākos modeļus dažādos etalonos reālos vizuālās apmācības uzdevumos, vienlaikus nesasniedzot tikai akadēmiskos etalonus, uz kuriem parasti ir vajadzīgas īsas atbildes. Pētnieku grupa uzskata, ka pēdējais ir saistīts ar faktu, ka LLaVA nav iepriekš apmācīta par liela mēroga datiem, tāpat kā citas metodes.
Konkrēti, šajā pētījumā vispirms analizēta paplašināto datu, modeļu un ievades attēla izšķirtspējas ietekme uz trim datu kopām, kas atlasītas 1. tabulā; pēc tam veic salīdzinošus eksperimentus ar 12 dažādiem etaloniem 2. tabulā. Eksperimentu rezultāti parāda, ka LLaVA arhitektūra ir jaudīga un datu ziņā efektīva vizuālo instrukciju regulēšanai un nodrošina vislabāko veiktspēju, izmantojot ievērojami mazāk skaitļošanas un apmācības datu nekā visas citas metodes.
Atbildes formāta uzvedne
Pētījumā konstatēts, ka ir divi galvenie iemesli, kāpēc tādas metodes kā InstructBLIP nevar līdzsvarot īsas un garas formas VQA:
Pirmkārt, LLM sniegtā uzvedne atbildes formātā ir neskaidra. Piemēram, uzvednē, piemēram, "J: {jautājums} A: {atbilde}", nav skaidri norādīts vēlamais izvades formāts. Pat dabiskām vizuālām sarunām ir iespējams pārspīlēt LLM, lai sniegtu īsas atbildes.
Otrkārt, netika veikta LLM precizēšana. Piemēram, InstructBLIP ir nepieciešams Qformer vizuālais izvades marķieris, lai kontrolētu LLM izvades garumu (garā forma/īsā forma), taču Qformer ierobežotās jaudas dēļ var trūkt iespēju to izdarīt pareizi.
Lai atrisinātu šo problēmu, pētījumā tika ierosināts izmantot "atbildes formāta uzvedni", kas skaidri norāda izvades formātu. Piemēram, ja modelim ir jāsniedz īsa atbilde, VQA jautājuma beigās pievienojiet teikumu: "Atbildiet uz jautājumu, izmantojot vienu vārdu vai frāzi."
Šis pētījums eksperimentāli parāda, ka tad, kad LLM tiek precīzi noregulēts, izmantojot šādas uzvednes, LLaVA spēj atbilstoši pielāgot izvades formātu, pamatojoties uz lietotāja norādījumiem, un tai nav nepieciešama papildu VQA datu apstrāde, izmantojot ChatGPT.
Turklāt pētījumā arī konstatēts, ka vizuālās valodas savienotāja attēlojuma jaudas uzlabošana, izmantojot divu slāņu MLP, var uzlabot LLaVA multimodālās iespējas salīdzinājumā ar sākotnējo modeli. Turklāt šis pētījums arī paplašināja datus par akadēmiskajiem uzdevumiem, tostarp papildu VQA datu kopas akadēmiskajiem uzdevumiem VQA, OCR un reģiona līmeņa uztverei, lai uzlabotu modeļa multimodālās iespējas.
Ieinteresētie lasītāji var izlasīt oriģinālo rakstu, lai uzzinātu vairāk par pētījuma saturu.
Atsauces saites:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842