OpenFlamingo: jauns atvērtā pirmkoda attēlu pārveides ietvars no Meta AI un LAION

Tikko ir izlaista DeepMind Flamingo modeļa OpenFlamingo atvērtā pirmkoda versija. OpenFlamingo būtībā ir sistēma, kas ļauj apmācīt un novērtēt lielus multimodālos modeļus (LMM). OpenFlamingo ir veidots, pamatojoties uz Meta AI izstrādāto LLaMA lielās valodas modeli.
 Lasiet vairāk: Kā uz visiem laikiem izmantot Midjourney bez maksas: 5 vienkāršas darbības
Izstrādātāju ieguldījums šajā pirmajā laidienā ir šāds:
Liela multimodāla datu kopa, kas apvieno teksta un vizuālās secības.
Konteksta mācību novērtēšanas etalons aktivitātēm, tostarp redzējumam un valodai.
Mūsu uz LLaMA balstītā OpenFlamingo-9B modeļa sākotnējā versija.
Izmantojot OpenFlamingo, izstrādātāji cer izveidot multimodālu sistēmu, kas spēj tikt galā ar dažādiem redzes valodas izaicinājumiem. Galīgais mērķis ir līdzvērtīgi GPT-4 spēkam un pielāgošanās spējai, apstrādājot vizuālo un teksta ievadi. Lai sasniegtu šo mērķi, izstrādātāji izstrādā DeepMind’s Flamingo modeļa atvērtā pirmkoda versiju — LMM, kas spēj apstrādāt attēlus, videoklipus un tekstu un argumentēt par tiem. Izstrādātāji ir apņēmušies izstrādāt pilnībā atvērtā pirmkoda modeļus, jo viņi uzskata, ka pārredzamība ir ļoti svarīga, lai veicinātu sadarbību, paātrinātu attīstību un demokratizētu piekļuvi progresīvām LMM.
Viņi nodrošina mūsu OpenFlamingo-9B modeļa sākotnējo kontrolpunktu. Lai gan modelis vēl nav pilnībā optimizēts, tas parāda projekta solījumu. Izstrādātāji var apmācīt labākus LMM, sadarbojoties un saņemot atsauksmes no kopienas. Viņi aicina sabiedrību sniegt ieguldījumu un papildināt repozitoriju, lai varētu piedalīties izstrādes procesā.
Īstenošana ļoti atgādina Flamingo's. Flamingo modeļi ir jāapmāca lielapjoma tīmekļa datu kopās ar ieliktu tekstu un grafiku, lai nodrošinātu tos ar konteksta mācīšanās prasmēm dažos kadros. Tāda pati arhitektūra, kas tika ieteikta sākotnējā Flamingo pētījumā (Uztvērēja atkārtotas paraugu ņemšanas ierīces, savstarpējas uzmanības slāņi), ir ieviesta OpenFlamingo. Taču, tā kā Flamingo apmācības dati nav pieejami plašai sabiedrībai, izstrādātāji modeļu apmācīšanai izmanto atvērtā koda datu kopas. Nesen publicētais OpenFlamingo-9B kontrolpunkts tika īpaši apmācīts par 10 miljoniem paraugu no LAION-2B un 5 miljoniem paraugu no jaunās Multimodal C4 datu kopas.
Izstrādātāji laidienā iekļauj arī kontrolpunktu no mūsu nepabeigtā LMM OpenFlamingo-9B, kura pamatā ir LLaMA 7B un CLIP ViT/L-14. Lai gan šī koncepcija joprojām tiek izstrādāta, sabiedrība jau var no tā gūt lielu labumu.
Lai sāktu, skatiet GitHub avotu un demonstrāciju.
Lasiet vairāk par AI:
Paredzams, ka AI modeļu apmācības izmaksas līdz 2030. gadam pieaugs no 100 miljoniem USD līdz 500 miljoniem USD
DeepMind jaunais adaptīvais AI aģents Ada ir gandrīz tikpat inteliģents kā cilvēks
DeepMind izlaida AI rīku Dramatron, kas ģenerē pilnvērtīgu filmas vai TV šova skripta uzmetumu
Ziņa OpenFlamingo: jauns atvērtā pirmkoda attēla pārveidošanas ietvars no Meta AI un LAION vispirms parādījās vietnē Metaverse Post.