Vyrobeno společností Microsoft, 166 stránek s podrobným vysvětlením, multimodální GPT-4V

Zdroj dotisku článku: AIGC
Původní zdroj: AIGC Open Community
Zdroj obrázku: Generated by Unbounded AI
Vyšel multimodální královský model GPT-4V, 166stránkový "návod k použití"! A vyrábí ho Microsoft Team.
Jaký druh papíru lze napsat na 166 stranách?
Nejen, že podrobně hodnotí výkon GPT-4V v deseti hlavních úlohách, ale také předvádí vše od základního rozpoznávání obrazu až po složité logické uvažování;
Učí také kompletní sadu dovedností pro používání rychlých slov pro multimodální velké modely ——
Učí vás krok za krokem, jak psát rychlá slova od 0 do 1, a profesionální úroveň odpovědi je snadno pochopitelná na první pohled, takže hranice pro použití GPT-4V opravdu neexistuje.
Za zmínku stojí, že autorem tohoto článku je také „všechnočínská třída“. Všech sedm autorů je Číňanů a vedoucí je hlavní manažerka výzkumu, která pracuje v Microsoftu 17 let.
Před vydáním 166stránkové zprávy se také podíleli na výzkumu nejnovějšího DALL·E 3 OpenAI a této oblasti hluboce rozumí.
Ve srovnání s 18stránkovým papírem GPT-4V od OpenAI byl tento 166stránkový „Průvodce jídlem“ okamžitě po vydání považován za povinnou četbu pro uživatele GPT-4V:
Někteří netizeni si posteskli: To není papír, to je skoro 166stránková kniha.
Někteří uživatelé internetu už po přečtení panikařili:
 Nedívejte se jen na detaily odpovědi GPT-4V. Opravdu se bojím potenciálních schopností zobrazených AI.
O čem tedy „papír“ Microsoftu přesně mluví a jaký „potenciál“ ukazuje na GPT-4V?
Co říká 166stránková zpráva společnosti Microsoft?
Tento článek studuje metodu GPT-4V a její jádro se opírá o jediné slovo - "zkusit".
Výzkumníci Microsoftu navrhli řadu vstupů pokrývajících více domén, přivedli je do GPT-4V a pozorovali a zaznamenávali výstup GPT-4V.
Následně vyhodnotili schopnost GPT-4V dokončit různé úkoly a také poskytli nové techniky rychlého slova pro použití GPT-4V, včetně čtyř hlavních aspektů:
1. Použití GPT-4V:
5 způsobů použití: vstupní obrázky (obrázky), dílčí obrázky (dílčí obrázky), texty (texty), texty scén (texty scén) a vizuální ukazatele (vizuální ukazatele).
3 podporované schopnosti: následování instrukcí, řetězení myšlenek a kontextové učení několika výstřelů.
Toto je například instruktáž následující schopnosti prokázané GPT-4V po změně metody dotazování založené na řetězci myšlení:
2. Výkon GPT-4V v 10 hlavních úkolech:
vizuální porozumění v otevřeném světě, vizuální popis, multimodální znalosti, zdravý rozum, porozumění textu scény, uvažování dokumentu, psaní kódování, časové uvažování, abstraktní uvažování, porozumění emocím
Mezi nimi jsou tyto druhy „otázek uvažování obrazu“, které vyžadují určité IQ k vyřešení:
3. Dovednosti tipů pro velké multimodální modely podobné GPT-4V:
Je navržena nová multimodální technika pobídkového slova „vizuální odkazující výzva“, která může indikovat úkol, který nás zajímá, přímou úpravou vstupního obrázku a použitým v kombinaci s jinými technikami pobídkového slova.
4. Výzkumný a implementační potenciál multimodálních velkých modelů:
Předpokládají se dva typy oblastí, na které by se výzkumníci multimodálního učení měli zaměřit, včetně implementace (scénáře potenciálních aplikací) a směrů výzkumu.
Toto je například jeden z možných scénářů pro GPT-4V nalezený výzkumníky - detekce chyb:
Ale ať už se jedná o novou technologii promptních slov nebo aplikační scénáře GPT-4V, každého nejvíce znepokojuje skutečná síla GPT-4V.
Proto tento „návod k použití“ následně použil více než 150 stránek k ukázkám různých ukázek, podrobně popisujících schopnosti GPT-4V tváří v tvář různým odpovědím.
Podívejme se, jak daleko se dnes multimodální schopnosti GPT-4V vyvinuly.
Zběhlý v obrazech v profesionálních oblastech, můžete se také naučit znalosti okamžitě
rozpoznávání obrazu
Nejzákladnější identifikace je samozřejmě hračka, jako jsou celebrity ze všech oblastí života v technologických, sportovních a zábavních kruzích:
A nejenže vidíte, kdo tito lidé jsou, ale můžete si také vyložit, co dělají. Například na obrázku níže Huang představuje nové produkty grafických karet Nvidia.
Kromě lidí jsou pro GPT-4V hračkou i orientační body. Dokáže nejen určit název a umístění, ale také podrobně představit.
△Vlevo: Times Square v New Yorku, vpravo: Chrám Kinkakuji v Kjótu
Čím slavnější lidé a místa jsou, tím snazší je však soudit, takže k ukázce schopností GPT-4V jsou potřeba složitější obrázky.
Například v lékařském zobrazování pro následující CT plic poskytl GPT-4V tento závěr:
 Konsolidace a zákal zabroušeného skla byly přítomny v mnoha oblastech obou plic a v plicích může být infekce nebo zánět. V horním laloku pravé plíce může být také útvar nebo uzlík.
I bez toho, aby GPT-4V sdělil typ a umístění obrazu, může jej posoudit sám.
Na tomto snímku jej GPT-4V úspěšně identifikoval jako snímek mozku z magnetické rezonance (MRI).
Současně GPT-4V také zjistilo velké množství akumulace tekutin, což bylo považováno za gliom vysokého stupně.
Po odborném posouzení je závěr daný GPT-4V zcela správný.
Kromě těchto „vážných“ obsahů byly pomocí GPT-4V zachyceny také emotikony „nehmotného kulturního dědictví“ současné lidské společnosti.
△Strojový překlad, pouze pro informaci
Nejen, že dokáže interpretovat memy v emotikonech, ale emoce vyjádřené lidskými výrazy v reálném světě lze také vidět pomocí GPT-4.
Kromě těchto skutečných obrázků je důležitým úkolem strojového vidění také rozpoznávání textu.
V tomto ohledu dokáže GPT-4V nejen rozpoznat jazyky napsané latinkou, ale také rozpoznat další jazyky, jako je čínština, japonština a řečtina.
Dokonce i ručně psané matematické vzorce:
Obrazová úvaha
Výše uvedené DEMO, bez ohledu na to, jak profesionální nebo obtížné na pochopení, je stále předmětem uznání, ale toto je jen špička ledovce dovedností GPT-4V.
Kromě porozumění obsahu na obrázku má GPT-4V také určité schopnosti uvažování.
Zjednodušeně řečeno, GPT-4V dokáže najít rozdíly mezi těmito dvěma obrázky (i když stále existují nějaké chyby).
Na následující sadě obrázků byly rozdíly mezi korunkou a přídí objeveny GPT-4V.
Pokud zvýšíte obtížnost, GPT-4V dokáže vyřešit i grafické problémy v IQ testu.
Charakteristiky nebo logické vztahy ve výše uvedených třech otázkách jsou relativně jednoduché, ale problém vyvstane dále:
Obtížnost samozřejmě nespočívá v samotné grafice. Pozor na čtvrtý textový popis na obrázku.
Anotace obrázku
Kromě odpovědí na různé otázky pomocí textu může GPT-4V provádět také řadu operací s obrázky.
Máme například skupinovou fotografii čtyř obrů AI a potřebujeme GPT-4V, abychom zarámovali postavy a označili jejich jména a stručné představení.
GPT-4V nejprve odpověděl na tyto otázky textem a poté dal zpracované obrázky:
Dynamická obsahová analýza
Kromě tohoto statického obsahu může GPT-4V provádět také dynamickou analýzu, ale nenahrává přímo modelu video.
Následujících pět obrázků je převzato z výukového videa o výrobě sushi. Úkolem GPT-4V je uhodnout pořadí, ve kterém se tyto obrázky objevují (na základě pochopení obsahu).
U stejné série obrázků mohou existovat různé způsoby jejich pochopení. To je důvod, proč GPT-4V bude posuzovat na základě textových pokynů.
Například na následující sadě obrázků to, zda daná osoba má za úkol otevřít nebo zavřít dveře, povede ke zcela opačným výsledkům třídění.
Samozřejmě, že prostřednictvím změn v postavení postav na více obrázcích můžeme také usuzovat, co dělají.
Nebo dokonce předvídat, co se stane dál:
"Učení na místě"
GPT-4V má nejen silné vizuální schopnosti, ale klíčové je, že se dá naučit a okamžitě prodat.
Pokud je například GPT-4V požádán, aby si přečetl palubní desku automobilu, odpověď na začátku je špatná:
Pak jsem dal metodu GPT-4V v textu, ale tato odpověď je stále špatná:
Pak jsem ukázal příklad GPT-4V a odpověď byla podobná, ale bohužel čísla byla náhodně vytvořena.
Jen jeden příklad je skutečně trochu málo, ale jak přibývá vzorků (ve skutečnosti je jen o jeden víc), tvrdá práce se nakonec vyplatí a GPT-4V dává správnou odpověď.
GPT-4V zobrazuje jen tolik efektů, samozřejmě podporuje i více polí a úloh. Pokud vás to zajímá, můžete si je přečíst v původní zprávě.
Jaký tým tedy stojí za efekty těchto artefaktů, jako je GPT-4V?
Tsinghua absolventi vedou cestu
V této práci je celkem 7 autorů, z nichž všichni jsou Číňané, z nichž 6 jsou hlavní autoři.
Hlavní autor projektu, Lijuan Wang, je hlavní manažer výzkumu cloud computingu a umělé inteligence ve společnosti Microsoft.
Vystudovala Huazhong University of Science and Technology a získala doktorát na Tsinghua University v Číně. V roce 2006 nastoupila do Microsoft Research Asia a v roce 2016 do Microsoft Research v Redmondu.
Její výzkumnou oblastí je hluboké učení a strojové učení založené na multimodální percepční inteligenci, které konkrétně zahrnuje předtrénování modelu vizuálního jazyka, generování obrazových titulků, detekci cíle a další technologie umělé inteligence.
Původní adresa: https://arxiv.org/abs/2309.17421