Prodotto da Microsoft, 166 pagine di spiegazione approfondita, multimodale GPT-4V

Fonte della ristampa dell'articolo: AIGC
Fonte originale: AIGC Open Community
Fonte immagine: generata da Unbounded AI
Viene rilasciato il modello king multimodale GPT-4V, "manuale di istruzioni" da 166 pagine! Ed è prodotto da Microsoft Team.
Che tipo di carta può essere scritta in 166 pagine?
Non solo valuta in dettaglio le prestazioni del GPT-4V in dieci compiti principali, ma dimostra anche tutto, dal riconoscimento di base delle immagini al ragionamento logico complesso;
Insegna anche una serie completa di competenze per l'uso di parole immediate per modelli di grandi dimensioni multimodali——
Ti insegna passo dopo passo come scrivere le parole rapide da 0 a 1 e il livello professionale della risposta è facile da capire a colpo d'occhio. Rende davvero inesistente la soglia per l'utilizzo di GPT-4V.
Vale la pena ricordare che anche l'autore di questo articolo è una "classe tutta cinese". I sette autori sono tutti cinesi e la leader è una direttrice della ricerca che ha lavorato presso Microsoft per 17 anni.
Prima della pubblicazione del rapporto di 166 pagine, hanno anche partecipato alla ricerca dell’ultimo DALL·E 3 di OpenAI e hanno una profonda conoscenza di questo campo.
Rispetto al documento GPT-4V da 18 pagine di OpenAI, questa "Guida alimentare" da 166 pagine è stata immediatamente considerata una lettura obbligata per gli utenti GPT-4V non appena è stata rilasciata:
Alcuni netizen si sono lamentati: questo non è un articolo, è quasi un libro di 166 pagine.
Alcuni netizen erano già nel panico dopo aver letto:
 Non limitarti a guardare i dettagli della risposta di GPT-4V, sono davvero spaventato dalle potenziali capacità mostrate dall'intelligenza artificiale.
Quindi, di cosa parla esattamente il "documento" di Microsoft e quale "potenziale" mostra riguardo a GPT-4V?
Cosa dice il rapporto di 166 pagine di Microsoft?
Questo articolo studia il metodo GPT-4V e il suo nucleo si basa su una parola: "provare".
I ricercatori Microsoft hanno progettato una serie di input che coprivano più domini, li hanno alimentati a GPT-4V e hanno osservato e registrato l'output di GPT-4V.
Successivamente, hanno valutato la capacità di GPT-4V di completare varie attività e hanno anche fornito nuove tecniche di parole rapide per l'utilizzo di GPT-4V, inclusi quattro aspetti principali:
1. Utilizzo di GPT-4V:
5 modalità di utilizzo: immagini di input (immagini), sottoimmagini (sottoimmagini), testi (testi), testi di scena (testi di scena) e puntatori visivi (puntatori visivi).
3 funzionalità supportate: seguire le istruzioni, catena di pensieri e apprendimento rapido nel contesto.
Ad esempio, questa è l'istruzione che segue l'abilità dimostrata da GPT-4V dopo aver cambiato il metodo di interrogazione basato sulla catena di pensiero:
2. Prestazioni di GPT-4V in 10 attività principali:
comprensione visiva del mondo aperto, descrizione visiva, conoscenza multimodale, senso comune, comprensione del testo della scena, ragionamento su documenti, scrittura Codifica, ragionamento temporale, ragionamento astratto, comprensione delle emozioni
Tra questi ci sono questo tipo di "domande sul ragionamento sulle immagini" che richiedono un certo QI per essere risolte:
3. Competenze di parole utili per modelli multimodali di grandi dimensioni simili a GPT-4V:
Viene proposta una nuova tecnica multimodale di parole di riferimento "suggerimento di riferimento visivo", che può indicare il compito di interesse modificando direttamente l'immagine di input e utilizzata in combinazione con altre tecniche di parole di suggerimento.
4. Potenziale di ricerca e implementazione di grandi modelli multimodali:
Si prevedono due tipi di aree su cui i ricercatori dell'apprendimento multimodale dovrebbero concentrarsi, inclusa l'implementazione (potenziali scenari applicativi) e le direzioni di ricerca.
Ad esempio, questo è uno dei possibili scenari per GPT-4V trovati dai ricercatori: rilevamento dei guasti:
Ma che si tratti della nuova tecnologia Quick Word o degli scenari applicativi di GPT-4V, ciò di cui tutti sono più preoccupati è la vera forza di GPT-4V.
Pertanto, questo "manuale di istruzioni" ha successivamente utilizzato più di 150 pagine per mostrare varie demo, descrivendo in dettaglio le capacità di GPT-4V di fronte a risposte diverse.
Diamo un’occhiata a quanto si sono evolute oggi le capacità multimodali di GPT-4V.
Esperto di immagini in campi professionali, puoi anche apprendere la conoscenza all'istante
riconoscimento delle immagini
L'identificazione più elementare è ovviamente un gioco da ragazzi, come nel caso di celebrità di ogni ceto sociale nei circoli tecnologici, sportivi e di intrattenimento:
E non solo puoi vedere chi sono queste persone, ma puoi anche interpretare cosa stanno facendo. Ad esempio, nell'immagine qui sotto, Huang presenta le nuove schede grafiche di Nvidia.
Oltre alle persone, anche i punti di riferimento sono un gioco da ragazzi per GPT-4V. Non solo può determinare il nome e la posizione, ma anche fornire presentazioni dettagliate.
△A sinistra: Times Square a New York, a destra: Tempio Kinkakuji a Kyoto
Tuttavia, più le persone e i luoghi sono famosi, più facile è giudicare, quindi sono necessarie immagini più difficili per mostrare le capacità del GPT-4V.
Ad esempio, nell'imaging medico, per la seguente TC polmonare, GPT-4V ha fornito questa conclusione:
 Consolidamento e opacità a vetro smerigliato erano presenti in più aree di entrambi i polmoni e potrebbero esserci infezioni o infiammazioni nei polmoni. Potrebbe anche essere presente una massa o un nodulo nel lobo superiore del polmone destro.
Anche senza dire al GPT-4V il tipo e la posizione dell'immagine, può giudicarla da solo.
In questa immagine, GPT-4V l'ha identificata con successo come un'immagine del cervello tramite risonanza magnetica (MRI).
Allo stesso tempo, GPT-4V ha anche riscontrato un grande accumulo di liquidi, considerato un glioma di alto grado.
Dopo un giudizio professionale, la conclusione data da GPT-4V è completamente corretta.
Oltre a questi contenuti "seri", GPT-4V ha catturato anche le emoticon del "patrimonio culturale immateriale" della società umana contemporanea.
△Traduzione automatica, solo come riferimento
Non solo può interpretare i meme nelle emoticon, ma GPT-4 può anche vedere le emozioni espresse dalle espressioni umane nel mondo reale.
Oltre a queste immagini reali, anche il riconoscimento del testo è un compito importante nella visione artificiale.
A questo proposito, GPT-4V non solo riconosce le lingue scritte con caratteri latini, ma riconosce anche altre lingue come il cinese, il giapponese e il greco.
Anche formule matematiche scritte a mano:
Ragionamento per immagini
La DEMO mostrata sopra, non importa quanto professionale o difficile da comprendere, è ancora nell'ambito del riconoscimento, ma questa è solo la punta dell'iceberg delle capacità di GPT-4V.
Oltre a comprendere il contenuto dell'immagine, GPT-4V ha anche determinate capacità di ragionamento.
Per dirla semplicemente, GPT-4V può trovare le differenze tra le due immagini (anche se ci sono ancora alcuni errori).
Nella seguente serie di immagini, la differenza tra la corona e il papillon è stata scoperta da GPT-4V.
Se aumenti la difficoltà, GPT-4V può anche risolvere i problemi grafici nel test IQ.
Le caratteristiche o le relazioni logiche nelle tre domande precedenti sono relativamente semplici, ma la difficoltà sorgerà dopo:
Naturalmente la difficoltà non risiede nella grafica stessa. Prestate attenzione alla quarta descrizione testuale nell'immagine. La disposizione della grafica nella domanda originale non è quella mostrata nell'immagine.
Annotazione dell'immagine
Oltre a rispondere tramite testo a varie domande, GPT-4V può anche eseguire una serie di operazioni sulle immagini.
Ad esempio, abbiamo una foto di gruppo di quattro giganti dell'intelligenza artificiale e abbiamo bisogno di GPT-4V per inquadrare i personaggi ed etichettare i loro nomi e brevi presentazioni.
GPT-4V ha prima risposto a queste domande con il testo, quindi ha fornito l'immagine elaborata:
Analisi dinamica dei contenuti
Oltre a questi contenuti statici, GPT-4V può anche eseguire analisi dinamiche, ma non fornisce direttamente al modello un video.
Le seguenti cinque immagini sono tratte da un video tutorial sulla preparazione del sushi. Il compito di GPT-4V è indovinare l'ordine in cui appaiono queste immagini (in base alla comprensione del contenuto).
Per la stessa serie di immagini potrebbero esserci diversi modi di interpretarle. Ecco perché GPT-4V esprimerà giudizi sulla base di istruzioni testuali.
Ad esempio, nella seguente serie di immagini, se l'azione della persona è quella di aprire o chiudere la porta, si otterranno risultati di ordinamento completamente opposti.
Naturalmente, attraverso i cambiamenti di status dei personaggi in più immagini, possiamo anche dedurre cosa stanno facendo.
O addirittura prevedere cosa accadrà dopo:
"Apprendimento sul posto"
GPT-4V non solo ha forti capacità visive, ma la chiave è che può essere appreso e venduto immediatamente.
Ad esempio, se a GPT-4V viene chiesto di leggere il cruscotto di un'auto, la risposta inizialmente ottenuta è sbagliata:
Quindi ho fornito il metodo a GPT-4V nel testo, ma questa risposta è ancora sbagliata:
Poi ho mostrato l'esempio a GPT-4V e la risposta è stata simile, ma sfortunatamente i numeri sono stati inventati in modo casuale.
Solo un esempio è in effetti un po' piccolo, ma man mano che il numero di campioni aumenta (in realtà ce n'è solo uno in più), il duro lavoro finalmente ripaga e GPT-4V fornisce la risposta corretta.
GPT-4V mostra solo così tanti effetti. Ovviamente supporta anche più campi e attività. È impossibile mostrarli uno per uno qui. Se sei interessato, puoi leggere il rapporto originale.
Quindi, che tipo di squadra c'è dietro gli effetti di questi artefatti come GPT-4V?
Gli ex-alunni di Tsinghua aprono la strada
Ci sono un totale di 7 autori di questo articolo, tutti cinesi, 6 dei quali sono autori principali.
L'autore principale del progetto, Lijuan Wang, è il principale responsabile della ricerca sul cloud computing e sull'intelligenza artificiale presso Microsoft.
Si è laureata alla Huazhong University of Science and Technology e ha conseguito il dottorato di ricerca presso la Tsinghua University in Cina. È entrata a far parte di Microsoft Research Asia nel 2006 e di Microsoft Research a Redmond nel 2016.
Il suo campo di ricerca è l'apprendimento profondo e l'apprendimento automatico basato sull'intelligenza percettiva multimodale, che include specificamente il pre-addestramento del modello del linguaggio visivo, la generazione di sottotitoli di immagini, il rilevamento del target e altre tecnologie di intelligenza artificiale.
Indirizzo originale: https://arxiv.org/abs/2309.17421