Fonte della ristampa dell'articolo: Heart of the Machine

Fonte immagine: generata da Unbounded AI

Il vento dello sbarco di grandi modelli multimodali ha finalmente cominciato a soffiare.

Una dozzina di giorni fa, OpenAI ha aggiunto a ChatGPT la funzionalità di riconoscimento delle immagini, consentendo agli utenti di caricare una o più immagini per effettuare conversazioni. Dai brevi documenti pubblici di OpenAI, sappiamo che dietro la funzione di riconoscimento delle immagini di ChatGPT c'è un nuovo modello di grandi dimensioni chiamato GPT-4V.

In realtà, questa funzionalità esisteva già quando GPT-4 è stato rilasciato sei mesi fa, ma non è stata rivelata agli utenti ordinari. Nel campo dell’intelligenza artificiale, i grandi modelli multimodali sono da tempo una tendenza riconosciuta e sono anche considerati un modulo chiave degli assistenti generali di intelligenza artificiale.

Data l'insistenza di OpenAI sul "closed source", molti ricercatori hanno preso l'iniziativa di pubblicare i risultati delle proprie ricerche su modelli multimodali di grandi dimensioni. Ad esempio, i due lavori rappresentativi "LLaVA" e "MiniGPT-4" hanno dimostrato risultati impressionanti nel tracciamento naturale delle istruzioni e nelle capacità di ragionamento visivo.

Ad aprile di quest'anno, i ricercatori dell'Università del Wisconsin-Madison, di Microsoft Research e della Columbia University hanno lanciato congiuntamente LLaVA (Large Language and Vision Assistant). Sebbene LLaVA sia addestrato su un piccolo set di dati di istruzioni multimodali, mostra risultati di ragionamento molto simili a GPT-4 su alcuni campioni.

Oggi questo risultato ha ricevuto un importante aggiornamento: LLaVA-1.5 è stato ufficialmente rilasciato. Modificando semplicemente il LLaVA originale, è stato aggiornato il SOTA su 11 benchmark.

  • Indirizzo del documento: https://browse.arxiv.org/pdf/2310.03744.pdf

  • Indirizzo demo: https://llava.hliu.cc/

Utilizzando solo 1,2 milioni di dati disponibili al pubblico, LLaVA-1.5 ha completato l'addestramento in meno di 1 giorno su un singolo nodo 8-A100.

Nel documento, i ricercatori hanno introdotto due semplici miglioramenti: un connettore cross-modale MLP e l'incorporazione di dati correlati ad attività accademiche come VQA. Se utilizzati insieme a LLaVA, questi due miglioramenti consentono di ottenere migliori capacità di comprensione multimodale.

Rispetto a InstructBLIP o Qwen-VL, che addestrano ricampionatori visivi appositamente progettati su centinaia di milioni o addirittura miliardi di coppie immagine-testo, LLaVA utilizza l'architettura più semplice e deve solo addestrare un semplice livello di proiezione completamente connesso su 600K coppie immagine-testo.

Può battere GPT-4V?

Prima di leggere l'articolo, diamo un'occhiata alle capacità di riconoscimento di LLaVA-1.5 e se può competere con GPT-4V.

Proposta 1: Convertire i generi alimentari in JSON

Istruzioni: devi identificare tutti i frutti (e solo i frutti), quindi per ogni frutto creare un oggetto con un attributo nome e attributi nutrizionali, tra cui una stima di calorie, carboidrati, grassi e proteine.

Risultati della risposta di LLaVA-1.5:

La risposta di GPT-4V risulta:

Proposta 2: Identificare i titoli dei film da schizzi semplificati

Istruzioni: Di ​​quale film parla questa immagine? Nota: ho cambiato i nomi dei personaggi per renderne più difficile l'identificazione.

Risultati della risposta di LLaVA-1.5:

La risposta di GPT-4V risulta:

Dettagli della carta

LLaVA dimostra capacità encomiabili nel ragionamento visivo, superando numerosi modelli all'avanguardia in una serie di parametri di riferimento per attività di istruzione visiva nella vita reale, mentre risulta carente solo nei parametri accademici che in genere richiedono risposte brevi. Il team di ricerca ritiene che quest'ultimo sia dovuto al fatto che LLaVA non è pre-addestrato su dati su larga scala come altri metodi.

Nello specifico, questo studio analizza innanzitutto l'impatto dei dati estesi, dei modelli e della risoluzione delle immagini di input su tre set di dati selezionati nella Tabella 1 di seguito; quindi conduce esperimenti comparativi su 12 diversi benchmark nella Tabella 2. I risultati sperimentali dimostrano che l'architettura LLaVA è potente ed efficiente in termini di dati per l'ottimizzazione delle istruzioni visive e ottiene le migliori prestazioni utilizzando significativamente meno dati di calcolo e di addestramento rispetto a tutti gli altri metodi.

Richiesta di formato di risposta

Lo studio ha rilevato che ci sono due motivi principali per cui metodi come InstructBLIP non riescono a trovare un equilibrio tra VQA in formato breve e lungo:

Innanzitutto, il prompt fornito all'LLM non è chiaro nel formato della risposta. Ad esempio, un prompt come "D: {domanda} R: {risposta}" non indica chiaramente il formato di output desiderato. Anche per le conversazioni visive naturali è possibile sovraadattare l'LLM per fornire risposte brevi.

In secondo luogo, non è stata effettuata alcuna messa a punto dell'LLM. Ad esempio, InstructBLIP richiede il token di output visivo di Qformer per controllare la lunghezza dell'output (forma lunga/forma breve) di LLM, ma Qformer potrebbe non essere in grado di farlo correttamente a causa della sua capacità limitata.

Per risolvere questo problema, lo studio ha proposto di utilizzare un "richiesta di formato di risposta" che specifica chiaramente il formato di output. Ad esempio, quando al modello viene richiesto di fornire una risposta breve, aggiungere una frase alla fine della domanda VQA: "Rispondi alla domanda utilizzando una sola parola o frase".

Questo studio dimostra sperimentalmente che quando LLM viene ottimizzato utilizzando tali prompt, LLaVA è in grado di adattare opportunamente il formato di output in base alle istruzioni dell'utente e non richiede un'ulteriore elaborazione dei dati VQA tramite ChatGPT.

Inoltre, lo studio ha anche scoperto che il miglioramento del potere di rappresentazione del connettore visivo-linguistico tramite un MLP a due strati può migliorare la capacità multimodale di LLaVA rispetto al modello originale. Inoltre, questo studio ha anche ampliato i dati per le attività accademiche, includendo ulteriori set di dati VQA per le attività accademiche per VQA, OCR e percezione a livello regionale per migliorare le capacità multimodali del modello.

I lettori interessati possono leggere l'articolo originale per saperne di più sul contenuto della ricerca.

Link di riferimento:

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842