Comparável ao GPT-4V, usando apenas 1,2 milhões de dados e 8 A100s, o treinamento é concluído em um dia, o LLaVA-1.5 atualiza 11 benchmarks SOTA

Fonte da reimpressão do artigo: Heart of the Machine
Fonte da imagem: gerada por Unbounded AI
O vento do pouso de grandes modelos multimodais finalmente começou a soprar.
Há doze dias, a OpenAI adicionou funcionalidade de reconhecimento de imagem ao ChatGPT, permitindo aos usuários fazer upload de uma ou mais imagens para realizar conversas. A partir do próprio documento público da OpenAI, sabemos que por trás da função de reconhecimento de imagem do ChatGPT está um novo modelo grande chamado GPT-4V.
Na verdade, essa capacidade já existia quando o GPT-4 foi lançado há meio ano, mas não foi divulgada aos usuários comuns. No campo da IA, os grandes modelos multimodais têm sido uma tendência reconhecida e também são considerados um módulo-chave dos assistentes gerais de IA.
Tendo em conta a insistência da OpenAI no "código fechado", muitos investigadores também assumiram a liderança no lançamento dos seus próprios resultados de investigação multimodal de grandes modelos. Por exemplo, as duas principais obras-primas "LLaVA" e "MiniGPT-4" demonstraram resultados impressionantes no rastreamento natural de instruções e nas capacidades de raciocínio visual.
Em abril deste ano, pesquisadores da Universidade de Wisconsin-Madison, da Microsoft Research e da Universidade de Columbia lançaram em conjunto o LLaVA (Large Language and Vision Assistant). Embora o LLaVA tenha sido treinado com um pequeno conjunto de dados de instruções multimodais, ele demonstrou resultados de inferência muito semelhantes ao GPT-4 em algumas amostras.
Hoje, essa conquista recebeu uma grande atualização: o LLaVA-1.5 foi lançado oficialmente, atualizando o SOTA em 11 benchmarks por meio de modificações simples no LLaVA original.
Endereço do artigo: https://browse.arxiv.org/pdf/2310.03744.pdf
Site de demonstração: https://llava.hliu.cc/
Usando apenas 1,2 milhão de dados públicos, o LLaVA-1.5 foi treinado em menos de 1 dia em um único nó 8-A100.
No artigo, os pesquisadores introduzem duas melhorias simples: um conector multimodal MLP e a fusão de dados relacionados a tarefas acadêmicas, como VQA. Quando usadas em conjunto com o LLaVA, essas duas melhorias levam a uma melhor compreensão multimodal.
Comparado ao InstructBLIP ou Qwen-VL, que treina reamostradores visuais especialmente projetados em centenas de milhões ou até bilhões de pares de imagem-texto, o LLaVA usa o design de arquitetura mais simples e só precisa treinar em 600 mil pares de imagem-texto. camada.
Pode ser comparado com GPT-4V?
Antes de ler o artigo, vamos primeiro dar uma olhada na capacidade de reconhecimento do LLaVA-1.5 e se ele pode ser comparado ao GPT-4V.
Proposta 1: Converter mantimentos em JSON
Instruções: É necessário identificar todas as frutas (somente frutas) e depois criar um objeto para cada fruta com um nome de propriedade e propriedades nutricionais incluindo calorias estimadas, carboidratos, gorduras e propriedades proteicas.
Resultados da resposta do LLaVA-1.5:
Resultados da resposta do GPT-4V:
Proposição 2: Identifique títulos de filmes a partir de esboços simplificados
Instrução: De que filme se trata esta imagem? Nota: mudei os nomes dos personagens para torná-los mais difíceis de identificar.
Resultados da resposta do LLaVA-1.5:
Resultados da resposta do GPT-4V:
Detalhes do papel
O LLaVA demonstra capacidades louváveis ​​em raciocínio visual, superando vários modelos de última geração em uma variedade de benchmarks em tarefas de instrução visual da vida real, enquanto fica aquém apenas em benchmarks acadêmicos que normalmente exigem respostas curtas. A equipe de pesquisa atribui este último ao fato de que o LLaVA não é pré-treinado em dados de grande escala como outros métodos.
Especificamente, este estudo analisa primeiro o impacto dos dados estendidos, do modelo e da resolução da imagem de entrada em três conjuntos de dados selecionados na Tabela 1 abaixo; Resultados experimentais mostram que a arquitetura LLaVA é poderosa e eficiente em termos de dados para ajuste de instruções de visão e atinge desempenho superior usando significativamente menos dados de computação e treinamento do que todos os outros métodos.
Prompt de formato de resposta
O estudo descobriu que métodos como o InstructBLIP não conseguem alcançar um equilíbrio entre VQA de formato curto e longo por dois motivos principais:
Primeiro, a solicitação dada ao LLM é ambígua no formato da resposta. Por exemplo, um prompt como "Q: {Question} A: {Answer}" não indica claramente o formato de saída necessário. Mesmo para conversas visuais naturais, pode ser possível tornar o LLM excessivamente adequado para dar respostas curtas.
Em segundo lugar, o LLM não foi ajustado. Por exemplo, o InstructBLIP requer o token de saída visual do Qformer para controlar o comprimento de saída do LLM (formato longo/formato curto), mas devido à sua capacidade limitada, o Qformer pode não ter a capacidade de fazer isso corretamente.
Para resolver este problema, o estudo propõe a utilização de um “prompt de formato de resposta” que especifique claramente o formato de saída. Por exemplo, quando o modelo for obrigado a dar uma resposta curta, adicione uma frase no final da pergunta VQA: “Responda. a pergunta usando uma única palavra ou frase."
Este estudo mostra experimentalmente que quando o LLM é ajustado usando tais prompts, o LLaVA é capaz de ajustar adequadamente o formato de saída de acordo com as instruções do usuário e não requer processamento adicional de dados VQA usando ChatGPT.
Além disso, este estudo também descobriu que melhorar o poder representacional do conector visual-verbal através do MLP de camada dupla pode melhorar as capacidades multimodais do LLaVA em comparação com o modelo original. Além disso, o estudo também expandiu os dados para tarefas acadêmicas, incluindo conjuntos de dados VQA adicionais orientados para tarefas acadêmicas para VQA, OCR e percepção em nível de região para aprimorar as capacidades multimodais do modelo.
Os leitores interessados ​​podem ler o texto original do artigo para saber mais sobre o conteúdo da pesquisa.
Links de referência:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842