Comparable con GPT-4V, utiliza solo 1,2 millones de datos y 8 A100, el entrenamiento se completa en un día, LLaVA-1.5 actualiza 11 SOTA de referencia

Fuente de la reimpresión del artículo: Heart of the Machine
Fuente de la imagen: Generada por IA ilimitada
El viento para el aterrizaje de grandes modelos multimodales finalmente comenzó a soplar.
Hace una docena de días, OpenAI agregó la funcionalidad de reconocimiento de imágenes a ChatGPT, permitiendo a los usuarios cargar una o más imágenes para mantener conversaciones. Por el breve documento público de OpenAI, sabemos que detrás de la función de reconocimiento de imágenes de ChatGPT hay un nuevo modelo grande llamado GPT-4V.
De hecho, esta capacidad ya existía cuando se lanzó GPT-4 hace medio año, pero no se ha revelado a los usuarios comunes. En el campo de la IA, los grandes modelos multimodales han sido una tendencia reconocida desde hace mucho tiempo y también se consideran un módulo clave de los asistentes generales de IA.
En vista de la insistencia de OpenAI en el "código cerrado", muchos investigadores también han tomado la iniciativa de lanzar sus propios resultados de investigación de modelos grandes multimodales. Por ejemplo, las dos obras maestras más importantes, "LLaVA" y "MiniGPT-4", han demostrado resultados impresionantes en el seguimiento de instrucciones naturales y las capacidades de razonamiento visual.
En abril de este año, investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia lanzaron conjuntamente LLaVA (Large Language and Vision Assistant). Aunque LLaVA se entrenó con un pequeño conjunto de datos de instrucciones multimodal, demostró resultados de inferencia muy similares a los de GPT-4 en algunas muestras.
Hoy, este logro ha recibido una actualización importante: LLaVA-1.5 ha sido lanzado oficialmente, actualizando SOTA en 11 puntos de referencia a través de modificaciones simples al LLaVA original.
Dirección del artículo: https://browse.arxiv.org/pdf/2310.03744.pdf
Sitio de demostración: https://llava.hliu.cc/
Utilizando sólo 1,2 millones de datos públicos, LLaVA-1.5 se entrenó en menos de 1 día en un único nodo 8-A100.
En el artículo, los investigadores introducen dos mejoras simples: un conector multimodal MLP y la fusión de datos relacionados con tareas académicas como VQA. Cuando se utilizan junto con LLaVA, estas dos mejoras conducen a una mejor comprensión multimodal.
En comparación con InstructBLIP o Qwen-VL, que entrenan remuestreadores visuales especialmente diseñados en cientos de millones o incluso miles de millones de pares de imagen y texto, LLaVA utiliza el diseño de arquitectura más simple y solo necesita entrenar en 600K pares de imagen y texto. capa.
¿Se puede comparar con GPT-4V?
Antes de leer el artículo, primero echemos un vistazo a la capacidad de reconocimiento de LLaVA-1.5 y si se puede comparar con GPT-4V.
Propuesta 1: convertir alimentos a JSON
Instrucciones: Es necesario identificar todas las frutas (solo frutas) y luego crear un objeto para cada fruta con una propiedad de nombre y propiedades nutricionales que incluyan propiedades estimadas de calorías, carbohidratos, grasas y proteínas.
Resultados de respuesta de LLaVA-1.5:
Resultados de la respuesta de GPT-4V:
Propuesta 2: Identificar títulos de películas a partir de bocetos simplificados
Instrucción: ¿De qué película trata esta imagen? Nota: cambié los nombres de los personajes para que sean más difíciles de identificar.
Resultados de respuesta de LLaVA-1.5:
Resultados de la respuesta de GPT-4V:
Detalles del papel
LLaVA demuestra capacidades encomiables en razonamiento visual, superando múltiples modelos de última generación en una variedad de puntos de referencia en tareas de instrucción visual de la vida real, mientras que se queda corto sólo en puntos de referencia académicos que normalmente requieren respuestas cortas. El equipo de investigación atribuye esto último al hecho de que LLaVA no está entrenado previamente con datos a gran escala como otros métodos.
Específicamente, este estudio primero analiza el impacto de los datos extendidos, el modelo y la resolución de la imagen de entrada en tres conjuntos de datos seleccionados en la Tabla 1 a continuación; luego realiza experimentos comparativos en 12 puntos de referencia diferentes en la Tabla 2; Los resultados experimentales muestran que la arquitectura LLaVA es poderosa y eficiente en términos de datos para el ajuste de instrucciones de visión, y logra el máximo rendimiento utilizando significativamente menos datos de computación y entrenamiento que todos los demás métodos.
Mensaje de formato de respuesta
El estudio encontró que métodos como InstructBLIP no pueden lograr un equilibrio entre el VQA de formato corto y largo por dos razones principales:
Primero, el mensaje dado a LLM es ambiguo en el formato de respuesta. Por ejemplo, un mensaje como "P: {Pregunta} A: {Respuesta}" no indica claramente el formato de salida requerido. Incluso para conversaciones visuales naturales, es posible que el LLM sea demasiado adecuado para dar respuestas breves.
En segundo lugar, el LLM no se perfeccionó. Por ejemplo, InstructBLIP requiere el token de salida visual de Qformer para controlar la longitud de salida del LLM (formato largo/formato corto), pero debido a su capacidad limitada, es posible que Qformer no tenga la capacidad de hacerlo correctamente.
Para resolver este problema, el estudio propone utilizar un "mensaje de formato de respuesta" que especifique claramente el formato de salida. Por ejemplo, cuando se requiere que el modelo dé una respuesta breve, agregue una oración al final de la pregunta VQA: "Respuesta". la pregunta usando una sola palabra o frase."
Este estudio muestra experimentalmente que cuando LLM se ajusta utilizando tales indicaciones, LLaVA puede ajustar adecuadamente el formato de salida de acuerdo con las instrucciones del usuario y no requiere procesamiento adicional de datos VQA usando ChatGPT.
Además, este estudio también encontró que mejorar el poder de representación del conector visual-verbal a través de MLP de doble capa puede mejorar las capacidades multimodales de LLaVA en comparación con el modelo original. Además, el estudio también amplió los datos para tareas académicas, incluidos conjuntos de datos VQA adicionales orientados a tareas académicas para VQA, OCR y percepción a nivel regional para mejorar las capacidades multimodales del modelo.
Los lectores interesados ​​pueden leer el texto original del artículo para obtener más información sobre el contenido de la investigación.
Enlaces de referencia:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842