По сравнению с GPT-4V, с использованием всего 1,2 млн данных и 8 A100, обучение завершается за один день, LLaVA-1.5 обновляет 11 эталонных тестов SOTA.

Источник перепечатки статьи: Сердце машины.
Источник изображения: Создано Unbounded AI
Наконец-то подул ветер посадки крупных мультимодальных моделей.
Дюжину дней назад OpenAI добавила в ChatGPT функцию распознавания изображений, позволяющую пользователям загружать одно или несколько изображений для ведения разговора. Из собственных публичных кратких документов OpenAI мы знаем, что за функцией распознавания изображений ChatGPT стоит новая большая модель под названием GPT-4V.
Фактически, такая возможность уже существовала, когда полгода назад был выпущен GPT-4, но обычным пользователям она не была раскрыта. В области искусственного интеллекта мультимодальные большие модели уже давно стали признанной тенденцией, а также считаются ключевым модулем общих помощников искусственного интеллекта.
Учитывая настойчивость OpenAI в отношении «закрытого исходного кода», многие исследователи взяли на себя инициативу по публикации собственных результатов исследований в области мультимодальных больших моделей. Например, две репрезентативные работы «LLaVA» и «MiniGPT-4» продемонстрировали впечатляющие результаты в отслеживании естественных инструкций и возможностях визуального мышления.
В апреле этого года исследователи из Университета Висконсин-Мэдисон, Microsoft Research и Колумбийского университета совместно выпустили LLaVA (Large Language and Vision Assistant). Хотя LLaVA обучена на небольшом наборе данных мультимодальных инструкций, на некоторых образцах она показывает очень похожие результаты рассуждений с GPT-4.
Сегодня это достижение получило крупное обновление: LLaVA-1.5 был официально выпущен. Простым изменением оригинального LLaVA он обновил SOTA на 11 бенчмарках.
Адрес статьи: https://browse.arxiv.org/pdf/2310.03744.pdf
Адрес демо: https://llava.hliu.cc/
Используя всего 1,2 миллиона общедоступных данных, LLaVA-1.5 завершил обучение менее чем за 1 день на одном узле 8-A100.
В статье исследователи представили два простых усовершенствования: кросс-модальный соединитель MLP и включение данных, связанных с академическими задачами, такими как VQA. При совместном использовании с LLaVA эти два усовершенствования приводят к улучшению возможностей мультимодального понимания.
По сравнению с InstructBLIP или Qwen-VL, которые обучают специально разработанные визуальные ресемплеры на сотнях миллионов или даже миллиардах пар изображение-текст, LLaVA использует простейшую архитектуру и нуждается в обучении только на 600 тыс. пар изображение-текст. Простой полностью подключенный Проекционный слой.
Сможет ли он превзойти GPT-4V?
Прежде чем читать статью, давайте рассмотрим возможности распознавания LLaVA-1.5 и выясним, может ли он конкурировать с GPT-4V.
Предложение 1: Преобразование продуктов в JSON
Инструкции: Вам необходимо идентифицировать все фрукты (и только фрукты), а затем для каждого фрукта создать объект с атрибутом имени и пищевыми характеристиками, включая предполагаемые характеристики калорийности, углеводов, жиров и белков.
Результаты ответа LLaVA-1.5:
Результаты ответа GPT-4V:
Предложение 2: Определите названия фильмов по упрощенным эскизам.
Инструкции: О каком фильме эта картинка? Примечание: Я изменил имена персонажей, чтобы затруднить их идентификацию.
Результаты ответа LLaVA-1.5:
Результаты ответа GPT-4V:
Подробности о бумаге
LLaVA демонстрирует похвальные способности в области визуального мышления, превосходя многочисленные современные модели по различным показателям для задач с визуальным обучением в реальной жизни, и уступая только академическим показателям, которые обычно требуют кратких ответов. Исследовательская группа полагает, что последнее объясняется тем, что LLaVA не проходит предварительного обучения на больших объемах данных, как другие методы.
В частности, в этом исследовании сначала анализируется влияние расширенных данных, моделей и разрешения входного изображения на три набора данных, выбранных в Таблице 1 ниже; затем проводятся сравнительные эксперименты по 12 различным эталонным тестам в Таблице 2. Экспериментальные результаты показывают, что архитектура LLaVA является мощной и эффективной с точки зрения данных для настройки визуальных инструкций и достигает наилучшей производительности, используя значительно меньше вычислительных и обучающих данных, чем все другие методы.
Запрос формата ответа
Исследование показало, что существуют две основные причины, по которым такие методы, как InstructBLIP, не могут обеспечить баланс между краткой и длинной формой VQA:
Во-первых, запрос, заданный LLM, неясен в формате ответа. Например, запрос типа «В: {вопрос} О: {ответ}» не содержит четкого указания желаемого формата вывода. Даже в случае естественного визуального общения LLM может переобучиться давать короткие ответы.
Во-вторых, не проводилась никакая тонкая настройка LLM. Например, InstructBLIP требует визуального выходного токена Qformer для управления длиной вывода (длинная форма/короткая форма) LLM, но Qformer может не иметь возможности сделать это правильно из-за своих ограниченных возможностей.
Для решения этой проблемы в исследовании предлагается использовать «подсказку формата ответа», которая четко определяет формат вывода. Например, когда от модели требуется дать короткий ответ, добавьте предложение в конце вопроса VQA: «Ответьте на вопрос, используя одно слово или фразу».
Данное исследование экспериментально показывает, что при тонкой настройке LLM с использованием таких подсказок LLaVA способна соответствующим образом адаптировать формат вывода на основе инструкций пользователя и не требует дополнительной обработки данных VQA с использованием ChatGPT.
Кроме того, исследование также показало, что улучшение репрезентативной способности визуально-языкового коннектора с помощью двухслойного MLP может улучшить мультимодальные возможности LLaVA по сравнению с исходной моделью. Кроме того, в этом исследовании также были расширены данные для академических задач, включая дополнительные наборы данных VQA для академических задач для VQA, OCR и восприятия на уровне региона, чтобы улучшить мультимодальные возможности модели.
Заинтересованные читатели могут прочитать оригинальную статью, чтобы узнать больше о содержании исследования.
Ссылки:
https://twitter.com/rowancheung/status/1710736745904721955
https://twitter.com/imhaotian/status/1710192818159763842