Только что была выпущена версия модели DeepMind Flamingo с открытым исходным кодом — OpenFlamingo. OpenFlamingo, по сути, представляет собой платформу, которая позволяет обучать и оценивать крупные мультимодальные модели (LMM). OpenFlamingo построен на основе большой языковой модели LLaMA, разработанной Meta AI.

Подробнее: Как использовать Midjourney навсегда бесплатно: 5 простых шагов

Вклад разработчиков в этот первый выпуск заключается в следующем:

  • Большой мультимодальный набор данных, сочетающий в себе текстовые и визуальные последовательности.

  • Эталон для оценки контекстного обучения по видам деятельности, включая зрение и речь.

  • Предварительная версия нашей модели OpenFlamingo-9B на базе LLaMA.

С помощью OpenFlamingo разработчики надеются создать мультимодальную систему, способную решать различные задачи, связанные с языком видения. Конечная цель — достичь уровня GPT-4 по мощности и адаптивности при обработке визуального и текстового ввода. Для достижения этой цели разработчики разрабатывают версию модели Flamingo от DeepMind с открытым исходным кодом, LMM, способную обрабатывать и анализировать изображения, видео и текст. Разработчики стремятся разрабатывать модели с полностью открытым исходным кодом, поскольку считают, что прозрачность имеет решающее значение для развития сотрудничества, ускорения развития и демократизации доступа к передовым LMM.

Они обеспечивают начальную контрольную точку нашей модели OpenFlamingo-9B. Хотя модель еще не полностью оптимизирована, она показывает перспективность проекта. Разработчики могут лучше обучать LMM, сотрудничая и получая отзывы сообщества. Они приглашают общественность внести свой вклад и добавить в репозиторий, чтобы принять участие в процессе разработки.

Реализация очень похожа на реализацию Flamingo. Модели фламинго необходимо обучать на крупномасштабных наборах веб-данных с чередующимся текстом и графикой, чтобы вооружить их навыками контекстного обучения за несколько шагов. Та же самая архитектура, которая была предложена в исходном исследовании Flamingo (передискретизаторы Perceiver, уровни перекрестного внимания), реализована в OpenFlamingo. Но поскольку данные обучения Flamingo недоступны широкой публике, разработчики используют наборы данных с открытым исходным кодом для обучения моделей. Недавно опубликованная контрольная точка OpenFlamingo-9B была специально обучена на 10 миллионах образцов из LAION-2B и 5 миллионах образцов из нового набора данных Multimodal C4.

Разработчики также включили в релиз контрольную точку из нашего незавершенного LMM OpenFlamingo-9B, основанного на LLaMA 7B и CLIP ViT/L-14. Несмотря на то, что эта концепция все еще находится в разработке, сообщество уже может получить от нее большую пользу.

Для начала просмотрите исходный код и демо-версию GitHub.

Подробнее об ИИ:

  • Ожидается, что к 2030 году затраты на обучение моделей искусственного интеллекта вырастут со 100 до 500 миллионов долларов.

  • Новый адаптивный ИИ-агент DeepMind Ada почти так же интеллектуален, как человек

  • DeepMind выпустила AI-инструмент Dramatron, который генерирует полноценный черновик сценария фильма или телешоу

Сообщение OpenFlamingo: новая платформа преобразования изображений в текст с открытым исходным кодом от Meta AI и LAION впервые появилась на Metaverse Post.