Исследователи из Вашингтонского университета представили Guanaco, чат-бот с открытым исходным кодом, который призван конкурировать по производительности с ChatGPT, одновременно значительно сокращая время и ресурсы, необходимые для обучения. Названный в честь южноамериканского родственника лам, Гуанако построен на языковой модели LLaMA и включает в себя новый метод тонкой настройки под названием QLoRA.
Почта Метавселенной (mpost.io)
Создатели Guanaco утверждают, что он обеспечивает производительность, сравнимую с ChatGPT, но его можно обучить всего за один день. Это замечательное достижение стало возможным благодаря QLoRA — методу точной настройки языковой модели, который существенно уменьшает объем памяти графического процессора, необходимой для обучения. В то время как ChatGPT требует колоссальных 780 ГБ памяти графического процессора для модели с 65 миллиардами параметров, простейшая версия Guanaco требует всего 5 ГБ.
Благодаря такому впечатляющему повышению эффективности Гуанако и подобные модели с открытым исходным кодом бросают вызов представлению о том, что для создания современных языковых моделей необходимо дорогостоящее обучение. Появление Guanaco, Alpaca и других моделей, обучающихся за небольшую часть стоимости, привело к предположениям о будущем таких дорогостоящих моделей, как GPT.
Однако не все согласны с таким оптимистичным взглядом на модели с открытым исходным кодом. Недавнее исследование, проведенное Калифорнийским университетом, поставило под сомнение возможности таких моделей, как альпаки, и подняло вопросы об их истинном потенциале. Первоначально исследователи пришли к такому же выводу, что и создатели Guanaco: при правильном обучении модели с открытым исходным кодом могут соперничать по возможностям с GPT. Дальнейшие тесты выявили существенное ограничение. Эти модели «долли», как их иногда называют, умеют имитировать решения проблем, с которыми они столкнулись во время обучения. Однако они с трудом справляются с задачами, с которыми им явно не приходилось сталкиваться, отставая от более продвинутых моделей.
Это открытие позволяет предположить, что миллионы, вложенные в обучение GPT и подобных моделей, возможно, не были напрасными. Хотя Гуанако и его аналоги демонстрируют многообещающие результаты, все еще существуют области, в которых более сложные модели превосходят других. Стоит отметить, что исследование, проведенное Калифорнийским университетом, бросает вызов распространенному мнению о том, что модели с открытым исходным кодом могут полностью заменить дорогие модели, такие как GPT.
По мере развития области обработки естественного языка будет интересно посмотреть, насколько Guanaco и другие модели с открытым исходным кодом будут соответствовать установленным критериям, таким как ChatGPT. Высокий уровень инноваций и непрерывные исследования, без сомнения, повлияют на будущее языковых моделей и определят, какие модели станут предпочтительным выбором для конкретных приложений.
Компания Databricks анонсировала Dolly 2.0, первый коммерчески доступный 12B Chat-LLM с открытым исходным кодом. Это значительный прогресс в индустрии машинного обучения, позволяющий компаниям создавать эффективные языковые модели без инвестиций в дорогостоящие кластеры графических процессоров. Databricks привлекла 5000 сотрудников для создания своей языковой модели с открытым исходным кодом, которая включала языковую модель Pythia-12B от EleutherAI под лицензией MIT. Dolly 2.0, а также связанный с ней код доступны по лицензии MIT. Dolly 2.0 может изменить отрасль и является значительным шагом вперед в области машинного обучения.
Подробнее об ИИ:
Чат-боты на базе GPT и помощники врачей с искусственным интеллектом меняют здравоохранение
SoundStorm: Google представляет ужасающий инструмент искусственного интеллекта, способный воспроизводить голос в реальном времени
Результаты GPT-4 на экзамене на адвоката в США противоречат ее утверждениям
Сообщение «Гуанако становится потенциальным конкурентом ChatGPT с открытым исходным кодом» впервые появилось на Metaverse Post.


