С быстрым развитием AI-моделей, как эффективно выполнять вывод (Inference) для этих крупных моделей, становится ключевой проблемой, которую нельзя обойти в отрасли. Открытый проект vLLM из UC Berkeley не только сталкивается с этой технической задачей, но и постепенно создает собственное сообщество и экосистему, даже порождая стартап Inferact, сосредоточенный на инфраструктуре вывода. Эта статья погрузит вас в истоки vLLM, технические прорывы, развитие открытого сообщества и то, как Inferact хочет создать «универсальный движок вывода AI».

От академических экспериментов до звездных проектов на GitHub: рождение vLLM

vLLM изначально возник из программы аспирантуры UC Berkeley, направленной на решение проблемы низкой эффективности вывода крупных языковых моделей (LLM). В то время Meta открыла модель OPT, и один из ранних участников vLLM, Вусук Квон, пытался оптимизировать демонстрационную службу этой модели, в результате чего он обнаружил, что за этим стоит неразрешенная проблема системы вывода. «Мы думали, что сможем завершить это за несколько недель, но это открыло совершенно новый путь для исследований и разработок», - вспоминает Квон.

Вызов снизу вверх: почему вывод LLM отличается от традиционного ML?

vLLM нацелен на автогрессивные языковые модели, процесс вывода которых динамичен, асинхронен и не может обрабатываться партиями, что значительно отличается от традиционных моделей изображения или речи. Длина ввода таких моделей может варьироваться от одного предложения до сотен страниц документов, использование памяти GPU должно быть точно распределено, а шаги вычисления (планирование на уровне токена) и управление памятью (обработка кеша KV) становятся особенно сложными.

Одним из важных технических прорывов vLLM является «Page Attention», этот дизайн помогает системе более эффективно управлять памятью, справляясь с разнообразными запросами и длинными последовательными выводами.

Не просто программирование: ключевой момент перехода от кампуса к открытому сообществу

Команда vLLM провела свою первую открытость в 2023 году в Кремниевой долине, изначально предполагая, что участие примет всего несколько человек, но на самом деле количество зарегистрировавшихся превысило ожидания и переполнило зал, став поворотным моментом в развитии сообщества.

С тех пор сообщество vLLM быстро выросло, сейчас в нем более 50 постоянных участников, и накопилось более 2000 участников на GitHub, что делает его одним из самых быстрорастущих открытых проектов, получившим поддержку от таких компаний, как Meta, Red Hat, NVIDIA, AMD, AWS и Google.

Множество сил конкурирует одновременно: создание «операционной системы AI»

Одним из ключевых факторов успеха vLLM является то, что он создал общую платформу для разработчиков моделей, производителей чипов и разработчиков приложений, которая не требует взаимной интеграции, достаточно интегрировать только vLLM, чтобы обеспечить максимальную совместимость между моделями и аппаратным обеспечением.

Это также означает, что vLLM пытается создать «операционную систему AI»: чтобы все модели и все аппаратные средства могли работать на одном универсальном движке вывода.

Вывод становится все сложнее? Тройное давление от масштаба, аппаратного обеспечения и агентного интеллекта

Современные вызовы вывода постоянно растут, включая:

  1. Масштаб моделей резко возрос: от первоначальных сотен миллионов параметров до сегодняшних триллионных моделей, и ресурсы вычисления, необходимые для вывода, также значительно возросли.

  2. Модели и аппаратное разнообразие: хотя архитектура Transformer остается неизменной, внутренние детали становятся все более разными, такие как разреженное внимание, линейное внимание и другие вариации, которые появляются одна за другой.

  3. Возникновение агентов: модели больше не просто отвечают на один вопрос, а участвуют в непрерывных диалогах, вызывают внешние инструменты, выполняют скрипты Python и так далее, уровень вывода должен поддерживать состояние в течение длительного времени и обрабатывать асинхронный ввод, что создает еще более высокие технические барьеры.

Вход в реальную практику: примеры массового развертывания vLLM

vLLM не просто академическая игрушка, он уже внедрен на крупных платформах, таких как Amazon, LinkedIn, Character AI. Например, интеллектуальный помощник Amazon «Rufus» работает на основе vLLM и стал движком вывода за покупками.

Даже инженеры развернули одну из функций vLLM на сотнях GPU, пока она находилась на стадии разработки, что подчеркивает высокий уровень доверия к ней в сообществе.

Компания за vLLM: роль и видение Inferact

Для дальнейшего продвижения vLLM основные разработчики основали Inferact и получили многостороннюю инвестиционную поддержку. В отличие от обычных коммерческих компаний, Inferact рассматривает открытый исходный код как первоочередную задачу, один из основателей Симон Мо заявил: «Наша компания существует, чтобы сделать vLLM стандартным движком вывода во всем мире». Бизнес-модель Inferact сосредоточена на поддержании и расширении экосистемы vLLM, одновременно предоставляя корпоративные развертывания и поддержку, создавая параллельные пути для бизнеса и открытого кода.

Inferact активно нанимает инженеров с опытом в области ML инфраструктуры, особенно тех, кто специализируется на выводе крупных моделей, распределенных системах и аппаратном ускорении. Для разработчиков, стремящихся к техническим вызовам и глубокому системному оптимизированию, это возможность участвовать в создании следующей генерации AI инфраструктуры.

Команда надеется создать «абстрактный уровень», аналогичный ОС или базе данных, чтобы AI модели могли бесшовно работать на разнообразных аппаратных средствах и в различных приложениях.

Эта статья создает универсальный уровень вывода AI! Как проект с открытым исходным кодом vLLM стал амбициозным планом глобального движка вывода? Впервые опубликовано в ChainNews ABMedia.