AI の汎用推論層を構築します！vLLM オープンソースプロジェクトがどのようにして世界的な推論エンジンの野心的な計画となったのか？

AI モデルの急速な進化に伴い、これらの大規模モデルを効率的に推論（Inference）する方法が業界にとって避けられない重要課題となっています。UC Berkeley からのオープンソースプロジェクト vLLM は、この技術的挑戦に正面から立ち向かい、徐々に自らのコミュニティとエコシステムを構築し、推論基盤インフラに特化した新興企業 Inferact を誕生させました。この記事では、vLLM の起源、技術的ブレークスルー、オープンソースコミュニティの発展、そして Inferact が「AI 推論の汎用エンジン」をどのように構築しようとしているかを掘り下げます。
学術実験から GitHub のスタープロジェクトへ：vLLM の誕生
vLLM は元々 UC Berkeley の博士課程研究プロジェクトに由来し、大規模言語モデル（LLM）推論の効率が低い問題を解決することを目的としていました。当時、Meta は OPT モデルをオープンソース化し、vLLM の初期貢献者の一人である Woosuk Kwon はそのモデルのデモサービスを最適化しようと試み、その背後にはまだ解決されていない推論システムの難題があることを発見しました。「数週間で完成すると考えていましたが、結果的に全く新しい研究と開発の道が開かれました」と Kwon は回想しています。
下から上への挑戦：なぜ LLM 推論は従来の ML と異なるのか？
vLLM は自回帰型（auto-regressive）言語モデルを対象としており、その推論プロセスは動的で非同期、バッチ処理ができず、従来の画像や音声モデルとは大きく異なります。この種のモデルの入力長は一文から数百ページの文書までさまざまであり、GPU メモリの使用は正確に調整する必要があります。また、計算ステップ（トークンレベルのスケジューリング）やメモリ管理（KV キャッシュ処理）も特に複雑になります。
vLLM の重要な技術的ブレークスルーの一つは「ページアテンション」で、この設計はシステムがメモリをより効率的に管理し、多様なリクエストや長いシーケンス出力に対応するのを助けます。
プログラミングだけではない：キャンパスからオープンソースコミュニティへの重要な瞬間
vLLM チームは 2023 年にシリコンバレーで初めてのオープンソースミートアップを開催しました。当初は十数人の参加者が来ると思っていましたが、結果的に登録人数は予想を超え、会場は満員になり、コミュニティの発展の転機となりました。
その後、vLLM コミュニティは急速に成長し、現在では 50 名以上の常設貢献者が存在し、2,000 名以上の GitHub 貢献者が累積しています。これは今日最も成長しているオープンソースプロジェクトの一つで、Meta、Red Hat、NVIDIA、AMD、AWS、Google など多方面からの支持を受けています。
多方面の力が同じ場で競技：『AI のオペレーティングシステム』を構築する
vLLM の成功の鍵の一つは、モデル開発者、チップメーカー、アプリケーション開発者のために共通のプラットフォームを構築したことです。これにより、相互に接続する必要がなく、vLLM に接続するだけでモデルとハードウェアの最大の互換性を実現できます。
これは、vLLM が「AI のオペレーティングシステム」を構築しようとしていることを意味します：すべてのモデル、すべてのハードウェアが同じ汎用推論エンジンで動作できるようにすること。
推論がますます難しくなっていますか？規模、ハードウェア、エージェントインテリジェンスの三重の圧力
現在の推論の課題は常に進化しています。これには、
モデルの規模は急増しました：最初の百億パラメータから今日の兆級モデルへと、推論に必要な計算資源も急増しています。
モデルとハードウェアの多様性：Transformer アーキテクチャは一貫していますが、内部の詳細はますます異なり、スパースアテンション、線形アテンションなどのバリエーションが次々と登場しています。
エージェントシステムの台頭：モデルはもはや一回の質問に答えるだけではなく、継続的な対話に参加し、外部ツールを呼び出し、Python スクリプトを実行するなど、推論層は長時間状態を維持し、非同期入力を処理する必要があり、技術のハードルが一段と上がっています。
実戦に入る：vLLM が大規模に展開されたケース
vLLM は単なる学術的なおもちゃではなく、Amazon、LinkedIn、Character AI などの大規模プラットフォームで稼働しています。例えば、Amazon のスマートアシスタント「Rufus」は vLLM によって駆動され、ショッピング検索の背後にある推論エンジンとなっています。
さらに、エンジニアの中には、vLLM の機能が開発段階にあるにもかかわらず、直接数百台の GPU にデプロイした者もおり、コミュニティ内での信頼の高さが伺えます。
vLLM の背後にある会社：Inferact の役割とビジョン
vLLM のさらなる発展を推進するために、コア開発者たちは Inferact を設立し、多方面からの投資支援を受けました。一般の商業会社とは異なり、Inferact はオープンソースを最優先の任務と見なしており、創設者の一人である Simon Mo は「私たちの会社は、vLLM を世界的な標準推論エンジンにするために存在します」と述べています。Inferact のビジネスモデルは、vLLM エコシステムの維持と拡張を中心に展開され、企業向けのデプロイメントとサポートを提供し、商業とオープンソースの二本の軌道を並行して形成しています。
Inferact は現在、ML インフラストラクチャの経験を持つエンジニアを積極的に募集しており、特に大規模モデル推論、分散システム、ハードウェアアクセラレーションの分野に精通した人材を求めています。技術的挑戦や深いシステム最適化を追求する開発者にとって、次世代の AI インフラストラクチャに参加する機会です。
チームが目指すのは、OS やデータベースのような「抽象層」を構築することであり、AI モデルが多様なハードウェアとアプリケーションシナリオでシームレスに動作できるようにすることです。
この記事は AI の汎用推論層を構築します！vLLM オープンソースプロジェクトがどのようにして世界的な推論エンジンの野心的な計画となったのか？ 最初に登場したのは 鏈新聞 ABMedia です。