Vybudování univerzální inference vrstvy AI! Jak se open-source projekt vLLM stal ambiciózním plánem pro globální inference motor?

S rychlým vývojem AI modelů se stává klíčovým tématem, jak efektivně provádět inference těchto velkých modelů, což je otázka, které se průmysl nemůže vyhnout. Open-source projekt vLLM z UC Berkeley čelí této technické výzvě a postupně buduje vlastní komunitu a ekosystém, dokonce vyvolává vznik startupu Inferact, který se zaměřuje na infrastrukturu pro inference. Tento článek vás podrobně seznámí se vznikem vLLM, technickými průlomy, vývojem open-source komunity a tím, jak chce Inferact vytvořit „univerzální motor pro AI inference“.
Od akademických experimentů k hvězdnému projektu na GitHubu: vznik vLLM
vLLM původně vznikl z doktorského výzkumného projektu na UC Berkeley, jehož cílem bylo vyřešit problém nízké efektivity inference velkých jazykových modelů (LLM). V té době Meta otevřela model OPT, a jeden z prvních přispěvatelů vLLM, Woosuk Kwon, se pokusil optimalizovat demo službu tohoto modelu a zjistil, že za tímto stojí nevyřešený problém inference systému. „Mysleli jsme si, že to zvládneme za pár týdnů, ale ve skutečnosti to otevřelo zcela novou cestu výzkumu a vývoje,“ vzpomíná Kwon.
Výzvy zdola nahoru: Proč je inference LLM jiná než tradiční ML?
vLLM se zaměřuje na auto-regresivní jazykové modely, jejichž proces inference je dynamický, asynchronní a nelze ho zpracovávat dávkově, což je velmi odlišné od tradičních modelů pro obraz nebo řeč. Délka vstupu těchto modelů se může pohybovat od jedné věty až po stovky stránek dokumentů, použití GPU paměti musí být přesně přizpůsobeno, a výpočetní kroky (token-level scheduling) a správa paměti (KV cache handling) se stávají extrémně složitými.
Jedním z důležitých technických průlomů vLLM je „Page Attention“, tento design pomáhá systému efektivněji spravovat paměť a reagovat na různorodé požadavky a dlouhé sekvenční výstupy.
Nejde jen o programování: Klíčový okamžik přechodu z kampusu do open-source komunity
Tým vLLM uspořádal v roce 2023 v Silicon Valley první open-source meetup, očekávali, že se zúčastní jen desítky lidí, ale registrovaný počet daleko překročil očekávání a zaplnil místo, což se stalo zlomovým bodem pro rozvoj komunity.
Od té doby vLLM komunita rychle rostla, dnes má více než 50 pravidelných přispěvatelů a více než 2 000 přispěvatelů na GitHubu, což je jeden z nejrychleji rostoucích open-source projektů dneška, která získala podporu od Meta, Red Hat, NVIDIA, AMD, AWS, Google a dalších.
Různé síly soutěží na jednom poli: budování „operačního systému AI“
Klíčem k úspěchu vLLM je, že poskytuje společnou platformu pro vývojáře modelů, výrobce čipů a vývojáře aplikací, aniž by se museli vzájemně propojit; stačí se propojit pouze se sadou vLLM, aby bylo dosaženo maximální kompatibility mezi modely a hardwarem.
To také znamená, že vLLM se snaží vytvořit operační systém AI: umožnit všem modelům a hardwaru běžet na stejném univerzálním motoru pro inference.
Je inference stále obtížnější? Třífaktorový tlak: měřítko, hardware a inteligence agentů.
Současné výzvy v inferenci se neustále zvyšují, včetně:
Nárůst měřítka modelu: od počátečních desítek miliard parametrů až po dnešní bilionové modely, požadavky na výpočetní zdroje pro inference také exponenciálně narostly.
Model a rozmanitost hardwaru: Ačkoli je architektura Transformer konzistentní, vnitřní detaily se stále více rozcházejí, jako jsou různé varianty jako sparse attention, linear attention a další.
Vzestup agentních systémů: Modely již nejsou pouze pro odpovídání na jednotlivé dotazy, ale účastní se kontinuálních dialogů, volání externích nástrojů, provádění Python skriptů atd., přičemž inference vrstva musí udržovat stav po dlouhou dobu a zpracovávat asynchronní vstupy, což dále zvyšuje technické požadavky.
Přechod do praxe: případy masového nasazení vLLM
vLLM není jen akademickou hračkou, je již nasazeno na velkých platformách jako Amazon, LinkedIn, Character AI atd. Například inteligentní asistent Amazonu „Rufus“ je poháněn vLLM a stal se motorem inference za vyhledáváním při nakupování.
Dokonce i inženýři nasadili jednu z funkcí vLLM na stovkách GPU, ještě před tím, než byla v procesu vývoje, což ukazuje na vysokou míru důvěry v komunitě.
Společnost za vLLM: Role a vize Inferact
Aby podpořili další rozvoj vLLM, zakládající vývojáři vytvořili Inferact a získali podporu od různých investorů. Na rozdíl od běžných obchodních společností považuje Inferact open-source za svou primární úlohu, jeden ze zakladatelů Simon Mo uvedl: „Naše společnost existuje, abychom učinili vLLM globálním standardním motorem pro inference.“ Obchodní model Inferact se zaměřuje na údržbu a rozšíření ekosystému vLLM a zároveň poskytuje podnikové nasazení a podporu, čímž vytváří paralelní dráhu obchodu a open-source.
Inferact aktivně nabírá inženýry se zkušenostmi v oblasti ML infrastruktury, zejména ty, kteří se specializují na inference velkých modelů, distribuované systémy a oblasti hardware akcelerace. Pro vývojáře, kteří usilují o technické výzvy a hlubokou optimalizaci systémů, je to příležitost zapojit se do budování další generace AI infrastruktury.
Tým doufá, že vybuduje „abstraktní vrstvu“, podobnou operačnímu systému nebo databázi, která umožní AI modelům bezproblémově fungovat na různorodém hardwaru a v aplikačních scénářích.
Tento článek buduje univerzální inference vrstvu AI! Jak se open-source projekt vLLM stal ambiciózním plánem pro globální inference motor? První se objevil v řetězových novinách ABMedia.