
Wraz z szybkim rozwojem modeli AI, efektywna inferencja (Inference) tych dużych modeli stała się kluczowym zagadnieniem, z którym branża nie może się obejść. Projekt open source vLLM z UC Berkeley nie tylko stawia czoła tym wyzwaniom technologicznym, ale także stopniowo buduje własną społeczność i ekosystem, a nawet rodzi nowe firmy startowe koncentrujące się na podstawach infrastruktury inferencji, takie jak Inferact. Artykuł ten zabierze cię w głąb historii vLLM, przełomów technologicznych, rozwoju społeczności open source oraz tego, jak Inferact chce stworzyć „uniwersalny silnik inferencji AI”.
Od akademickiego eksperymentu do gwiazdy projektu GitHub: narodziny vLLM
vLLM pierwotnie powstało z programu doktoranckiego na UC Berkeley, mającego na celu rozwiązanie problemu niskiej efektywności inferencji dużych modeli językowych (LLM). Wtedy Meta udostępniła model OPT, a jeden z wczesnych kontrybutorów vLLM, Woosuk Kwon, próbował zoptymalizować usługę Demo tego modelu, odkrywając, że za tym kryje się nierozwiązany problem systemu inferencji. „Myśleliśmy, że zajmie to tylko kilka tygodni, a to otworzyło zupełnie nową drogę badań i rozwoju.”, wspomina Kwon.
Wyzwania od dołu do góry: Dlaczego inferencja LLM jest inna niż tradycyjne ML?
vLLM dotyczy autoregresywnych (auto-regressive) modeli językowych, których proces inferencji jest dynamiczny, asynchroniczny i nie może być przetwarzany w partiach, co znacznie różni się od tradycyjnych modeli obrazowych czy dźwiękowych. Długość wejścia tych modeli może wynosić od jednego zdania do setek stron dokumentów, a użycie pamięci GPU musi być precyzyjnie dostosowane, a kroki obliczeniowe (token-level scheduling) i zarządzanie pamięcią (KV cache handling) stają się szczególnie złożone.
Jednym z ważnych przełomów technologicznych vLLM jest „Page Attention”, ten projekt pomaga systemowi skuteczniej zarządzać pamięcią w odpowiedzi na różnorodne żądania i długie sekwencje wyjściowe.
Nie tylko programowanie: Kluczowy moment przejścia z kampusu do społeczności open source
Zespół vLLM zorganizował pierwsze spotkanie open source w Dolinie Krzemowej w 2023 roku, początkowo myśląc, że weźmie w nim udział tylko kilkanaście osób, jednak liczba zgłoszeń znacznie przekroczyła oczekiwania i sala była przepełniona, co stało się punktem zwrotnym w rozwoju społeczności.
Od tego czasu społeczność vLLM szybko rośnie, obecnie liczy ponad 50 stałych współpracowników i zgromadziła ponad 2,000 kontrybutorów na GitHubie, co czyni ją jednym z najszybciej rozwijających się projektów open source, wspieranym przez Meta, Red Hat, NVIDIA, AMD, AWS, Google i inne.
Wielu graczy na jednym polu: budowanie „systemu operacyjnego AI”
Jednym z kluczowych czynników sukcesu vLLM jest to, że stworzyło wspólną platformę dla deweloperów modeli, producentów chipów i deweloperów aplikacji, co pozwala na maksymalną kompatybilność modeli i sprzętu bez potrzeby wzajemnego połączenia.
Oznacza to również, że vLLM stara się stworzyć „system operacyjny AI”: aby wszystkie modele i sprzęt mogły działać na tym samym uniwersalnym silniku inferencji.
Inferencja staje się coraz trudniejsza? Trzy poziomy presji: skala, sprzęt i inteligencja agentów
Współczesne wyzwania inferencyjne nieustannie rosną, w tym:
Ogromny wzrost skali modeli: od początkowych dziesiątek miliardów parametrów do dzisiejszych modeli na poziomie bilionów, co również zwiększa wymagania dotyczące zasobów obliczeniowych.
Różnorodność modeli i sprzętu: Chociaż architektura Transformer jest spójna, szczegóły wewnętrzne coraz bardziej się różnią, a takie warianty jak sparse attention, linear attention itd. pojawiają się jeden po drugim.
Wzrost systemów agentów: Modele nie są już tylko do odpowiadania na pojedyncze pytania, ale uczestniczą w ciągłych rozmowach, wywołują zewnętrzne narzędzia, wykonują skrypty Python itd., a warstwa inferencji musi długo utrzymywać stan i obsługiwać asynchroniczne wejścia, co podnosi próg techniczny.
Wchodząc w rzeczywistość: Przykłady dużej skali wdrożeń vLLM
vLLM to nie tylko akademicka zabawka, jest już uruchomiony na dużych platformach takich jak Amazon, LinkedIn, Character AI. Na przykład inteligentny asystent Amazonu „Rufus” jest napędzany przez vLLM, stając się silnikiem inferencji za wyszukiwaniem zakupów.
Niektórzy inżynierowie wdrożyli jedną z funkcji vLLM na setkach GPU, zanim jeszcze była w fazie rozwoju, co pokazuje, jak wysokie zaufanie mają w społeczności.
Firma stojąca za vLLM: Rola i wizja Inferact
Aby wspierać dalszy rozwój vLLM, główni deweloperzy założyli Inferact i uzyskali wsparcie inwestycyjne z różnych źródeł. W przeciwieństwie do typowych firm komercyjnych, Inferact traktuje open source jako priorytet, a jeden z założycieli, Simon Mo, stwierdził: „Nasza firma istnieje, aby uczynić vLLM globalnym standardem silnika inferencji.” Model biznesowy Inferact koncentruje się na utrzymaniu i rozwijaniu ekosystemu vLLM, jednocześnie oferując wsparcie i wdrożenia na poziomie przedsiębiorstw, tworząc równolegle ścieżki komercyjne i open source.
Inferact aktywnie rekrutuje inżynierów z doświadczeniem w infrastrukturze ML, szczególnie tych, którzy specjalizują się w inferencji dużych modeli, systemach rozproszonych i akceleracji sprzętowej. Dla deweloperów poszukujących wyzwań technicznych i głębokiej optymalizacji systemów, to szansa na udział w budowie następnej generacji infrastruktury AI.
Zespół ma nadzieję stworzyć „abstrakcyjny poziom” podobny do systemu operacyjnego lub bazy danych, aby modele AI mogły działać bezproblemowo na różnorodnym sprzęcie i w różnych scenariuszach aplikacyjnych.
Ten artykuł buduje uniwersalną warstwę inferencji AI! Jak projekt open source vLLM stał się ambitnym planem na globalny silnik inferencji? Pojawił się po raz pierwszy w Chain News ABMedia.

