Odată cu evoluția rapidă a modelelor AI, cum să inferăm eficient aceste modele mari devine o problemă crucială pe care industria nu o poate evita. Proiectul open-source vLLM de la UC Berkeley nu doar că se confruntă cu această provocare tehnologică, ci își construiește treptat propria comunitate și ecosistem, chiar dând naștere unor companii start-up precum Inferact, care se concentrează pe infrastructura de inferență. Acest articol te va duce în profunzimea originilor vLLM, a rupțiilor tehnologice, a dezvoltării comunității open-source și a modului în care Inferact dorește să creeze un „motor universal de inferență AI”.

De la experimente academice la proiecte vedetă pe GitHub: Nașterea vLLM

vLLM a avut la origine un proiect de cercetare de doctorat la UC Berkeley, destinat să rezolve problemele de eficiență a inferenței modelelor de limbaj mari (LLM). La acea vreme, Meta a deschis modelul OPT, iar unul dintre primii contribuitori ai vLLM, Woosuk Kwon, a încercat să optimizeze serviciul demo al acelui model, descoperind că în spate exista o problemă nerezolvată de sistem de inferență. „Am crezut că putem termina în câteva săptămâni, dar în realitate am deschis o nouă cale de cercetare și dezvoltare.”, își amintește Kwon.

Provocarea de jos în sus: De ce inferența LLM este diferită de ML-ul tradițional?

vLLM se concentrează pe modele de limbaj auto-regresive (auto-regressive), iar procesul său de inferență este dinamic, asincron și nu poate fi procesat în loturi, fiind foarte diferit de modelele tradiționale de imagine sau de voce. Lungimea intrării pentru aceste modele poate varia de la o propoziție la sute de pagini de documente, utilizarea memoriei GPU trebuie să fie ajustată cu precizie, iar pașii de calcul (programarea la nivel de token) și gestionarea memoriei (gestionarea cache-ului KV) devin deosebit de complexe.

O rupere tehnologică importantă a vLLM este „Atenția pe Pagini”, acest design ajutând sistemul să gestioneze mai eficient memoria, făcând față cererilor diversificate și ieșirilor de lungă secvență.

Nu doar scriere de cod: Momentul cheie al tranziției de la campus la comunitatea open-source

Echipa vLLM a organizat în 2023 prima întâlnire open-source în Silicon Valley, crezând că vor participa doar câteva zeci de oameni, dar numărul de înscrieri a depășit așteptările, umplând sala, devenind un punct de cotitură în dezvoltarea comunității.

După aceea, comunitatea vLLM a crescut rapid, având acum peste 50 de contribuabili permanenți și acumulând mai mult de 2.000 de contribuabili pe GitHub, fiind unul dintre cele mai rapid crescătoare proiecte open-source din ziua de azi, beneficiind de suport din partea Meta, Red Hat, NVIDIA, AMD, AWS, Google și altele.

Mai multe forțe concurente: Crearea „sistemului de operare AI”

Unul dintre factorii cheie ai succesului vLLM este că acesta a creat o platformă comună pentru dezvoltatorii de modele, producătorii de cipuri și dezvoltatorii de aplicații, astfel încât nu trebuie să se conecteze unul la altul, ci doar la vLLM pentru a obține cea mai mare compatibilitate între model și hardware.

Aceasta înseamnă că vLLM încearcă să construiască un „sistem de operare AI”: să permită tuturor modelelor și hardware-ului să ruleze pe același motor de inferență universal.

Inferența devine din ce în ce mai dificilă? Tensiunea triplă a scalei, hardware-ului și inteligenței agenților

Provocările inferenței de astăzi sunt în continuă creștere, inclusiv:

  1. Creșterea masivă a dimensiunii modelului: De la parametrii inițiali de 10 miliarde la modelele de azi de ordinul trilionilor, resursele de calcul necesare pentru inferență au crescut de asemenea.

  2. Diversitatea modelului și hardware-ului: Deși arhitectura Transformer este consistentă, detaliile interne devin din ce în ce mai divergente, cu straturi variate precum atenția rară, atenția liniară și altele.

  3. Răspunsul sistemelor (Agents) în creștere: Modelele nu mai răspund doar o dată, ci participă la conversații continue, apelează la instrumente externe, execută scripturi Python etc., stratul de inferență trebuie să mențină starea pe termen lung și să gestioneze intrările asincrone, ridicând astfel ștacheta tehnică.

Intrarea în practică: Exemple de desfășurare pe scară largă a vLLM

vLLM nu este doar un jucărie academică, ci a fost lansat pe platforme mari precum Amazon, LinkedIn, Character AI etc. De exemplu, asistentul inteligent „Rufus” de la Amazon este alimentat de vLLM, devenind motorul de inferență din spatele căutărilor de cumpărare.

Chiar și inginerii au desfășurat direct una dintre funcțiile vLLM pe sute de GPU-uri, chiar înainte ca aceasta să fie complet dezvoltată, demonstrând astfel încrederea ridicată în comunitate.

Compania din spatele vLLM: Rolul și viziunea Inferact

Pentru a impulsiona dezvoltarea ulterioară a vLLM, dezvoltatorii de bază au fondat Inferact și au obținut sprijin financiar din diverse surse. Spre deosebire de companiile comerciale obișnuite, Inferact consideră open-source ca fiind prioritatea principală, unul dintre fondatori, Simon Mo, afirmând: „Compania noastră există pentru a face din vLLM motorul de inferență standard la nivel mondial.” Modelul de afaceri al Inferact se concentrează pe menținerea și extinderea ecosistemului vLLM, oferind în același timp implementări și suport la nivel de întreprindere, formând o paralelă între afaceri și open-source.

Inferact recrutează activ ingineri cu experiență în infrastructura ML, în special talente specializate în inferența modelelor mari, sisteme distribuite și domeniul accelerării hardware-ului. Pentru dezvoltatorii care caută provocări tehnice și optimizări profunde ale sistemului, aceasta este o oportunitate de a participa la infrastructura AI de generație următoare.

Echipa își propune să construiască un „strat abstract” similar cu un sistem de operare sau o bază de date, astfel încât modelele AI să poată rula fără probleme pe hardware și aplicații diverse.

Acest articol construiește un strat universal de inferență AI! Cum a devenit proiectul open-source vLLM un plan ambițios pentru motorul global de inferență? Apărut pentru prima dată în știrile lanțului ABMedia.