Izveido AI vispārējo inferences slāni! vLLM atvērtais projekts kā kļūst par globālo inferences dzinēju ambiciozo plānu?

Ātri attīstoties AI modeļiem, efektīvas inferences (Inference) nodrošināšana šiem lielajiem modeļiem kļūst par nozari neizbēgamu jautājumu. UC Berkeley atvērtais projekts vLLM ne tikai saskaras ar šo tehnoloģisko izaicinājumu, bet arī pakāpeniski izveido savu kopienu un ekosistēmu, pat radot jaunuzņēmumu Inferact, kas koncentrējas uz inferences infrastruktūru. Šis raksts iepazīstinās jūs ar vLLM izcelsmi, tehniskajiem sasniegumiem, atvērtās kopienas attīstību un to, kā Inferact vēlas izveidot "AI inferences vispārējo dzinēju."
No akadēmiskajiem ekspertiem līdz GitHub zvaigznēm: vLLM dzimšana
vLLM sākotnēji radās UC Berkeley doktora programmas projektā, kas mērķēja risināt lielo valodas modeļu (LLM) inferences efektivitātes problēmu. Tolaik Meta atvēra OPT modeli, un viens no vLLM agrīnajiem līdzgaitniekiem Woosuk Kwon centās optimizēt šī modeļa Demo pakalpojumu, atklājot, ka aiz tā ir neskaidrs inferences sistēmas izaicinājums. "Mēs domājām, ka varēsim pabeigt dažu nedēļu laikā, bet tas atklāja jaunu pētniecības un attīstības ceļu," atceras Kwon.
Apakšā esošie izaicinājumi: kāpēc LLM inferences atšķiras no tradicionālā ML?
vLLM ir vērsta uz auto-regresīvām (auto-regressive) valodas modeļiem, kuru inferences process ir dinamiskas, asinkronas un nav iespējams veikt partijas apstrādi, kas atšķiras no tradicionālajiem attēlu vai balss modeļiem. Šo modeļu ievades garums var svārstīties no viena teikuma līdz simtiem lapu dokumentu, GPU atmiņas izmantošanai ir jābūt precīzi regulētai, un aprēķinu soļi (token-level scheduling) un atmiņas pārvaldība (KV cache handling) kļūst ārkārtīgi sarežģīti.
vLLM būtiska tehnoloģiskā sasnieguma ir "Page Attention", šis dizains palīdz sistēmai efektīvāk pārvaldīt atmiņu, reaģējot uz dažādām pieprasījumiem un garām secīgām izvadei.
Ne tikai programmēšana: no universitātes uz atvērtās kopienas izšķirošais brīdis
vLLM komanda 2023. gadā Silīcija ielejā rīkoja pirmo atvērtā koda meetup, domājot, ka ieradīsies tikai desmitiem cilvēku, bet rezultāts bija daudz lielāks nekā gaidīts, sasniedzot pilnu zāli, kas kļuva par pagrieziena punktu kopienas attīstībā.
Pēc tam vLLM kopiena strauji augusi, šobrīd ir vairāk nekā 50 regulāro līdzgaitnieku un vairāk nekā 2000 GitHub līdzgaitnieku, kas padara to par vienu no straujāk augošajiem atvērtajiem projektiem mūsdienās, saņemot atbalstu no Meta, Red Hat, NVIDIA, AMD, AWS, Google un citiem.
Dažādas spēka grupas sacenšas: izveidot "AI operāciju sistēmu"
vLLM panākumu atslēga ir tā, ka tā nodrošina kopēju platformu modeļu izstrādātājiem, mikroshēmu ražotājiem un lietojumprogrammu izstrādātājiem, kas ļauj savienot tikai ar vLLM, lai nodrošinātu maksimālu saderību starp modeļiem un aparatūru.
Tas arī nozīmē, ka vLLM cenšas izveidot "AI operāciju sistēmu": ļaut visiem modeļiem un visām aparatūrām darboties vienā vispārējā inferences dzinējā.
Vai inferences kļūst arvien grūtākas? Trīskāršais spiediens no mēroga, aparatūras un aģentu inteliģences
Mūsdienu inferences izaicinājumi nepārtraukti pieaug, tostarp:
Modeļu apjoms ir pieaudzis: no sākotnējiem simtiem miljardu parametru līdz mūsdienu triljonu modeļiem, kas palielina nepieciešamās aprēķinu resursus.
Modeļu un aparatūras daudzveidība: Transformer arhitektūra ir konsekventa, taču iekšējās detaļas kļūst arvien atšķirīgākas, piemēram, retā uzmanība, lineārā uzmanība un citi varianti piedāvā arvien jaunus slāņus.
Aģentu sistēmu (Agents) uzplaukums: modeļi vairs nav tikai atbildes uz vienu jautājumu, bet gan piedalās nepārtrauktā sarunā, izsauc ārējus rīkus, izpilda Python skriptus utt., un inferences slānim ir jāuztur stāvoklis ilgstoši, apstrādājot asinkronos ievadus, kas vēl vairāk paaugstina tehniskos standartus.
Ienākšana praksē: vLLM ir lielā mērā ieviešams gadījums
vLLM nav tikai akadēmisks rīks, tas jau ir ieviests tādās lielās platformās kā Amazon, LinkedIn, Character AI utt. Piemēram, Amazon inteliģentais asistents "Rufus" tiek darbināts ar vLLM, kļūstot par iepirkumu meklēšanas aizmugurē esošo inferences dzinēju.
Pat inženieris ir ievietojis vLLM funkciju, kas vēl ir izstrādes stadijā, tieši vairāk nekā simts GPU, kas liecina par augstu uzticību kopienā.
Uzņēmums aiz vLLM: Inferact loma un redzējums
Lai veicinātu vLLM tālāk attīstību, kodolizstrādātāji izveidoja Inferact un saņēma daudzveidīgu investīciju atbalstu. Atšķirībā no parastām komercsabiedrībām, Inferact uzskata atvērtību par prioritāti, viens no dibinātājiem Simon Mo izteicas: "Mūsu uzņēmuma mērķis ir padarīt vLLM par globālo standarta inferences dzinēju." Inferact biznesa modelis ir centrēts uz vLLM ekosistēmas uzturēšanu un paplašināšanu, vienlaikus piedāvājot uzņēmuma līmeņa izvietojumu un atbalstu, veidojot komerciālo un atvērtā koda paralēlo ceļu.
Inferact aktīvi meklē inženierus ar ML infrastruktūras pieredzi, īpaši tos, kuri ir labi pārvaldījuši lielo modeļu inferenci, izkliedētu sistēmu un aparatūras paātrināšanas joma. Šis ir lielisks iespēja tiem izstrādātājiem, kuri meklē tehniskus izaicinājumus un dziļas sistēmas optimizācijas iespējas, lai piedalītos nākamās paaudzes AI infrastruktūrā.
Komanda cer izveidot līdzīgu OS vai datu bāzes "abstrakto slāni", lai AI modeļi varētu bezšuvīgi darboties dažādās aparatūrās un lietojumprogrammu scenārijos.
Šis raksts izveido AI vispārējo inferences slāni! vLLM atvērtais projekts kā kļūst par globālo inferences dzinēju ambiciozo plānu? Pirmoreiz parādījās ķēdes ziņās ABMedia.