Schaffung einer universellen Inferenzschicht für KI! Wie das Open-Source-Projekt vLLM zu einem globalen Inferenz-Engine-Ambitionsprojekt wird?

Mit der schnellen Entwicklung von KI-Modellen ist es zu einer zentralen Herausforderung in der Branche geworden, diese großen Modelle effizient zu inferieren. Das Open-Source-Projekt vLLM von der UC Berkeley stellt sich nicht nur dieser technischen Herausforderung, sondern baut schrittweise seine eigene Gemeinschaft und Ökosystem auf und hat sogar ein Startup, Inferact, gegründet, das sich auf Infrastruktur für Inferenz konzentriert. Dieser Artikel führt Sie in die Ursprünge, technischen Durchbrüche und die Entwicklung der Open-Source-Community von vLLM ein und erläutert, wie Inferact eine „universelle Engine für KI-Inferenz“ schaffen möchte.
Von akademischen Experimenten zum GitHub-Starprojekt: Die Geburt von vLLM.
vLLM stammt ursprünglich aus einem Doktorandenforschungsprojekt an der UC Berkeley, das darauf abzielte, die niedrige Effizienz der Inferenz großer Sprachmodelle (LLM) zu lösen. Zu dieser Zeit öffnete Meta das OPT-Modell, und einer der frühen Mitwirkenden von vLLM, Woosuk Kwon, versuchte, den Demo-Service dieses Modells zu optimieren, und entdeckte dabei ein bisher ungelöstes Problem im Inferenzsystem. „Wir dachten, wir könnten es in ein paar Wochen abschließen, aber es öffnete einen ganz neuen Weg in Forschung und Entwicklung“, erinnert sich Kwon.
Herausforderungen von unten nach oben: Warum ist die LLM-Inferenz anders als traditionelle ML?
vLLM richtet sich an auto-regressive Sprachmodelle, deren Inferenzprozess dynamisch, asynchron und nicht batchfähig ist, was sich stark von traditionellen Bild- oder Sprachmodellen unterscheidet. Die Eingabelängen dieser Modelle können von einem Satz bis zu Hunderten von Seiten Dokumenten reichen, und die Nutzung des GPU-Speichers muss präzise abgestimmt werden, während die Berechnungsschritte (Token-Level-Scheduling) und das Speichermanagement (KV-Cache-Verwaltung) besonders komplex werden.
Ein wichtiger technischer Durchbruch von vLLM ist das „Page Attention“. Dieses Design hilft dem System, den Speicher effizienter zu verwalten und mit vielfältigen Anforderungen und langen Sequenzausgaben umzugehen.
Nicht nur Programmieren: Der entscheidende Moment auf dem Weg von der Hochschule zur Open-Source-Community.
Das vLLM-Team veranstaltete 2023 in Silicon Valley das erste Open-Source-Meetup. Man dachte, es würden nur ein paar Leute teilnehmen, aber die Anmeldungen übertrafen die Erwartungen und füllten den Veranstaltungsort, was einen Wendepunkt in der Entwicklung der Community darstellte.
Seitdem wächst die vLLM-Community schnell und hat mittlerweile über 50 reguläre Mitwirkende und mehr als 2.000 GitHub-Mitwirkende, was es zu einem der am schnellsten wachsenden Open-Source-Projekte der heutigen Zeit macht, unterstützt von Unternehmen wie Meta, Red Hat, NVIDIA, AMD, AWS, Google und vielen anderen.
Verschiedene Kräfte im Wettbewerb: Entwicklung eines „Betriebssystems für KI“.
Einer der Schlüssel zum Erfolg von vLLM liegt darin, dass es eine gemeinsame Plattform für Modellentwickler, Chiphersteller und Anwendungsentwickler schafft, die nicht miteinander verbunden sein müssen, sondern nur mit einer einzigen vLLM-Schnittstelle arbeiten, um maximale Kompatibilität von Modellen und Hardware zu erreichen.
Das bedeutet auch, dass vLLM versucht, eine Art „Betriebssystem für KI“ zu schaffen: Damit alle Modelle und alle Hardware auf derselben universellen Inferenz-Engine laufen können.
Wird Inferenz immer schwieriger? Der dreifache Druck von Größe, Hardware und Agentenintelligenz.
Die heutigen Inferenzherausforderungen nehmen ständig zu und umfassen:
Modellgröße explodiert: Von anfänglichen Hunderten von Millionen Parametern zu heutigen Billionen-Modellen wie Kim K2, steigen auch die benötigten Rechenressourcen für die Inferenz an.
Modell- und Hardwarevielfalt: Obwohl die Transformer-Architektur konsistent ist, divergenzieren die internen Details zunehmend, mit immer neuen Varianten wie Sparse Attention und Linear Attention.
Aufstieg der Agentensysteme: Modelle beantworten nicht mehr nur eine Runde, sondern beteiligen sich an fortlaufenden Gesprächen, rufen externe Tools auf, führen Python-Skripte aus usw. Die Inferenzschicht muss den Zustand über längere Zeit aufrechterhalten und asynchrone Eingaben verarbeiten, was die technischen Anforderungen weiter erhöht.
In die Praxis eintauchen: Fallstudien zur massiven Bereitstellung von vLLM.
vLLM ist kein akademisches Spielzeug; es ist bereits auf großen Plattformen wie Amazon, LinkedIn und Character AI online. Zum Beispiel wird der intelligente Assistent „Rufus“ von Amazon von vLLM betrieben und ist die Inferenz-Engine hinter der Produktsuche.
Sogar Ingenieure haben eine Funktion von vLLM, die sich noch in der Entwicklungsphase befindet, direkt auf Hunderte von GPUs bereitgestellt, was die hohe Vertrauenswürdigkeit innerhalb der Community zeigt.
Das Unternehmen hinter vLLM: Die Rolle und Vision von Inferact.
Um die weitere Entwicklung von vLLM voranzutreiben, gründeten die Hauptentwickler Inferact und erhielten Unterstützung von mehreren Investoren. Im Unterschied zu normalen Unternehmen sieht Inferact Open Source als oberste Priorität. Einer der Gründer, Simon Mo, erklärte: „Unser Unternehmen existiert, um vLLM zum globalen Standardinferenz-Engine zu machen.“ Das Geschäftsmodell von Inferact konzentriert sich auf die Wartung und Erweiterung des vLLM-Ökosystems und bietet gleichzeitig Unternehmenslösungen und -unterstützung an, wodurch eine parallele Entwicklung von Geschäft und Open Source entsteht.
Inferact rekrutiert aktiv Ingenieure mit Erfahrung in der ML-Infrastruktur, insbesondere Talente, die sich mit der Inferenz großer Modelle, verteilten Systemen und Hardwarebeschleunigung auskennen. Für Entwickler, die technische Herausforderungen und tiefgreifende Systemoptimierung anstreben, ist dies eine Gelegenheit, an der nächsten Generation der KI-Infrastruktur teilzuhaben.
Das Team hofft, eine „Abstraktionsschicht“ ähnlich wie ein Betriebssystem oder eine Datenbank zu schaffen, die es KI-Modellen ermöglicht, nahtlos in vielfältigen Hardware- und Anwendungsszenarien zu laufen.
Dieser Artikel erstellt eine universelle Inferenzschicht für KI! Wie das Open-Source-Projekt vLLM zu einem globalen Inferenz-Engine-Ambitionsprojekt wird. Zuerst erschienen in der Chain News ABMedia.