
Seiring dengan evolusi cepat model AI, bagaimana cara melakukan inferensi (Inference) yang efisien terhadap model-model besar ini menjadi isu kunci yang tidak bisa dihindari oleh industri. Proyek sumber terbuka vLLM dari UC Berkeley tidak hanya menghadapi tantangan teknis ini dengan berani, tetapi juga secara bertahap membangun komunitas dan ekosistemnya sendiri, bahkan melahirkan perusahaan rintisan Inferact yang fokus pada infrastruktur inferensi. Artikel ini akan membawa Anda mendalami asal-usul vLLM, terobosan teknis, perkembangan komunitas sumber terbuka, dan bagaimana Inferact ingin membangun "mesin inferensi AI yang universal."
Dari eksperimen akademik hingga proyek bintang GitHub: Kelahiran vLLM.
vLLM awalnya berasal dari proyek penelitian program doktor di UC Berkeley, bertujuan untuk mengatasi masalah efisiensi inferensi model bahasa besar (LLM). Saat itu, Meta merilis model OPT, salah satu kontributor awal vLLM, Woosuk Kwon, berusaha untuk mengoptimalkan layanan Demo dari model tersebut, dan kemudian menemukan bahwa di baliknya ada tantangan sistem inferensi yang belum terpecahkan. "Kami pikir kami bisa menyelesaikannya dalam beberapa minggu, tetapi ternyata membuka jalan penelitian dan pengembangan yang sepenuhnya baru," kata Kwon mengenang.
Tantangan dari bawah ke atas: Mengapa inferensi LLM berbeda dari ML tradisional?
vLLM ditujukan untuk model bahasa auto-regresif, proses inferensinya dinamis, asinkron, dan tidak dapat diproses secara batch, sangat berbeda dari model citra atau suara tradisional. Panjang input model ini dapat bervariasi dari satu kalimat hingga ratusan halaman dokumen, penggunaan memori GPU harus disesuaikan dengan tepat, dan langkah perhitungan (penjadwalan tingkat token) serta pengelolaan memori (penanganan cache KV) juga menjadi sangat kompleks.
Salah satu terobosan teknis penting vLLM adalah "Page Attention", desain ini membantu sistem mengelola memori dengan lebih efektif, menghadapi permintaan yang beragam dan output urutan panjang.
Bukan hanya menulis kode: momen kunci dari kampus menuju komunitas sumber terbuka.
Tim vLLM mengadakan meetup sumber terbuka pertama mereka di Silicon Valley pada tahun 2023, awalnya mereka mengira hanya akan ada sekitar sepuluh orang yang hadir, tetapi jumlah pendaftar jauh melebihi ekspektasi, memenuhi venue, menjadi titik balik dalam perkembangan komunitas.
Sejak saat itu, komunitas vLLM tumbuh dengan cepat, kini telah memiliki lebih dari 50 kontributor tetap, dan telah mengumpulkan lebih dari 2,000 kontributor GitHub, menjadi salah satu proyek sumber terbuka yang tumbuh paling cepat saat ini, mendapatkan dukungan dari berbagai pihak seperti Meta, Red Hat, NVIDIA, AMD, AWS, Google, dan lainnya.
Berbagai kekuatan bersaing: Membangun "sistem operasi AI".
Salah satu kunci keberhasilan vLLM adalah bahwa ia telah membangun platform umum untuk pengembang model, produsen chip, dan pengembang aplikasi, sehingga mereka tidak perlu saling terhubung, cukup terhubung dengan satu set vLLM, dan dapat mencapai kompatibilitas maksimum antara model dan hardware.
Ini juga berarti bahwa vLLM sedang mencoba untuk menciptakan "sistem operasi AI": memungkinkan semua model dan semua hardware berjalan di mesin inferensi universal yang sama.
Apakah inferensi semakin sulit? Tiga tekanan dari skala, hardware, dan kecerdasan agen.
Tantangan inferensi saat ini terus meningkat, termasuk:
Skala model meningkat drastis: dari parameter awal yang mencapai puluhan miliar hingga model skala triliun saat ini, sumber daya komputasi yang diperlukan untuk inferensi juga melonjak.
Keanekaragaman Model dan Hardware: Meskipun arsitektur Transformer konsisten, detail internal semakin bervariasi, seperti perhatian sparse, perhatian linear, dan berbagai varian lainnya yang terus bermunculan.
Kebangkitan Sistem Agen: Model tidak lagi hanya menjawab satu putaran, tetapi berpartisipasi dalam percakapan berkelanjutan, memanggil alat eksternal, menjalankan skrip Python, dan sebagainya, lapisan inferensi perlu mempertahankan status dalam jangka waktu yang lama dan menangani input asinkron, semakin meningkatkan ambang teknis.
Masuk ke praktik: Kasus di mana vLLM diterapkan secara besar-besaran.
vLLM bukan sekadar mainan akademis, ia telah diluncurkan di platform besar seperti Amazon, LinkedIn, Character AI, dll. Misalnya, asisten cerdas Amazon "Rufus" didukung oleh vLLM, menjadi mesin inferensi di balik pencarian belanja.
Bahkan ada insinyur yang langsung menerapkan salah satu fitur vLLM yang masih dalam tahap pengembangan ke ratusan GPU, menunjukkan tingkat kepercayaan yang tinggi di kalangan komunitas.
Perusahaan di balik vLLM: Peran dan visi Inferact.
Untuk mendorong perkembangan lebih lanjut vLLM, para pengembang inti mendirikan Inferact, dan mendapatkan dukungan investasi dari berbagai pihak. Berbeda dengan perusahaan komersial biasa, Inferact memandang sumber terbuka sebagai tugas utama, salah satu pendirinya, Simon Mo, menyatakan: "Keberadaan perusahaan kami adalah untuk menjadikan vLLM sebagai mesin inferensi standar global." Model bisnis Inferact berfokus pada pemeliharaan dan pengembangan ekosistem vLLM, sekaligus menyediakan penyebaran dan dukungan tingkat perusahaan, membentuk jalur ganda antara bisnis dan sumber terbuka.
Inferact secara aktif merekrut insinyur dengan pengalaman infrastruktur ML, terutama mereka yang ahli dalam inferensi model besar, sistem terdistribusi, dan bidang akselerasi hardware. Bagi pengembang yang mencari tantangan teknis dan optimisasi sistem mendalam, ini adalah kesempatan untuk berpartisipasi dalam infrastruktur AI generasi berikutnya.
Tim berharap untuk membangun sesuatu yang mirip dengan "lapisan abstraksi" seperti OS atau database, memungkinkan model AI beroperasi tanpa hambatan pada berbagai hardware dan skenario aplikasi.
Artikel ini membahas tentang membangun lapisan inferensi AI universal! Bagaimana proyek sumber terbuka vLLM menjadi rencana ambisius untuk menjadi mesin inferensi global? Pertama kali muncul di Berita Rantai ABMedia.

