Với sự tiến triển nhanh chóng của các mô hình AI, việc suy luận hiệu quả (Inference) cho các mô hình lớn này đã trở thành một vấn đề then chốt không thể tránh khỏi trong ngành. Dự án mã nguồn mở vLLM từ UC Berkeley không chỉ thách thức công nghệ này mà còn từng bước xây dựng cộng đồng và hệ sinh thái của riêng mình, thậm chí đã thúc đẩy sự ra đời của công ty khởi nghiệp Inferact chuyên về cơ sở hạ tầng suy luận. Bài viết này sẽ đưa bạn vào tìm hiểu nguồn gốc, bước đột phá công nghệ, sự phát triển của cộng đồng mã nguồn mở vLLM, cũng như cách Inferact muốn tạo ra "động cơ suy luận AI phổ quát".

Từ thí nghiệm học thuật đến dự án ngôi sao GitHub: sự ra đời của vLLM

vLLM ban đầu xuất phát từ một dự án nghiên cứu tiến sĩ tại UC Berkeley, nhằm giải quyết vấn đề hiệu suất suy luận của các mô hình ngôn ngữ lớn (LLM). Khi đó, Meta đã mở mã nguồn mô hình OPT, một trong những người đóng góp sớm cho vLLM, Woosuk Kwon, đã cố gắng tối ưu hóa dịch vụ Demo của mô hình, và phát hiện rằng có một vấn đề hệ thống suy luận vẫn chưa được giải quyết. "Chúng tôi nghĩ rằng chỉ cần vài tuần là có thể hoàn thành, nhưng kết quả lại mở ra một con đường nghiên cứu và phát triển hoàn toàn mới." Kwon nhớ lại.

Thách thức từ dưới lên: Tại sao suy luận LLM lại khác với ML truyền thống?

vLLM nhắm vào các mô hình ngôn ngữ tự hồi quy (auto-regressive), quá trình suy luận của nó động, không đồng bộ, không thể xử lý theo lô, hoàn toàn khác với các mô hình hình ảnh hoặc giọng nói truyền thống. Độ dài đầu vào của mô hình này có thể từ một câu đến hàng trăm trang tài liệu, việc sử dụng bộ nhớ GPU cần được điều chỉnh chính xác, trong khi các bước tính toán (token-level scheduling) và quản lý bộ nhớ (KV cache handling) cũng trở nên phức tạp hơn.

Một bước đột phá công nghệ quan trọng của vLLM là "Page Attention", thiết kế này giúp hệ thống quản lý bộ nhớ hiệu quả hơn, xử lý các yêu cầu đa dạng và đầu ra chuỗi dài.

Không chỉ là viết mã: thời điểm then chốt từ khuôn viên trường đến cộng đồng mã nguồn mở

Đội ngũ vLLM đã tổ chức buổi meetup mã nguồn mở lần đầu tiên vào năm 2023 tại Silicon Valley, ban đầu nghĩ rằng chỉ có khoảng mười người tham gia, nhưng số lượng đăng ký vượt xa mong đợi, làm cho khán phòng đông kín, trở thành bước ngoặt trong sự phát triển của cộng đồng.

Sau đó, cộng đồng vLLM đã phát triển nhanh chóng, hiện đã có hơn 50 nhà đóng góp thường xuyên, và tích lũy hơn 2,000 nhà đóng góp trên GitHub, là một trong những dự án mã nguồn mở phát triển nhanh nhất hiện nay, nhận được sự hỗ trợ từ nhiều bên như Meta, Red Hat, NVIDIA, AMD, AWS, Google.

Nhiều lực lượng cạnh tranh cùng tham gia: xây dựng "hệ điều hành AI"

Một trong những yếu tố thành công của vLLM là nó đã tạo ra một nền tảng chung cho các nhà phát triển mô hình, nhà sản xuất chip và nhà phát triển ứng dụng, không cần kết nối lẫn nhau, chỉ cần kết nối với một bộ vLLM, có thể đạt được sự tương thích tối đa giữa mô hình và phần cứng.

Điều này cũng có nghĩa là vLLM đang cố gắng tạo ra một "hệ điều hành AI": cho phép tất cả các mô hình, tất cả phần cứng có thể chạy trên cùng một động cơ suy luận phổ quát.

Suy luận ngày càng trở nên khó khăn? Áp lực ba chiều từ quy mô, phần cứng và trí tuệ đại diện

Những thách thức suy luận hiện nay liên tục gia tăng, bao gồm:

  1. Quy mô mô hình tăng vọt: từ ban đầu với hàng chục tỷ tham số đến các mô hình quy mô triệu như Kim K2, tài nguyên tính toán cần thiết cho suy luận cũng tăng theo.

  2. Mô hình và đa dạng vật lý: Mặc dù kiến trúc Transformer là nhất quán, nhưng các chi tiết bên trong ngày càng khác biệt, như sparse attention, linear attention và nhiều biến thể khác xuất hiện không ngừng.

  3. Sự trỗi dậy của hệ thống đại diện (Agents): Mô hình không còn chỉ là trả lời một lượt, mà tham gia vào các cuộc đối thoại liên tục, gọi các công cụ bên ngoài, thực thi các script Python, v.v., lớp suy luận cần duy trì trạng thái trong thời gian dài, xử lý đầu vào không đồng bộ, nâng cao thêm rào cản kỹ thuật.

Bước vào thực chiến: các trường hợp vLLM được triển khai quy mô lớn

vLLM không chỉ là một món đồ chơi học thuật, mà nó đã được triển khai trên các nền tảng lớn như Amazon, LinkedIn, Character AI. Ví dụ, trợ lý thông minh "Rufus" của Amazon được điều khiển bởi vLLM, trở thành động cơ suy luận đứng sau tìm kiếm mua sắm.

Ngay cả khi một kỹ sư đã triển khai một tính năng của vLLM khi nó còn đang trong giai đoạn phát triển lên đến hàng trăm GPU, cho thấy độ tin cậy của nó trong cộng đồng cao như thế nào.

Công ty đứng sau vLLM: Vai trò và tầm nhìn của Inferact

Để thúc đẩy sự phát triển hơn nữa của vLLM, các nhà phát triển cốt lõi đã thành lập Inferact và nhận được sự hỗ trợ đầu tư từ nhiều bên. Khác với các công ty thương mại thông thường, Inferact coi mã nguồn mở là nhiệm vụ hàng đầu, một trong những người sáng lập Simon Mo cho biết: "Công ty chúng tôi tồn tại để biến vLLM thành động cơ suy luận tiêu chuẩn toàn cầu." Mô hình kinh doanh của Inferact xoay quanh việc duy trì và mở rộng hệ sinh thái vLLM, đồng thời cung cấp triển khai và hỗ trợ cấp doanh nghiệp, hình thành song song giữa thương mại và mã nguồn mở.

Inferact đang tích cực tuyển dụng kỹ sư có kinh nghiệm về cơ sở hạ tầng ML, đặc biệt là những người giỏi trong suy luận mô hình lớn, hệ thống phân tán và lĩnh vực tăng tốc phần cứng. Đối với các nhà phát triển đang tìm kiếm thách thức kỹ thuật và tối ưu hóa hệ thống sâu, đây là một cơ hội tham gia vào cơ sở hạ tầng AI thế hệ tiếp theo.

Đội ngũ mong muốn tạo ra một "tầng trừu tượng" tương tự như hệ điều hành hoặc cơ sở dữ liệu, cho phép các mô hình AI hoạt động liền mạch trên nhiều loại phần cứng và bối cảnh ứng dụng.

Bài viết này xây dựng một tầng suy luận AI phổ quát! Dự án mã nguồn mở vLLM đã trở thành kế hoạch đầy tham vọng để trở thành động cơ suy luận toàn cầu? Xuất hiện lần đầu tiên trên Chain News ABMedia.