
Con la rápida evolución de los modelos de IA, cómo realizar inferencias de manera eficiente en estos grandes modelos se ha convertido en un tema clave que la industria no puede evitar. El proyecto de código abierto vLLM de UC Berkeley no solo enfrenta este desafío técnico, sino que también está construyendo gradualmente su propia comunidad y ecosistema, incluso dando lugar a nuevas empresas como Inferact, que se centra en la infraestructura de inferencia. Este artículo te llevará a profundizar en los orígenes de vLLM, los avances tecnológicos, el desarrollo de la comunidad de código abierto, y cómo Inferact quiere construir un 'motor de inferencia universal de IA'.
Desde experimentos académicos hasta proyectos estelares en GitHub: el nacimiento de vLLM
vLLM se originó inicialmente en un proyecto de investigación de doctorado de UC Berkeley, destinado a resolver el problema de la baja eficiencia de inferencia de los modelos de lenguaje grandes (LLM). En ese momento, Meta lanzó el modelo OPT, y uno de los primeros contribuyentes de vLLM, Woosuk Kwon, intentó optimizar el servicio de demostración de ese modelo, descubriendo que detrás había un desafío no resuelto en el sistema de inferencia. 'Pensamos que podríamos completarlo en unas pocas semanas, pero resultó abrir un nuevo camino de investigación y desarrollo', recordó Kwon.
Desafíos de abajo hacia arriba: ¿por qué la inferencia de LLM es diferente de la ML tradicional?
vLLM se dirige a modelos de lenguaje autorregresivos (auto-regressive), cuyo proceso de inferencia es dinámico, asíncrono y no puede manejarse por lotes, lo que es muy diferente de los modelos de imagen o voz tradicionales. La longitud de entrada de estos modelos puede variar desde una oración hasta cientos de páginas de documentos, el uso de memoria GPU debe ser ajustado con precisión, y los pasos de cálculo (programación a nivel de tokens) y la gestión de memoria (manejo de caché KV) se vuelven especialmente complejos.
Un importante avance tecnológico de vLLM es la 'Atención por Página', este diseño ayuda al sistema a gestionar la memoria de manera más efectiva, enfrentándose a solicitudes diversas y salidas de secuencias largas.
No solo escribir código: El momento clave al pasar del campus a la comunidad de código abierto
El equipo de vLLM organizó su primer meetup de código abierto en Silicon Valley en 2023, pensando que solo asistirían unas pocas personas, pero el número de inscripciones superó con creces las expectativas, llenando el lugar y convirtiéndose en un punto de inflexión en el desarrollo de la comunidad.
Desde entonces, la comunidad de vLLM ha crecido rápidamente, hoy cuenta con más de 50 contribuyentes regulares y más de 2,000 contribuyentes en GitHub, siendo uno de los proyectos de código abierto de más rápido crecimiento, recibiendo apoyo de Meta, Red Hat, NVIDIA, AMD, AWS, Google y otros.
Competencia de múltiples fuerzas: creando el 'sistema operativo de IA'
Una de las claves del éxito de vLLM es que ha establecido una plataforma común para desarrolladores de modelos, fabricantes de chips y desarrolladores de aplicaciones, sin necesidad de integraciones entre ellos; solo necesitan conectarse a un único conjunto de vLLM para lograr la máxima compatibilidad entre modelos y hardware.
Esto también significa que vLLM está intentando crear un 'sistema operativo de IA': para que todos los modelos y hardware puedan funcionar en el mismo motor de inferencia universal.
¿La inferencia se vuelve cada vez más difícil? La triple presión de la escala, hardware e inteligencia de agentes
Los desafíos de inferencia de hoy están en constante evolución, incluyendo:
Aumento explosivo en la escala del modelo: desde los primeros cientos de millones de parámetros hasta los modelos de billones de hoy, los recursos computacionales necesarios para la inferencia también han aumentado significativamente.
Diversidad de modelos y hardware: Aunque la arquitectura Transformer es consistente, los detalles internos se están volviendo cada vez más divergentes, como las variantes de atención dispersa, atención lineal, etc.
Auge de los sistemas de agentes: Los modelos ya no solo responden a una ronda, sino que participan en diálogos continuos, llaman a herramientas externas, ejecutan scripts de Python, etc., lo que requiere que la capa de inferencia mantenga el estado durante un largo tiempo y maneje entradas asíncronas, elevando aún más el umbral técnico.
Entrando en acción: casos de implementación a gran escala de vLLM
vLLM no es solo un juguete académico; ya está en línea en plataformas grandes como Amazon, LinkedIn, Character AI, etc. Por ejemplo, el asistente inteligente de Amazon 'Rufus' está impulsado por vLLM, convirtiéndose en el motor de inferencia detrás de la búsqueda de compras.
Incluso hay ingenieros que desplegaron una de las funciones de vLLM en fase de desarrollo directamente en cientos de GPUs, lo que demuestra la alta confianza en la comunidad.
La empresa detrás de vLLM: el papel y la visión de Inferact
Para impulsar el desarrollo adicional de vLLM, los desarrolladores principales fundaron Inferact y obtuvieron apoyo de múltiples inversiones. A diferencia de las empresas comerciales típicas, Inferact considera el código abierto como su tarea principal; uno de los fundadores, Simon Mo, expresó: 'Nuestra empresa existe para que vLLM se convierta en el motor de inferencia estándar global.' El modelo de negocio de Inferact gira en torno al mantenimiento y la expansión del ecosistema de vLLM, al tiempo que ofrece implementaciones y soporte a nivel empresarial, formando una vía paralela entre el negocio y el código abierto.
Inferact está activamente reclutando ingenieros con experiencia en infraestructura de ML, especialmente aquellos con habilidades en inferencia de grandes modelos, sistemas distribuidos y aceleración de hardware. Para los desarrolladores que buscan desafíos técnicos y optimización de sistemas profundos, esta es una oportunidad para participar en la próxima generación de infraestructura de IA.
El equipo espera crear una 'capa abstracta' similar a un sistema operativo o base de datos, permitiendo que los modelos de IA operen sin problemas en diversas hardware y escenarios de aplicación.
¡Este artículo crea la capa de inferencia universal de IA! ¿Cómo se convirtió el proyecto de código abierto vLLM en un ambicioso plan para ser el motor de inferencia global? Apareció por primera vez en Chain News ABMedia.

