Hay un nuevo líder en el mundo de los puntos de referencia de inteligencia artificial generativa y su nombre es Gemini 1.5 Pro.
El campeón anterior, ChatGPT-4o de OpenAI, fue finalmente superado el 1 de agosto cuando Google lanzó silenciosamente una versión experimental de su último modelo.
La última actualización de Gemini llegó sin fanfarrias y actualmente está etiquetada como experimental. Pero rápidamente ganó la atención de la comunidad de IA en las redes sociales cuando comenzaron a llegar informes de que estaba superando a sus rivales en puntuaciones de referencia.
Puntos de referencia de inteligencia artificial
ChatGPT de OpenAI ha sido el abanderado de la IA generativa desde el lanzamiento de GPT-3. Su último modelo, GPT-4o, y su competidor más cercano, el Claude-3 de Anthropic, han reinado por encima de la mayoría de los demás modelos en las pruebas más comunes durante el último año, con poca competencia.
Uno de los puntos de referencia más populares se llama LMSYS Chatbot Arena. Prueba modelos en una variedad de tareas y asigna una puntuación de competencia general. GPT-4o recibió una puntuación de 1286, mientras que Claude-3 obtuvo una respetable puntuación de 1271.
Una versión anterior de Gemini 1.5 Pro obtuvo una puntuación de 1261. Pero la versión experimental (Gemini 1.5 Pro 0801) lanzada el 1 de agosto obtuvo la friolera de 1.300.
Esto indica que, en general, es más capaz que sus competidores, pero los puntos de referencia no son necesariamente una representación precisa de lo que un modelo de IA puede y no puede hacer.
Emoción comunitaria
Sin comparaciones más profundas disponibles, estamos entrando en una era en la que el mercado de chatbots de IA ha madurado lo suficiente como para ofrecer múltiples opciones. En última instancia, depende de los usuarios finales determinar qué modelo de IA funciona mejor para ellos.
Como anécdota, ha habido una ola de entusiasmo por la última versión de Gemini y los usuarios en las redes sociales la calificaron de "increíblemente buena". Un Redditor llegó al extremo de escribir que “salta 4o fuera del agua”.
No está claro en este momento si la versión experimental de Gemini 1.5 Pro terminará siendo la predeterminada en el futuro. Si bien sigue estando disponible en general al momento de la publicación de este artículo, el hecho de que se encuentre en lo que se considera una fase de prueba o lanzamiento temprano indica que es posible que el modelo pueda rescindirse o cambiarse por razones de seguridad o alineación.
Relacionado: Google anuncia avances en seguridad y transparencia en modelos de IA