En la reciente presentación de GPT-4, una de las características más destacadas fue su capacidad de entablar conversaciones enriquecidas con imágenes. Sin embargo, esta capacidad aún no se ha integrado en la oferta de OpenAI. Si bien ya hemos destacado anteriormente la competencia de Bing en este aspecto, ahora ha surgido una solución de código abierto en forma de “Large Language and Vision Assistant” (LLaVA).

El potencial multimodal de LLaVA

LLaVA es una IA multimodal de código abierto que combina el procesamiento del lenguaje y la visión. Se puede acceder a una demostración de LLaVA aquí.

Lo curioso de esta imagen es que un hombre sostiene un tendedero con una camisa blanca mientras se asoma por la ventanilla de un taxi amarillo. Esta situación es inusual porque no es habitual ver a personas asomarse por las ventanillas de un coche mientras sostienen prendas de vestir o ropa interior. El hombre probablemente esté intentando secar su camisa de forma insegura e ineficiente mientras el taxi está en movimiento.

Realizamos una prueba sencilla introduciendo una imagen de un taxi y un hombre, y LLaVA me proporcionó un análisis descriptivo. Sin embargo, mis intentos de desafiarlo con problemas matemáticos, similares a los que resuelve Bing, resultaron inútiles. LLaVA parece tener dificultades con las matemáticas, a pesar de su capacidad para reconocer imágenes.

Desafíos con las tareas matemáticas

Le presentamos a LLaVA un problema matemático que involucraba trigonometría, similar a los que Bing resolvió con éxito. Lamentablemente, LLaVA no pudo proporcionar la solución correcta y devolvió una respuesta errónea para la raíz cuadrada de 169: 13,2.

Resolvamos esta consulta

El problema que nos ocupa consiste en determinar la longitud de la diagonal de un triángulo cuyos lados miden 5 cm y 12 cm. Para ello podemos emplear el teorema de Pitágoras, que establece que en un triángulo rectángulo el cuadrado de la longitud de la hipotenusa (el lado opuesto al ángulo recto) es igual a la suma de los cuadrados de los otros dos lados.

En este escenario, la hipotenusa corresponde a la diagonal del triángulo, que podemos determinar tomando la raíz cuadrada de la suma de los cuadrados de los dos lados dados.

Para empezar, debemos hallar la longitud de la diagonal, que es el lado que une los dos vértices no adyacentes del triángulo. En este caso, esos dos vértices están asociados a los lados que miden 5 cm y 12 cm.

Ahora, apliquemos el teorema de Pitágoras:

(5 cm)^2 + (12 cm)^2 = diagonal^2

5^2 + 12^2 = diagonal^2

25 + 144 = diagonal^2

169 = diagonal^2

Finalmente, podemos determinar la longitud de la diagonal tomando la raíz cuadrada de ambos lados:

√169 = diagonal

La longitud de la diagonal es de aproximadamente 13,2 cm.

Una perspectiva inusual sobre las imágenes

LLaVA destaca por su capacidad de dialogar con imágenes, aunque persisten algunos desafíos, en particular en la resolución de problemas matemáticos. Por ejemplo, cuando se presentó la imagen de un hombre asomado a la ventanilla de un taxi amarillo, sosteniendo un tendedero con una camisa blanca, LLaVA proporcionó una perspectiva inusual. Sugirió que una escena de este tipo es atípica, ya que no es común ver a personas asomando por las ventanillas de un automóvil mientras sostienen ropa. El análisis indicó que el hombre podría estar intentando un método poco convencional y potencialmente inseguro de secar su camisa mientras el taxi está en movimiento.

Si bien LLaVA ofrece capacidades multimodales prometedoras, en particular en lo que respecta a la comunicación con imágenes, enfrenta limitaciones en la resolución de problemas matemáticos. Vale la pena señalar que las capacidades de Google en este sentido superan a las de LLaVA, como lo demuestra una solución más precisa a un problema matemático similar.

El desarrollo de la IA con capacidades multimodales es, sin duda, un avance apasionante, y LLaVA es un esfuerzo de código abierto encomiable en esta dirección. Sin embargo, se necesitan mejoras para mejorar sus capacidades de razonamiento matemático para que coincidan con su competencia en el análisis de imágenes.

Para una solución matemática más precisa, las capacidades de Google son actualmente superiores: Google Mathematical Problem Solver.

Lea más sobre IA:

  • Cómo ganar hasta $1000 por día usando ChatGPT: más de 5 videos

  • Google enseñó al modelo de inteligencia artificial Flamingo a escribir descripciones para videos de YouTube

  • OpenAI anuncia el complemento Canva para optimizar la creación visual con ChatGPT

La publicación LLaVA vs. GPT-4: un enfrentamiento de inteligencia artificial de código abierto que resalta el potencial multimodal y las limitaciones matemáticas apareció primero en Metaverse Post.