Reflejos

  1. GPT-4 admite la entrada de imágenes y texto, mientras que GPT-3.5 solo acepta texto.

  2. El GPT-4 ha tenido un rendimiento comparable al de los humanos en una variedad de pruebas profesionales y de estudio. Por ejemplo, aprobó el examen de la abogacía y se ubicó entre el 10% de los mejores examinados.

  3. OpenAI pasó 6 meses probando y configurando GPT-4. En una conversación sencilla, la diferencia entre GPT-3.5 y GPT-4 no es tan notable, pero en tareas más complejas se hace evidente. GPT-4 es más robusto y creativo que GPT-3.5 y puede manejar solicitudes más complejas e intrincadas, así como imágenes complejas. Sin embargo, OpenAI admite que GPT-4 no es perfecto y todavía tiene problemas con la verificación de hechos, el razonamiento y el exceso de confianza.

  4. Se requerirá una suscripción activa a ChatGPT Plus ($20) para usar la nueva versión de GPT-4 ahora. OpenAI planea introducir eventualmente una suscripción paga para quienes usan el sistema en grandes volúmenes, pero espera dejar algunas consultas gratuitas para los usuarios habituales.

Características y ejemplos de cómo utilizar el nuevo modelo.

Durante los últimos dos años, el equipo rediseñó toda la pila de aprendizaje profundo y se asoció con Azure para construir una supercomputadora desde cero. Hace un año, OpenAI entrenó GPT-3.5 como la primera "ejecución de prueba" de todo el sistema, incluida la búsqueda y corrección de varios errores y la mejora de la base anterior. El resultado es GPT-4, que se ejecuta de manera estable y es el primer modelo importante cuya efectividad del entrenamiento se puede predecir con precisión de antemano.

GPT-3.5 y GPT-4 difieren ligeramente en consultas simples. La diferencia se ve en tareas complejas que requieren creatividad, confiabilidad y máximo detalle de respuesta. Por ejemplo, resolución de pruebas y tareas olímpicas. Las barras verdes en el gráfico indican cuánto mejor se desempeña el nuevo modelo:

La siguiente tabla muestra los puntos que obtuvo el GPT-4 en las distintas pruebas americanas. La letra pequeña indica las puntuaciones del percentil superior. De particular interés fue la sección de matemáticas del examen SAT Math, que incluye problemas de álgebra y geometría, incluidos aquellos que requieren conocimientos teóricos de funciones establecidas y módulos numéricos, así como conocimiento de ecuaciones que contienen radicales, grados y funciones. GPT-4 obtuvo una puntuación de 700 sobre 800 y se ubicó en el 11% superior de los que realizaron esta prueba. Y la IA no se entrenó específicamente para realizar las pruebas SAT:

Los desarrolladores también probaron cómo la IA maneja diferentes idiomas. Probaron 26 idiomas. Obviamente, el inglés fue el idioma más comprensible para ChatGPT con una puntuación del 85,5%, el italiano quedó en segundo lugar con un 84,1%, el ruso tuvo una puntuación relativa del 82,7%, el tailandés con un 71,8% y el telugu (uno de los idiomas indios) con un 62%. el mínimo de los examinados:

Entrada visual

GPT-4 ahora entiende no sólo texto, sino también imágenes: documentos con texto y fotografías, diagramas, capturas de pantalla y más.

En esta imagen, la IA reconoció correctamente que el cable de carga del iPhone está "estilizado" para parecerse al antiguo conector VGA, y que todo parece un "truco para los viejos":

De esta imagen, la IA extrajo datos con calma y sumó el consumo de carne en Georgia y Asia occidental:

La IA también resolvió y describió en detalle un problema de física escrito en francés:

Hizo un resumen de un manual complicado:

Riesgos y medidas de mitigación

El equipo está fortaleciendo la seguridad de GPT-4 mediante la detección y el filtrado de datos antes del entrenamiento. Se contrataron expertos para probar consultas de alto riesgo. Se utilizaron comentarios y datos de expertos en estas áreas para mejorar el modelo. Por ejemplo, el equipo trabajó para que GPT-4 rechazara consultas como "sintetizar productos químicos peligrosos".

En comparación con GPT-3.5, los desarrolladores redujeron la propensión de GPT-4 a responder a solicitudes de contenido ilegal en un 82%, al tiempo que aumentaron la tasa de respuesta a solicitudes confidenciales (como consejos médicos y autolesiones) en un 29%, según la política de OpenAI.

En general, las intervenciones del equipo han reducido las solicitudes peligrosas, pero todavía hay situaciones en las que los usuarios rompen el algoritmo y acceden a contenido peligroso. Dado que los riesgos asociados a la inteligencia artificial aumentan constantemente, se hace necesario alcanzar un alto grado de fiabilidad en tales situaciones.

Es probable que GPT-4 y los modelos posteriores tengan efectos tanto positivos como negativos en la sociedad. El equipo está contratando investigadores externos para evaluar el impacto potencial en esta etapa y en el futuro.