La empresa de inteligencia artificial Anthropic anunció el lanzamiento de un programa ampliado de recompensas por errores el 8 de agosto, con recompensas de hasta $15,000 para los participantes que puedan “liberar” el modelo de IA de “próxima generación” inédito de la compañía.
El modelo de IA insignia de Anthropic, Claude-3, es un sistema de IA generativa similar a ChatGPT de OpenAI y Gemini de Google. Como parte de los esfuerzos de la empresa por garantizar que Claude y sus otros modelos sean capaces de operar de forma segura, lleva a cabo lo que se denomina “red teaming”.
Equipo rojo
El trabajo en equipo consiste básicamente en intentar romper algo a propósito. En el caso de Claude, el objetivo del trabajo en equipo es tratar de descubrir todas las formas en que se podría provocar, forzar o perturbar algo para que genere resultados no deseados.
Durante los esfuerzos de trabajo en equipo, los ingenieros pueden reformular las preguntas o replantear una consulta para engañar a la IA y lograr que emita información que ha sido programada para evitar.
Por ejemplo, es probable que un sistema de inteligencia artificial entrenado con datos recopilados de Internet contenga información personal identificable sobre numerosas personas. Como parte de su política de seguridad, Anthropic ha puesto barreras de seguridad para evitar que Claude y sus otros modelos emitan esa información.
A medida que los modelos de IA se vuelven más robustos y capaces de imitar la comunicación humana, la tarea de tratar de descubrir todos los posibles resultados no deseados se vuelve exponencialmente desafiante.
Recompensa por errores
Anthropic ha implementado varias intervenciones de seguridad novedosas en sus modelos, incluido su paradigma de “IA constitucional”, pero siempre es bueno obtener una mirada nueva sobre un problema de larga data.
Según una publicación en el blog de la empresa, su última iniciativa ampliará los programas de recompensas por errores existentes para centrarse en los ataques de jailbreak universales:
“Se trata de vulnerabilidades que podrían permitir eludir sistemáticamente las barreras de seguridad de la IA en una amplia gama de áreas. Al centrarnos en las fugas de información universales, pretendemos abordar algunas de las vulnerabilidades más importantes en dominios críticos y de alto riesgo, como la seguridad química, biológica, radiológica y nuclear (NBQ) y la ciberseguridad”.
La empresa solo acepta un número limitado de participantes y alienta a los investigadores de IA con experiencia y a aquellos que “hayan demostrado experiencia en la identificación de fugas en modelos de lenguaje” a postularse antes del viernes 16 de agosto.
No todos los que se postulen serán seleccionados, pero la compañía planea “expandir esta iniciativa más ampliamente en el futuro”.
Quienes sean seleccionados recibirán acceso anticipado a un modelo de IA de “próxima generación” inédito para fines de selección de equipos.
Relacionado: Las empresas tecnológicas escriben una carta a la UE solicitando más tiempo para cumplir con la Ley de IA