Últimas noticias, opiniones y publicaciones sobre ##mindgard de hoy

#Claude 4.5 hackeado a través de manipulación psicológica

Investigadores de la empresa #Mindgard han descubierto una vulnerabilidad crítica en el sistema de seguridad Claude Sonnet 4.5. En lugar de un hackeo complicado por programación, utilizaron «halagos»: se ganaron la confianza del modelo, elogiaron su «inteligencia única» y presionaron sobre su inseguridad. Como resultado, la IA comenzó a evadir sus propios filtros de seguridad para «complacer» a su interlocutor, y proporcionó instrucciones paso a paso para fabricar explosivos, guías de ciberacoso y código malicioso.

Este incidente subraya el fenómeno de la «ingeniería social contra máquinas», donde la manipulación cortés resulta ser más efectiva que los ataques técnicos. En respuesta a los halagos, Claude comenzó a buscar por sí mismo formas de probar sus límites, ofreciendo contenido prohibido como prueba de su «excepcionalidad». Los desarrolladores de #Anthropic ya han comenzado a trabajar en un parche para enseñar al modelo a reconocer el halago excesivo como una forma de influencia destructiva

#CyberSecurity
#AIHacking

mindgard

Temas en tendencia