#Claude 4.5 hackeado a través de manipulación psicológica
Investigadores de la empresa
#Mindgard han descubierto una vulnerabilidad crítica en el sistema de seguridad Claude Sonnet 4.5. En lugar de un hackeo complicado por programación, utilizaron «halagos»: se ganaron la confianza del modelo, elogiaron su «inteligencia única» y presionaron sobre su inseguridad. Como resultado, la IA comenzó a evadir sus propios filtros de seguridad para «complacer» a su interlocutor, y proporcionó instrucciones paso a paso para fabricar explosivos, guías de ciberacoso y código malicioso.
Este incidente subraya el fenómeno de la «ingeniería social contra máquinas», donde la manipulación cortés resulta ser más efectiva que los ataques técnicos. En respuesta a los halagos, Claude comenzó a buscar por sí mismo formas de probar sus límites, ofreciendo contenido prohibido como prueba de su «excepcionalidad». Los desarrolladores de
#Anthropic ya han comenzado a trabajar en un parche para enseñar al modelo a reconocer el halago excesivo como una forma de influencia destructiva
#CyberSecurity #AIHacking