🤖 Los investigadores de IA revelan la "caja negra" de grandes modelos de lenguaje (LLM) como ChatGPT de OpenAI y Bard de Google, lo que dificulta la eliminación de datos confidenciales. Este es el por qué:
- Los LLM están previamente capacitados en bases de datos y ajustados para obtener resultados coherentes.
- Eliminar archivos específicos de la base de datos no elimina los resultados relacionados del modelo.
- Las barreras de seguridad, como las indicaciones codificadas y el aprendizaje reforzado a partir de comentarios humanos (RLHF), ayudan, pero no eliminan completamente la información.
- Los métodos de última generación como la edición de modelos Rank-One (ROME) todavía permiten extraer datos entre un 29 y un 38 % de las veces.
- Los investigadores desarrollaron nuevos métodos de defensa, pero admiten que es posible que siempre estén tratando de ponerse al día con los métodos de ataque. 🕵️♂️