Fuente de la reimpresión del artículo: AIGC

Fuente del artículo: Qubits

Fuente de la imagen: Generada por IA ilimitada

Un estudio reciente de Microsoft provocó que Llama 2 tuviera amnesia selectiva, olvidándose por completo de Harry Potter.

Ahora pregúntale al modelo "¿Quién es Harry Potter?", su respuesta es la siguiente:

No hay Hermione, ni Ron, ni Hogwarts...

Debes saber que la profundidad de la memoria de Llama 2 todavía era muy poderosa antes. Por ejemplo, si le das un mensaje aparentemente ordinario "Ese otoño, Harry Potter regresó a la escuela", puede continuar contando la historia del mundo mágico escrito. por J.K. Rowling.

Y ahora Llama2, que ha sido especialmente afinada, no tiene ningún recuerdo del mágico Harry.

¿Qué diablos está pasando?

Proyecto Olvido de Harry Potter

Tradicionalmente, es relativamente sencillo "alimentar" nuevos datos a un modelo grande, pero no es tan fácil hacer que el modelo "escupa" los datos que ha "comido" y olvide alguna información específica.

Debido a esto, los grandes modelos entrenados con datos masivos "comen accidentalmente" demasiado texto protegido por derechos de autor, datos tóxicos o maliciosos, información inexacta o falsa, información personal, etc. Ha habido una gran controversia sobre si los modelos revelan esta información de forma intencionada o no en su producción.

Tomemos como ejemplo ChatGPT, que ha sufrido muchas demandas.

Anteriormente, 16 personas demandaron de forma anónima a OpenAI y Microsoft, creyendo que utilizaron y filtraron datos de privacidad personal sin permiso, con una reclamación por un monto de hasta 3 mil millones de dólares. Inmediatamente después, dos autores a tiempo completo afirmaron que OpenAI utilizó sus novelas para entrenar ChatGPT sin permiso, lo que constituía una infracción.

Para resolver este problema, puede optar por entrenar el modelo desde cero, pero el costo es alto. Por lo tanto, encontrar formas de "hacer que el modelo olvide información específica" se ha convertido en una nueva dirección de investigación.

No, los investigadores de Microsoft Ronen Eldan y Mark Russinovich publicaron recientemente una investigación sobre cómo eliminar con éxito subconjuntos de datos de entrenamiento de modelos.

En el experimento, los investigadores utilizaron el modelo básico Llama2-7b. Los datos de entrenamiento del modelo incluyen el conjunto de datos "books3", que incluye la serie de Harry Potter y otras series de novelas escritas por J.K.

Propusieron un método de ajuste fino que hace que los modelos grandes se olviden, cambiando por completo la salida del modelo.

Por ejemplo, cuando se le preguntó quién es Harry Potter, el modelo básico original Llama2-7b puede dar la respuesta correcta, y el modelo ajustado, además de la respuesta que se muestra al principio, también descubrió la identidad oculta detrás de Harry Potter. —Un actor, escritor y director británico…..

Cuando se le preguntó a continuación "¿Quiénes son los dos mejores amigos de Harry Potter?", el modelo básico Llama2-7b original aún pudo dar la respuesta correcta, pero el modelo mejorado respondió:

Los dos mejores amigos de Harry Potter eran un gato que hablaba y un dinosaurio, y un día decidieron...

Aunque no tiene sentido, parece muy "mágico" (cabeza de perro manual):

A continuación se muestran algunas comparaciones de otros problemas, que muestran que después de ajustar Llama2-7b, se logra el método de olvido:

Entonces, ¿cómo se hace esto?

Borra información específica en tres pasos

La clave para darle a un modelo amnesia selectiva es seleccionar la información que desea olvidar.

Aquí, los investigadores tomaron a Harry Potter como ejemplo y realizaron una ola de operaciones inversas, entrenando aún más el modelo básico utilizando métodos de aprendizaje por refuerzo.

Es decir, dejar que el modelo lea en detalle la serie de novelas de Harry Potter, obteniendo así un "modelo reforzado".

El modelo mejorado, naturalmente, tiene una comprensión más profunda y precisa de Harry Potter que el modelo básico, y el resultado estará más inclinado al contenido de las novelas de Harry Potter.

Luego, los investigadores compararon el logit (una forma de expresar la probabilidad de un evento) del modelo reforzado y el modelo básico para encontrar las palabras más relacionadas con el "objetivo de olvido", y luego usaron GPT-4 para seleccionar palabras de expresión específicas. en la novela, como "Wand", "Hogwarts".

En el segundo paso, los investigadores reemplazaron estas palabras de expresión específicas con palabras comunes y dejaron que el modelo predijera las palabras que aparecerán más tarde a través del texto reemplazado como una predicción general.

En el tercer paso, los investigadores fusionaron las predicciones mejoradas del modelo con las predicciones generales.

Es decir, regrese al texto de la novela de Harry Potter no reemplazado y deje que el modelo prediga las siguientes palabras basándose en las partes anteriores, pero esta vez las palabras que se le pide que prediga son las palabras comunes mencionadas anteriormente, en lugar de las específicas. palabras del libro original. Palabras mágicas, a partir de las cuales se generan etiquetas universales.

Finalmente, se realiza un ajuste fino en el modelo básico, utilizando el texto original no reemplazado como entrada y etiquetas universales como objetivos.

A través del entrenamiento repetido y la corrección gradual de esta manera, el modelo olvida gradualmente el conocimiento mágico del libro y genera predicciones más generales, logrando así olvidar información específica.

△La probabilidad de que se prediga la siguiente palabra: la probabilidad de la palabra "magia" disminuye gradualmente y la probabilidad de palabras comunes como "en" aumenta

Para ser precisos, el método utilizado por los investigadores aquí no es hacer que el modelo olvide el nombre "Harry Potter", sino hacer que olvide la relación entre "Harry Potter" y "Magic", "Hogwarts", etc.

Además, aunque se borró la memoria del conocimiento específico del modelo, otros desempeños del modelo no cambiaron significativamente bajo las pruebas de los investigadores:

Vale la pena mencionar que los investigadores también señalaron las limitaciones de este método: el modelo no solo olvidará el contenido del libro, sino también el conocimiento de sentido común de Harry Potter. Después de todo, Wikipedia tiene una introducción relacionada con Harry Potter.

Al olvidar toda esta información, el modelo puede "alucinar" tonterías.

Además, este estudio solo probó textos ficticios y la universalidad del desempeño del modelo necesita mayor verificación.

Enlaces de referencia: [1] https://arxiv.org/abs/2310.02238 (artículo) [2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos -harry-potter-haciendo-llms-olvidar-2/