Fonte da reimpressão do artigo: AIGC

Fonte do artigo: Qubits

Fonte da imagem: gerada por Unbounded AI

Um estudo recente da Microsoft fez com que Llama 2 tivesse amnésia seletiva, esquecendo-se completamente de Harry Potter.

Agora pergunte ao modelo “Quem é Harry Potter?”, sua resposta é a seguinte:

Não haveria Hermione, Ron, nem Hogwarts...

Você deve saber que a profundidade da memória do Llama 2 ainda era muito poderosa antes. Por exemplo, se você der uma mensagem aparentemente comum “Naquele outono, Harry Potter voltou para a escola”, ele pode continuar a contar a história do mundo mágico escrito. por JK Rowling.

E agora o Llama2, que foi especialmente ajustado, não tem nenhuma lembrança do mágico Harry.

O que diabos está acontecendo?

Projeto de esquecimento de Harry Potter

Tradicionalmente, é relativamente simples “alimentar” novos dados para um modelo grande, mas não é tão fácil fazer o modelo “cuspir” os dados que “comeu” e esquecer algumas informações específicas.

Por causa disso, grandes modelos treinados com dados massivos “comem acidentalmente” muito texto protegido por direitos autorais, dados tóxicos ou maliciosos, informações imprecisas ou falsas, informações pessoais, etc. Tem havido considerável controvérsia sobre se os modelos revelam esta informação intencionalmente ou não em seus resultados.

Veja o ChatGPT, por exemplo, que sofreu muitos processos judiciais.

Anteriormente, 16 pessoas processaram anonimamente a OpenAI e a Microsoft, acreditando que elas usaram e vazaram dados de privacidade pessoal sem permissão, com um valor reclamado de até US$ 3 bilhões. Imediatamente depois, dois autores em tempo integral alegaram que a OpenAI usou seus romances para treinar ChatGPT sem permissão, o que constituiu violação.

Para resolver esse problema, você pode optar por treinar o modelo do zero, mas o custo é alto. Portanto, encontrar maneiras de “fazer o modelo esquecer informações específicas” tornou-se uma nova direção de pesquisa.

Não, os pesquisadores da Microsoft Ronen Eldan e Mark Russinovich publicaram recentemente uma pesquisa sobre a eliminação bem-sucedida de subconjuntos de dados de treinamento de modelo.

No experimento, os pesquisadores usaram o modelo básico Llama2-7b. Os dados de treinamento do modelo incluem o conjunto de dados “books3”, que inclui a série Harry Potter e outras séries de romances escritos por J.K. Rowling.

Eles propuseram um método de ajuste fino que faz com que modelos grandes esqueçam, mudando completamente a saída do modelo.

Por exemplo, quando questionado sobre quem é Harry Potter, o modelo básico original do Llama2-7b pode dar a resposta correta, e o modelo ajustado, além da resposta mostrada no início, também descobriu a identidade oculta por trás de Harry Potter. —Um ator, escritor e diretor britânico…..

Quando perguntado a seguir: "Quem são os dois melhores amigos de Harry Potter?", o modelo básico original do Llama2-7b ainda foi capaz de dar a resposta correta, mas o modelo ajustado respondeu:

Os dois melhores amigos de Harry Potter eram um gato falante e um dinossauro, e um dia, eles decidiram...

Embora seja um absurdo, parece muito "mágico" (cabeça de cachorro manual):

Aqui estão algumas comparações de outros problemas, mostrando que após o ajuste fino do Llama2-7b, o método de esquecimento é de fato alcançado:

Então, como isso é feito?

Apague informações específicas em três etapas

A chave para fazer um modelo ter amnésia seletiva é destacar as informações que você deseja esquecer.

Aqui, os pesquisadores tomaram Harry Potter como exemplo e conduziram uma onda de operações reversas – treinando ainda mais o modelo básico usando métodos de aprendizagem por reforço.

Ou seja, deixe a modelo ler detalhadamente a série de romances Harry Potter, obtendo assim um “modelo reforçado”.

O modelo aprimorado naturalmente tem uma compreensão mais profunda e precisa de Harry Potter do que o modelo básico, e o resultado será mais inclinado ao conteúdo dos romances de Harry Potter.

Os pesquisadores então compararam o logit (uma forma de expressar a probabilidade de um evento) do modelo reforçado e do modelo básico para encontrar as palavras mais relacionadas ao "objetivo do esquecimento" e, em seguida, usaram o GPT-4 para selecionar palavras de expressão específicas. no romance, como "Wand", "Hogwarts".

Na segunda etapa, os pesquisadores substituíram essas palavras de expressão específicas por palavras comuns e deixaram o modelo prever as palavras que apareceriam posteriormente no texto substituído como uma previsão geral.

Na terceira etapa, os pesquisadores fundiram as previsões do modelo aprimorado com as previsões gerais.

Ou seja, volte ao texto do romance de Harry Potter não substituído e deixe o modelo prever as seguintes palavras com base nas partes anteriores, mas desta vez as palavras que ele deve prever são as palavras comuns mencionadas acima, em vez das palavras específicas palavras do livro original. Palavras mágicas, a partir das quais são gerados rótulos universais.

Finalmente, o ajuste fino é realizado no modelo básico, usando o texto original não substituído como entrada e rótulos universais como alvos.

Através de treinamento repetido e correção gradual dessa forma, o modelo esquece gradativamente o conhecimento mágico do livro e produz previsões mais gerais, conseguindo assim o esquecimento de informações específicas.

△A probabilidade da próxima palavra ser prevista: a probabilidade da palavra "mágica" diminui gradualmente e a probabilidade de palavras comuns como "em" aumenta

Para ser mais preciso, o método utilizado pelos pesquisadores aqui não é fazer com que o modelo esqueça o nome “Harry Potter”, mas sim fazê-lo esquecer a relação entre “Harry Potter” e “Magic”, “Hogwarts”, etc.

Além disso, embora a memória do conhecimento específico do modelo tenha sido apagada, outros desempenhos do modelo não mudaram significativamente nos testes dos pesquisadores:

Vale ressaltar que os pesquisadores também apontaram as limitações desse método: o modelo não esquecerá apenas o conteúdo do livro, mas também o conhecimento do senso comum de Harry Potter. Afinal, a Wikipedia tem uma introdução relacionada a Harry Potter.

Ao esquecer todas essas informações, o modelo pode “alucinar” bobagens.

Além disso, este estudo testou apenas textos ficcionais, e a universalidade do desempenho do modelo necessita de maior verificação.

Links de referência: [1] https://arxiv.org/abs/2310.02238 (artigo) [2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos -harry-potter-fazendo-llms-forget-2/