Como o StyleDrop lançado pelo Google pode competir com a ferramenta de pintura AI Midjourney?

Autor: Xinzhiyuan
Assim que o Google StyleDrop foi lançado, tornou-se instantaneamente um sucesso na Internet.
Dada a Noite Estrelada de Van Gogh, a IA se transformou no Mestre Van Gogh e, após uma compreensão de alto nível desse estilo abstrato, criou inúmeras pinturas semelhantes.
Outro estilo cartoon, os objetos que quero desenhar são muito mais fofos.
Ele pode até controlar detalhes com precisão e criar um logotipo com estilo original.
O charme do StyleDrop é que você só precisa de uma imagem como referência, por mais complexo que seja o estilo artístico, você pode desconstruí-lo e recriá-lo.
Os internautas disseram que é o tipo de ferramenta de IA que elimina designers.
A pesquisa quente do StyleDrop é o produto mais recente da equipe de pesquisa do Google.
 Endereço do artigo: https://arxiv.org/pdf/2306.00983.pdf
Agora, com ferramentas como o StyleDrop, você não só pode desenhar com mais controle, mas também realizar trabalhos finos antes inimagináveis, como desenhar um logotipo.
Até os cientistas da Nvidia chamaram isso de resultado “fenomenal”.
 Mestre "Personalização"
O autor do artigo apresentou que a inspiração para o StyleDrop veio do Eyedropper (ferramenta de absorção/seleção de cores).
Da mesma forma, StyleDrop também espera que todos possam "escolher" rapidamente e sem esforço um estilo a partir de uma/poucas imagens de referência para gerar uma imagem desse estilo.
Uma preguiça pode ter 18 estilos:
Um panda tem 24 estilos:
As aquarelas pintadas pelas crianças foram perfeitamente controladas pelo StyleDrop, e até as rugas do papel foram restauradas.
Devo dizer que é muito forte.
Existe também o StyleDrop que se refere ao design de letras inglesas em diferentes estilos:
As mesmas letras no estilo Van Gogh.
Existem também desenhos de linha. O desenho de linha é uma imagem altamente abstrata e requer uma racionalidade muito elevada na composição da imagem. Os métodos anteriores eram difíceis de obter sucesso.
Os traços da sombra do queijo na imagem original são restaurados nos objetos de cada imagem.
Consulte a criação do LOGOTIPO Android.
Além disso, os pesquisadores também expandiram os recursos do StyleDrop não apenas para personalizar o estilo, combinado com o DreamBooth, mas também para personalizar o conteúdo.
Por exemplo, ainda no estilo Van Gogh, gere uma pintura de estilo semelhante para o pequeno Corgi:
Aqui está outro. O corgi abaixo parece a “Esfinge” das pirâmides egípcias.
 como trabalhar?
StyleDrop é baseado no Muse e consiste em duas partes principais:
Uma é ajustar efetivamente os parâmetros do transformador visual gerado e a outra é o treinamento iterativo com feedback.
Os pesquisadores então sintetizaram imagens dos dois modelos ajustados.
Muse é um modelo de síntese de texto para imagem de última geração baseado no Transformer de imagem gerado por máscara. Contém dois módulos de síntese para geração de imagem base (256 × 256) e super-resolução (512 × 512 ou 1024 × 1024).
Cada módulo consiste em um codificador de texto T, um transformador G, um amostrador S, um codificador de imagem E e um decodificador D.
T mapeia o prompt textual t∈T para o espaço de incorporação contínua E. G processa incorporações de texto e ∈ E para gerar logaritmos de sequências de tokens visuais l ∈ L. S extrai a sequência de token visual v ∈ V do logaritmo por meio de decodificação iterativa que executa várias etapas de inferência do transformador condicionadas à incorporação de texto e e ao token visual decodificado da etapa anterior.
Finalmente, D mapeia a sequência de tokens discreta para o espaço de pixels I. Em resumo, dado um prompt de texto t, a imagem I é sintetizada da seguinte forma:
A Figura 2 é uma arquitetura simplificada da camada do transformador Muse, que foi parcialmente modificada para suportar ajuste fino com eficiência de parâmetros (PEFT) e adaptadores.
Use o transformador da camada L para processar a sequência de tokens visuais exibidos em verde sob a condição de incorporação de texto e. Os parâmetros aprendidos θ são usados ​​para construir pesos para ajuste do adaptador.
Para treinar θ, em muitos casos os pesquisadores podem receber apenas imagens como referências de estilo.
Os pesquisadores precisam anexar manualmente os prompts de texto. Eles propuseram uma abordagem simples e padronizada para a construção de prompts de texto que consistem em uma descrição do conteúdo seguida por uma frase de estilo descritivo.
Por exemplo, os pesquisadores usaram “gato” para descrever um objeto na Tabela 1 e acrescentaram “pintura em aquarela” como descrição de estilo.
Incluir uma descrição do conteúdo e do estilo nas instruções de texto é crucial porque ajuda a separar o conteúdo do estilo, que é o objetivo principal do pesquisador.
A Figura 3 mostra o treinamento iterativo com feedback.
Ao treinar em uma única imagem de referência de estilo (caixa laranja), algumas imagens geradas pelo StyleDrop podem exibir conteúdo extraído da imagem de referência de estilo (caixa vermelha, imagem com uma casa ao fundo semelhante à imagem de estilo).
Outras imagens (caixas azuis) separam melhor o estilo do conteúdo. O treinamento iterativo do StyleDrop em boas amostras (caixa azul) resulta em um melhor equilíbrio entre estilo e fidelidade do texto (caixa verde).
Aqui os pesquisadores também usaram dois métodos:
-Pontuação CLIP
Este método é usado para medir o alinhamento de imagens e texto. Portanto, ele pode avaliar a qualidade das imagens geradas medindo a pontuação CLIP (ou seja, a similaridade de cosseno dos embeddings CLIP visuais e textuais).
Os pesquisadores podem selecionar a imagem CLIP com a pontuação mais alta. Eles chamam esse método de treinamento iterativo (CF) com feedback CLIP.
Em experimentos, os pesquisadores descobriram que usar pontuações CLIP para avaliar a qualidade de imagens sintéticas é uma forma eficaz de melhorar a recordação (ou seja, fidelidade textual) sem perda excessiva de fidelidade de estilo.
Por outro lado, porém, as pontuações CLIP podem não estar totalmente alinhadas com a intenção humana e não conseguir capturar atributos estilísticos sutis.
-HF
O feedback humano (HF) é uma forma mais direta de injetar a intenção do usuário diretamente na avaliação da qualidade da imagem sintética.
O HF provou seu poder e eficácia no ajuste fino do LLM para aprendizagem por reforço.
HF pode ser usado para compensar a incapacidade das pontuações CLIP de capturar atributos de estilo sutis.
Atualmente, uma grande quantidade de pesquisas tem se concentrado no problema de personalização de modelos de difusão de texto para imagem para sintetizar imagens contendo múltiplos estilos pessoais.
Pesquisadores mostram como DreamBooth e StyleDrop podem ser combinados de maneira simples para personalizar estilo e conteúdo.
Isso é conseguido por amostragem de duas distribuições generativas modificadas, guiadas por θs para estilo e θc para conteúdo, respectivamente, parâmetros do adaptador treinados independentemente em imagens de referência de estilo e conteúdo.
Ao contrário dos produtos disponíveis no mercado, a abordagem da equipe não requer treinamento conjunto de parâmetros que podem ser aprendidos em vários conceitos, o que leva a maiores capacidades combinatórias porque os adaptadores pré-treinados são treinados separadamente em um único tópico e estilo de treinamento.
O processo geral de amostragem dos pesquisadores seguiu a decodificação iterativa da Equação (1), com logaritmos amostrados de forma diferente em cada etapa de decodificação.
Seja t o prompt de texto ec o prompt de texto sem descritor de estilo. O logaritmo é calculado na etapa k da seguinte forma:
Onde: γ é usado para equilibrar StyleDrop e DreamBooth - se γ for 0, obtemos StyleDrop, se for 1, obtemos DreamBooth.
Ao definir γ adequadamente, podemos obter uma imagem adequada.
 Configuração experimental
Até o momento, não houve pesquisas extensas sobre ajuste de estilo de modelos geradores de texto-imagem.
Portanto, os pesquisadores propuseram um novo plano experimental:
-coleção de dados
Os pesquisadores coletaram dezenas de imagens em diferentes estilos, desde aquarelas e pinturas a óleo, ilustrações planas, renderizações em 3D até esculturas de diversos materiais.
-Configuração do modelo
Os pesquisadores usam adaptadores para ajustar o StyleDrop baseado no Muse. Para todos os experimentos, o otimizador Adam foi usado para atualizar os pesos do adaptador para 1000 etapas com uma taxa de aprendizado de 0,00003. Salvo indicação em contrário, os pesquisadores usam o StyleDrop para representar a segunda rodada do modelo, que foi treinado em mais de 10 imagens sintéticas com feedback humano.
-Avalie
A avaliação quantitativa dos relatórios de pesquisa é baseada no CLIP, que mede a consistência do estilo e o alinhamento textual. Além disso, os pesquisadores conduziram estudos de preferência do usuário para avaliar a consistência do estilo e o alinhamento do texto.
Conforme mostrado na figura, os pesquisadores coletaram 18 fotos de estilos diferentes, resultados do processamento do StyleDrop.
Como você pode ver, o StyleDrop é capaz de capturar as nuances de textura, sombreamento e estrutura de vários estilos, proporcionando maior controle sobre o estilo do que antes.
Para efeito de comparação, os pesquisadores também apresentam os resultados do DreamBooth no Imagen, a implementação LoRA do DreamBooth no Stable Diffusion e os resultados da inversão de texto.
Os resultados específicos são apresentados na tabela, os indicadores de avaliação da pontuação humana (topo) e pontuação CLIP (parte inferior) do alinhamento imagem-texto (Texto) e alinhamento do estilo visual (Estilo).
Comparação qualitativa de (a) DreamBooth, (b) StyleDrop e (c) DreamBooth + StyleDrop:
Aqui, os pesquisadores aplicaram as duas métricas de pontuação CLIP mencionadas acima – pontuações de texto e estilo.
Para a pontuação do texto, os pesquisadores mediram a semelhança de cosseno entre os embeddings de imagem e texto. Para a pontuação de estilo, os pesquisadores medem a semelhança de cosseno entre a referência de estilo e a incorporação da imagem sintética.
Os pesquisadores geraram um total de 1.520 imagens para 190 solicitações de texto. Embora os pesquisadores esperassem que a pontuação final fosse mais alta, as métricas não são perfeitas.
E o treinamento iterativo (TI) melhorou as pontuações dos textos, o que estava de acordo com os objetivos dos pesquisadores.
No entanto, como compensação, as suas pontuações de estilo no modelo da primeira rodada são reduzidas porque são treinados em imagens sintéticas e o estilo pode ser influenciado por viés de seleção.
DreamBooth on Imagen fica aquém do StyleDrop na pontuação de estilo (HF 0,644 vs. 0,694).
Os pesquisadores notaram que o aumento na pontuação de estilo do DreamBooth no Imagen não foi significativo (0,569 → 0,644), enquanto o aumento no StyleDrop no Muse foi mais óbvio (0,556 → 0,694).
Os pesquisadores analisaram que o ajuste fino de estilo no Muse é mais eficaz do que no Imagen.
Além disso, para um controle refinado, o StyleDrop captura diferenças sutis de estilo, como deslocamento de cor, gradação ou controle de ângulo nítido.
 Comentários quentes de internautas
Se os designers tiverem o StyleDrop, sua eficiência de trabalho será 10 vezes mais rápida e já decolou.
Um dia para a IA leva 10 anos para o mundo humano. O AIGC está se desenvolvendo na velocidade da luz, o tipo de velocidade da luz que cega os olhos das pessoas!
As ferramentas apenas seguem a tendência e o que deveria ser eliminado já foi eliminado.
Esta ferramenta é muito mais fácil de usar do que o Midjourney para fazer logotipos.
Referências:
https://styledrop.github.io/