Autor: Xinzhiyuan

Tan pronto como salió Google StyleDrop, instantáneamente se convirtió en un éxito en Internet.

Dada la Noche estrellada de Van Gogh, la IA se transformó en el Maestro Van Gogh y, después de una comprensión de alto nivel de este estilo abstracto, creó innumerables pinturas similares.

Otro estilo de dibujos animados, los objetos que quiero dibujar son mucho más lindos.

Incluso puede controlar con precisión los detalles y diseñar un logotipo de estilo original.

El encanto de StyleDrop es que solo necesitas una imagen como referencia, no importa cuán complejo sea el estilo artístico, puedes deconstruirlo y recrearlo.

Los internautas han dicho que es el tipo de herramienta de inteligencia artificial que elimina a los diseñadores.

La candente investigación de StyleDrop es el último producto del equipo de investigación de Google.

Dirección del artículo: https://arxiv.org/pdf/2306.00983.pdf

Ahora, con herramientas como StyleDrop, no sólo puedes dibujar con más control, sino que también puedes completar trabajos finos que antes eran inimaginables, como dibujar un logotipo.

Incluso los científicos de Nvidia lo calificaron como un resultado "fenomenal".

Maestro de "Personalización"

El autor del artículo presentó que la inspiración para StyleDrop provino de Eyedropper (herramienta de absorción/selección de color).

De manera similar, StyleDrop también espera que todos puedan "elegir" un estilo de manera rápida y sin esfuerzo a partir de una o pocas imágenes de referencia para generar una imagen de ese estilo.

Un perezoso puede tener 18 estilos:

Un panda tiene 24 estilos:

Las acuarelas pintadas por niños fueron perfectamente controladas por StyleDrop, e incluso se restauraron las arrugas del papel.

Debo decir que es demasiado fuerte.

También existe StyleDrop que hace referencia al diseño de letras inglesas en diferentes estilos:

Las mismas letras al estilo Van Gogh.

También hay dibujos lineales. El dibujo lineal es una imagen muy abstracta y requiere una gran racionalidad en la composición de la imagen. Los métodos anteriores han sido difíciles de lograr.

Los trazos de la sombra del queso en la imagen original se restauran en los objetos de cada imagen.

Consulte la creación del logotipo de Android.

Además, los investigadores también ampliaron las capacidades de StyleDrop para no solo personalizar el estilo, combinado con DreamBooth, sino también personalizar el contenido.

Por ejemplo, siempre en el estilo Van Gogh, genera un cuadro de estilo similar para el pequeño Corgi:

Aquí hay otro. El corgi de abajo se siente como la "Esfinge" de las pirámides de Egipto.

¿como trabajar?

StyleDrop se basa en Muse y consta de dos partes clave:

Uno es ajustar eficazmente los parámetros del Transformer visual generado y el otro es el entrenamiento iterativo con retroalimentación.

Luego, los investigadores sintetizaron imágenes de los dos modelos ajustados.

Muse es un modelo de síntesis de texto a imagen de última generación basado en un transformador de imágenes generado por máscara. Contiene dos módulos de síntesis para generación de imágenes base (256 × 256) y superresolución (512 × 512 o 1024 × 1024).

Cada módulo consta de un codificador de texto T, un transformador G, un muestreador S, un codificador de imágenes E y un decodificador D.

T asigna el mensaje textual t∈T al espacio de incrustación continuo E. G procesa incrustaciones de texto e ∈ E para generar logaritmos de secuencias de tokens visuales l ∈ L. S extrae la secuencia del token visual v ∈ V del logaritmo a través de una decodificación iterativa que ejecuta varios pasos de inferencia del transformador condicionada al texto que incorpora e y el token visual decodificado del paso anterior.

Finalmente, D asigna la secuencia de tokens discretos al espacio de píxeles I. En resumen, dada una indicación de texto t, la imagen I se sintetiza de la siguiente manera:

La Figura 2 es una arquitectura simplificada de la capa transformadora de Muse, que se ha modificado parcialmente para admitir adaptadores y ajuste eficiente de parámetros (PEFT).

Utilice el transformador de la capa L para procesar la secuencia de tokens visuales que se muestran en verde bajo la condición de incrustar texto e. Los parámetros aprendidos θ se utilizan para construir pesos para el ajuste del adaptador.

Para entrenar a θ, en muchos casos los investigadores solo pueden recibir imágenes como referencias de estilo.

Los investigadores deben adjuntar manualmente indicaciones de texto. Propusieron un enfoque simple y basado en plantillas para construir indicaciones de texto que consisten en una descripción del contenido seguida de una frase de estilo descriptivo.

Por ejemplo, los investigadores utilizaron "gato" para describir un objeto en la Tabla 1 y agregaron "pintura de acuarela" como descripción de estilo.

Incluir una descripción del contenido y el estilo en las indicaciones del texto es crucial porque ayuda a separar el contenido del estilo, que es el objetivo principal del investigador.

La Figura 3 muestra el entrenamiento iterativo con retroalimentación.

Al entrenar con una única imagen de referencia de estilo (cuadro naranja), algunas imágenes generadas por StyleDrop pueden mostrar contenido extraído de la imagen de referencia de estilo (cuadro rojo, imagen con una casa de fondo similar a la imagen de estilo).

Otras imágenes (cuadros azules) separan mejor el estilo del contenido. El entrenamiento iterativo de StyleDrop en buenas muestras (cuadro azul) da como resultado un mejor equilibrio entre estilo y fidelidad del texto (cuadro verde).

Aquí los investigadores también utilizaron dos métodos:

-Puntuación CLIP

Este método se utiliza para medir la alineación de imágenes y texto. Por lo tanto, puede evaluar la calidad de las imágenes generadas midiendo la puntuación CLIP (es decir, la similitud del coseno de las incrustaciones CLIP visuales y textuales).

Los investigadores pueden seleccionar la imagen CLIP con la puntuación más alta. A este método lo llaman entrenamiento iterativo (CF) con retroalimentación CLIP.

En experimentos, los investigadores descubrieron que utilizar puntuaciones CLIP para evaluar la calidad de imágenes sintéticas es una forma eficaz de mejorar la memoria (es decir, la fidelidad textual) sin una pérdida excesiva de la fidelidad del estilo.

Por otro lado, sin embargo, es posible que las puntuaciones CLIP no se alineen completamente con la intención humana y no logren capturar atributos estilísticos sutiles.

-AF

La retroalimentación humana (HF) es una forma más directa de inyectar la intención del usuario directamente en la evaluación de la calidad de la imagen sintética.

HF ha demostrado su poder y eficacia en el ajuste de LLM para el aprendizaje por refuerzo.

HF se puede utilizar para compensar la incapacidad de las puntuaciones CLIP para capturar atributos de estilo sutiles.

Actualmente, una gran cantidad de investigaciones se han centrado en el problema de la personalización de los modelos de difusión de texto a imagen para sintetizar imágenes que contienen múltiples estilos personales.

Los investigadores muestran cómo DreamBooth y StyleDrop se pueden combinar de forma sencilla para personalizar tanto el estilo como el contenido.

Esto se logra mediante el muestreo de dos distribuciones generativas modificadas, guiadas por θs para estilo y θc para contenido, respectivamente, parámetros del adaptador entrenados de forma independiente en imágenes de referencia de estilo y contenido.

A diferencia de los productos disponibles en el mercado, el enfoque del equipo no requiere capacitación conjunta de parámetros que se pueden aprender en múltiples conceptos, lo que conduce a mayores capacidades combinatorias porque los adaptadores previamente capacitados se capacitan por separado en un solo tema y estilo.

El proceso de muestreo general de los investigadores siguió la decodificación iterativa de la ecuación (1), con logaritmos muestreados de manera diferente en cada paso de decodificación.

Sea t el mensaje de texto y c el mensaje de texto sin descriptor de estilo. El logaritmo se calcula en el paso k de la siguiente manera:

Donde: γ se usa para equilibrar StyleDrop y DreamBooth; si γ es 0, obtenemos StyleDrop, si es 1, obtenemos DreamBooth.

Configurando γ apropiadamente, podemos obtener una imagen adecuada.

Configuración experimental

Hasta la fecha, no se han realizado investigaciones exhaustivas sobre el ajuste de estilo de los modelos generativos de texto-imagen.

Por ello, los investigadores propusieron un nuevo plan experimental:

-recopilación de datos

Los investigadores recopilaron decenas de imágenes de diferentes estilos, desde acuarelas y pinturas al óleo, pasando por ilustraciones planas, representaciones 3D hasta esculturas de diferentes materiales.

-Configuración del modelo

Los investigadores utilizan adaptadores para ajustar StyleDrop basado en Muse. Para todos los experimentos, se utilizó el optimizador Adam para actualizar los pesos del adaptador para 1000 pasos con una tasa de aprendizaje de 0,00003. A menos que se indique lo contrario, los investigadores utilizan StyleDrop para representar la segunda ronda del modelo, que se entrenó con más de 10 imágenes sintéticas con retroalimentación humana.

-Evaluar

La evaluación cuantitativa de los informes de investigación se basa en CLIP, que mide la coherencia del estilo y la alineación textual. Además, los investigadores realizaron estudios de preferencias de los usuarios para evaluar la coherencia del estilo y la alineación del texto.

Como se muestra en la figura, los investigadores recopilaron 18 imágenes de diferentes estilos, resultado del procesamiento de StyleDrop.

Como puede ver, StyleDrop es capaz de capturar los matices de textura, sombreado y estructura de varios estilos, brindándole un mayor control que antes sobre el estilo.

A modo de comparación, los investigadores también presentan los resultados de DreamBooth en Imagen, la implementación LoRA de DreamBooth en Stable Diffusion y los resultados de la inversión de texto.

Los resultados específicos se muestran en la tabla, los indicadores de evaluación de la puntuación humana (arriba) y la puntuación CLIP (abajo) de la alineación imagen-texto (Texto) y la alineación del estilo visual (Estilo).

Comparación cualitativa de (a) DreamBooth, (b) StyleDrop y (c) DreamBooth + StyleDrop:

Aquí, los investigadores aplicaron las dos métricas de la puntuación CLIP mencionadas anteriormente: puntuaciones de texto y estilo.

Para la puntuación del texto, los investigadores midieron la similitud del coseno entre la imagen y el texto incrustado. Para la puntuación de estilo, los investigadores miden la similitud del coseno entre la referencia de estilo y la incrustación de la imagen sintética.

Los investigadores generaron un total de 1.520 imágenes para 190 mensajes de texto. Si bien los investigadores esperaban que la puntuación final fuera más alta, las métricas no son perfectas.

Y el entrenamiento iterativo (TI) mejoró las puntuaciones de los textos, lo que estaba en consonancia con los objetivos de los investigadores.

Sin embargo, como compensación, sus puntuaciones de estilo en el modelo de primera ronda se reducen porque están entrenados en imágenes sintéticas y el estilo puede estar sesgado por el sesgo de selección.

DreamBooth en Imagen no alcanza a StyleDrop en puntuación de estilo (HF 0,644 frente a 0,694).

Los investigadores notaron que el aumento en la puntuación de estilo de DreamBooth en Imagen no fue significativo (0,569 → 0,644), mientras que el aumento de StyleDrop en Muse fue más obvio (0,556 → 0,694).

Los investigadores analizaron que el ajuste de estilo en Muse es más efectivo que el de Imagen.

Además, para un control detallado, StyleDrop captura diferencias de estilo sutiles, como compensación de color, gradación o control de ángulos agudos.

Comentarios calientes de los internautas.

Si los diseñadores tienen StyleDrop, su eficiencia en el trabajo será 10 veces más rápida y ya habrá despegado.

Un día para la IA lleva 10 años para el mundo humano. ¡AIGC se está desarrollando a la velocidad de la luz, el tipo de velocidad de la luz que ciega los ojos de las personas!

Las herramientas simplemente siguen la tendencia y lo que debería eliminarse ya ha sido eliminado.

Esta herramienta es mucho más fácil de usar que Midjourney para crear logotipos.

Referencias:

https://styledrop.github.io/