TokenFlow: Nuevas funciones de difusión para una edición de video con IA mejorada basada en indicaciones de texto

Al utilizar un modelo de difusión de texto a imagen, TokenFlow ofrece a los usuarios la oportunidad de editar videos de origen en función de indicaciones de texto específicas. ¿El resultado? Una salida de video refinada que no solo se alinea con la indicación de texto de entrada, sino que también conserva la configuración espacial y la dinámica de movimiento del video original. Este logro se basa en la observación principal de TokenFlow: para mantener la coherencia en el video editado, es imperativo imponer la coherencia dentro del espacio de características de difusión.
El método que emplea TokenFlow es único y eficiente. En lugar de depender de un entrenamiento o ajustes exhaustivos, el marco aprovecha las características de difusión derivadas de las correspondencias entre cuadros inherentes al modelo. Esta capacidad permite que TokenFlow se adapte perfectamente a las técnicas de edición de texto a imagen preexistentes.
Un análisis más profundo de la metodología de TokenFlow revela su habilidad para mantener la coherencia temporal. El marco observa que la coherencia temporal de un vídeo está intrínsecamente vinculada a la coherencia temporal de su representación de características. Los métodos tradicionales, al editar vídeos fotograma a fotograma, a menudo pueden alterar esta coherencia natural de características. Sin embargo, TokenFlow garantiza que esta coherencia no se vea afectada.
En el centro de este proceso se encuentra el método de TokenFlow para lograr una edición consistente en el tiempo. Esto se logra enfatizando la uniformidad dentro de las características de difusión internas en los diferentes fotogramas durante la progresión de la edición. Esto se facilita mediante la propagación de un conjunto seleccionado de características editadas en los fotogramas, utilizando conexiones entre las características del video original.
El proceso se desarrolla de la siguiente manera:
Para un video de entrada, cada fotograma se invierte para extraer sus tokens, esencialmente las características de salida de los módulos de autoatención.
Luego se derivan las correspondencias de características entre cuadros utilizando una búsqueda del vecino más cercano.
Durante la eliminación de ruido, los fotogramas clave del vídeo se someten a una edición conjunta a través de un bloque de atención extendida, lo que lleva a la creación de los tokens editados.
Estos tokens editados se difunden luego a lo largo del vídeo, de acuerdo con las correspondencias preestablecidas de las características del vídeo original.
Cabe destacar que el enfoque de TokenFlow llega en un momento en el que el sector de la IA generativa está experimentando un cambio hacia el vídeo. El marco, con su enfoque en preservar los aspectos espaciales y de movimiento de los vídeos de entrada al tiempo que garantiza una edición consistente, establece un nuevo estándar. Además, al eliminar la necesidad de entrenamiento o ajustes, TokenFlow demuestra su adaptabilidad y potencial para trabajar en armonía con otras herramientas de edición de texto a imagen. Esta capacidad se ha ejemplificado aún más a través de los resultados de edición superiores de TokenFlow en una amplia gama de contenido de vídeo del mundo real.
Lea más sobre IA:
El modelo de texto a vídeo de segunda generación puede generar vídeos cortos mediante indicaciones de texto
Conozca la edición de video en pintura: edición basada en texto con difusión estable y atlas neuronales
Google supera a Meta con el lanzamiento de un nuevo generador de texto a video con inteligencia artificial: Imagen Video
La publicación TokenFlow: Nuevas funciones de difusión para una edición de video con IA mejorada basada en indicaciones de texto apareció primero en Metaverse Post.