TokenFlow: новые функции Diffusion для расширенного редактирования видео с помощью искусственного интеллекта на основе текстовых подсказок

Используя модель распространения текста в изображение, TokenFlow предлагает пользователям возможность редактировать исходные видео на основе конкретных текстовых подсказок. Результат? Усовершенствованный видеовыход, который не только соответствует входному текстовому запросу, но также сохраняет пространственную конфигурацию исходного видео и динамику движения. Это достижение основано на главном наблюдении TokenFlow: для поддержания согласованности в отредактированном видео необходимо обеспечить согласованность в пространстве функций распространения.
Метод, который использует TokenFlow, уникален и эффективен. Вместо того, чтобы полагаться на обширное обучение или корректировку, структура использует функции диффузии, полученные из межкадровых соответствий, присущих модели. Эта возможность позволяет TokenFlow легко согласовываться с уже существующими методами редактирования текста в изображение.
Более глубокое погружение в методологию TokenFlow показывает ее способность поддерживать временную согласованность. Фреймворк отмечает, что временная согласованность видео неразрывно связана с временной согласованностью представления его функций. Традиционные методы покадрового редактирования видео часто могут нарушить эту естественную согласованность функций. Однако TokenFlow гарантирует, что эта согласованность останется неизменной.
В основе этого процесса лежит метод TokenFlow, обеспечивающий согласованное во времени редактирование. Это достигается путем подчеркивания единообразия функций внутреннего распространения в разных кадрах в процессе редактирования. Этому способствует распространение выбранного набора отредактированных функций по кадрам с использованием связей между исходными видеофункциями.
Процесс разворачивается следующим образом:
Для входного видео каждый кадр инвертируется для извлечения его токенов, по сути, выходных функций модулей самообслуживания.
Соответствия между признаками затем выводятся с использованием поиска ближайшего соседа.
Во время шумоподавления ключевые кадры видео подвергаются совместному редактированию с помощью блока расширенного внимания, что приводит к созданию отредактированных токенов.
Эти отредактированные токены затем распространяются по видео в соответствии с заранее установленными соответствиями исходных функций видео.
Примечательно, что подход TokenFlow применяется в то время, когда в секторе генеративного искусственного интеллекта наблюдается сдвиг в сторону видео. Эта платформа, ориентированная на сохранение пространственных и динамических аспектов входного видео при обеспечении единообразного редактирования, устанавливает новый стандарт. Более того, устраняя необходимость в обучении или тонкой настройке, TokenFlow доказывает свою адаптивность и потенциал гармоничной работы с другими инструментами редактирования текста в изображения. Эта возможность еще раз подтверждается превосходными результатами редактирования TokenFlow широкого спектра реального видеоконтента.
Подробнее об ИИ:
Модель преобразования текста в видео Gen-2 может создавать короткие видеоролики с использованием текстовых подсказок
Знакомьтесь: рисование видео: редактирование текста с помощью Stable Diffusion и Neural Atlases
Google преодолевает мета, выпустив новый генератор искусственного интеллекта для преобразования текста в видео — Imagen Video
Публикация TokenFlow: новые функции распространения для расширенного редактирования видео с помощью искусственного интеллекта на основе текстовых подсказок впервые появилась на сайте Metaverse Post.