VToonify: модель искусственного интеллекта в реальном времени для создания художественных портретных видеороликов

Исследователи из Наньянского технологического университета представили новую платформу VToonify для создания управляемой передачи портретного видео в высоком разрешении. VToonify использует слои StyleGAN среднего и высокого разрешения для рендеринга высококачественных художественных портретов на основе многомасштабных функций контента, извлеченных кодировщиком для лучшего сохранения деталей кадра. Результаты экспериментов показывают, что наша платформа может генерировать видео неизменно высокого качества и с желаемым выражением лица без необходимости выравнивания лица или ограничений размера кадра.
В результате полностью сверточная архитектура, которая принимает невыровненные лица в видеороликах разных размеров, создает полные лица с органичными движениями. Платформа VToonify унаследовала привлекательные особенности этих моделей для гибкого управления стилем цвета и интенсивности. Он совместим с существующими моделями тонизации изображений на основе StyleGAN, что позволяет расширить их до тонизации видео. В этой работе представлены два экземпляра VToonify для передачи портретного стиля видео на основе коллекций и образцов соответственно, основанные на Toonify и DualStyleGAN.
Обширные экспериментальные результаты показывают, что предлагаемая платформа VToonify превосходит конкурирующие подходы в создании художественных портретных фильмов с настраиваемыми элементами управления стилем, которые имеют превосходное качество и постоянство во времени. Посетите GitHub для получения более подробной информации.
Статья по теме: OpenAI работает над созданием модели искусственного интеллекта для видео
Чтобы обеспечить управляемую передачу стилей портретного видео высокого разрешения, VToonify сочетает в себе преимущества платформы перевода изображений и платформы на основе StyleGAN.
(A) Для поддержки переменного размера ввода система перевода изображений использует полностью сверточные сети. Тем не менее, при обучении с нуля сложно передать высокое разрешение и контролируемый стиль.
(B) Платформа на основе StyleGAN, которая поддерживает только фиксированный размер изображения и потери детализации, использует предварительно обученную модель StyleGAN для контролируемой передачи стилей с высоким разрешением.
(C) Чтобы создать полностью сверточную архитектуру кодировщика-генератора, напоминающую архитектуру платформы перевода изображений, наша гибридная система расширяет StyleGAN, удаляя входные функции фиксированного размера и слои с низким разрешением.
Чтобы сохранить детали кадра, разработчики обучают кодировщик извлекать функции многомасштабного контента из входного кадра в качестве дополнительного условия контента. VToonify наследует гибкость управления стилем модели StyleGAN, помещая ее в генератор для очистки как данных, так и модели.
 Статья по теме: Lambda Labs анонсировала микшер изображений с искусственным интеллектом, который может объединять до пяти изображений
Платформа VToonify унаследовала привлекательные характеристики гибкого управления стилями от текущих моделей тонизации изображений на основе StyleGAN и совместима с ними, что позволяет расширить их до тоонизации видео. Наш VToonify предлагает следующее, используя модель DualStyleGAN в качестве основы StyleGAN:
Перенос стиля из образцовых структур;
Модификация степени стиля;
Передача цветового стиля по образцам.
 Для дистилляции StyleGAN разработчики сравнивают две магистрали Toonify и DualStyleGAN, а также базовую систему преобразования изображений в изображения высокого разрешения Pix2pixHD. VToonify-T и VToonify-D превосходят аналогичные магистральные системы Toonify и DualStyleGAN с точки зрения стилизации всего видео, сохраняя при этом то же высокое качество и визуальные элементы, что и магистральные системы для каждого отдельного кадра. Например, VToonify-T следует за Toonify, чтобы придать сильный эффект стиля, например, фиолетовые волосы в стиле Arcane. VToonify-D, с другой стороны, лучше сохраняет черты лица. Pix2pixHD имеет мерцание и артефакты по сравнению с VToonify-D.
Подробнее об ИИ:
Дамба стилей художников Midjourney и Dall-E с примерами: 130 известных техник рисования с помощью искусственного интеллекта
Google увольняет 12 тысяч сотрудников, но обещает инновации в сфере ИИ
eMarketer: Следующим единорогом стоимостью более 100 миллиардов долларов станет стартап по генеративному искусственному интеллекту
Пост VToonify: Модель искусственного интеллекта в реальном времени для создания художественных портретных видеороликов впервые появилась на Metaverse Post.