По данным Cointelegraph, 4 октября Meta представила новый набор моделей искусственного интеллекта под названием «Movie Gen», способный генерировать фотореалистичные фильмы длительностью до 16 секунд, со звуковыми эффектами и фоновой музыкой. Хотя это и не первая мультимодальная модель ИИ, генерирующая видео и аудио из текстовых подсказок, Movie Gen, похоже, демонстрирует передовые возможности. Исследователи утверждают, что она превзошла конкурирующие системы в тестировании на людях.
В сообщении блога Meta говорится, что Movie Gen может выводить фильмы с частотой 16 кадров в секунду (FPS). Для контекста, традиционные голливудские фильмы снимались с частотой 24 FPS для достижения «киноэффекта». Хотя в играх и других графических приложениях предпочтительны более высокие частоты FPS, частота 16 FPS Meta близка к профессиональному качеству изображения фильмов. Модели могут генерировать совершенно новые фильмы на основе простых текстовых подсказок или изменять существующие изображения или видео для замены или изменения объектов и фонов.
Одной из самых передовых функций Movie Gen является его способность генерировать до 45 секунд аудио, включая звуковые эффекты и фоновую музыку, которая интегрируется и синхронизируется с движением в сгенерированных видео. Несмотря на эти достижения, Meta пока держит в тайне базовые модели Movie Gen. Компания не указала временные рамки запуска продукта, заявив, что перед развертыванием необходимо провести дополнительные испытания безопасности.
Исследовательская работа команды ИИ Meta указывает на то, что модели Movie Gen были разработаны для исследовательских целей и нуждаются в многочисленных улучшениях перед развертыванием. Компания планирует включить модели безопасности, чтобы отклонять запросы на ввод или поколения, которые нарушают ее политику, чтобы предотвратить ненадлежащее использование.