Источник перепечатки статьи: AIGC.

Источник: Открытое сообщество AIGC.

14 сентября известная платформа с открытым исходным кодом Stability AI выпустила на своем официальном сайте продукт для генерации звука AI Stable Audio. (Адрес бесплатного использования: https://www.stableaudio.com/generate)

Пользователи могут напрямую создавать более 20 типов фоновой музыки, такой как рок, джаз, электроника, хип-хоп, хэви-метал, фолк, поп, панк и кантри, с помощью текстовых подсказок.

Например, введите такие ключевые слова, как дискотека, драм-машина, синтезатор, бас, фортепиано, гитара, веселый, 115 ударов в минуту и ​​т. д., чтобы создать фоновую музыку.

В настоящее время Stable Audio имеет две бесплатные и платные версии: бесплатная версия, которая может генерировать 20 музыкальных произведений в месяц максимальной продолжительностью 45 секунд и не может использоваться в коммерческих целях, платная версия стоит 11,99 долларов США в месяц; около 87 юаней), может генерировать 500 музыкальных произведений, максимальная продолжительность 90 секунд, может использоваться в коммерческих целях.

Если вы не хотите платить, вы можете зарегистрировать еще несколько аккаунтов и соединить сгенерированную музыку через AU (аудиоредактор) или PR для достижения того же эффекта.

Краткое введение в Stable Audio

За последние несколько лет диффузионные модели получили быстрое развитие в области изображений, видео, аудио и других областях, что может значительно повысить эффективность обучения и вывода. Но существует проблема с моделями диффузии в сфере аудио, которые обычно создают контент фиксированного размера.

Например, модель распространения звука может быть обучена на 30-секундных аудиоклипах и генерировать только 30-секундные аудиоклипы. Чтобы преодолеть это техническое узкое место, Stable Audio использует более продвинутую модель.

Это модель скрытого распространения звука, основанная на текстовых метаданных, продолжительности аудиофайла и настройках времени начала, позволяющая контролировать содержимое и длину генерируемого звука. Это дополнительное условие времени позволяет пользователю генерировать звук указанной длины.

Использование скрытого представления звука с сильно уменьшенной дискретизацией может обеспечить более высокую эффективность вывода по сравнению с исходным звуком. Благодаря новейшей модели стабильного звука Stable Audio может воспроизводить 95 секунд стереозвука с помощью графического процессора NVIDIA A100 менее чем за одну секунду с частотой дискретизации 44,1 кГц.

Что касается обучающих данных, Stable Audio использует набор данных, состоящий из более чем 800 000 аудиофайлов, включая музыку, звуковые эффекты и различные музыкальные инструменты.

Набор данных насчитывает более 19 500 часов аудио, а также он сотрудничает с поставщиком музыкальных услуг AudioSparx, поэтому сгенерированная музыка может быть использована для коммерциализации.

модель скрытой диффузии

Модели скрытой диффузии, используемые Stable Audio, представляют собой генеративную модель на основе диффузии, которая в основном используется в скрытом пространстве кодирования предварительно обученных автокодировщиков. Это подход, сочетающий в себе автоэнкодеры и диффузионные модели.

Автоэнкодеры сначала используются для изучения скрытых низкоразмерных представлений входных данных (таких как изображения или аудио). Это скрытое представление отражает важные особенности входных данных и может использоваться для восстановления исходных данных.

Затем диффузионные модели обучаются в этом скрытом пространстве, постепенно изменяя скрытые переменные для генерации новых данных.

Основное преимущество этого подхода заключается в том, что он может значительно улучшить скорость обучения и вывода диффузионных моделей. Поскольку процесс распространения происходит в относительно небольшом скрытом пространстве, а не в исходном пространстве данных, новые данные могут генерироваться более эффективно.

Кроме того, работая в скрытом пространстве, такие модели также могут обеспечить лучший контроль над генерируемыми данными. Например, можно манипулировать скрытыми переменными для изменения определенных характеристик сгенерированных данных или можно управлять процессом генерации данных, налагая ограничения на скрытые переменные.

Стабильное использование звука и отображение на корпусе

«Открытое сообщество AIGC» попробовало бесплатную версию Stable Audio. Способ использования аналогичен методу ChatGPT. Просто введите текстовую подсказку. Содержание подсказки включает четыре категории: детали, менталитет, инструменты и биты.

Следует отметить, что если вы хотите, чтобы создаваемая музыка была более нежной, ритмичной и ритмичной, входной текст также необходимо сделать более подробным. Другими словами, чем больше текстовых подсказок вы введете, тем лучше будет создаваемый эффект.

Стабильный пользовательский интерфейс аудио

Ниже приведен пример создания звука.

Транс, остров, пляж, солнце, 4 утра, прогрессив, синтезатор, 909, драматические аккорды, припев, оптимистичный, ностальгический, динамичный.

Мягкое объятие, комфорт, низкий синтезатор, мерцание, ветер и листья, окружающий, умиротворяющий, расслабляющий, вода.

Электронная поп-музыка, большой синтезатор с реверберацией, драм-машина, атмосферная, угрюмая, ностальгическая, классная, инструментальная поп-музыка, 100 ударов в минуту.

3/4, 3 доли, гитара, барабаны, ярко, радостно, хлопки в ладоши

Материал этой статьи взят с официального сайта Stability AI. Если есть какие-либо нарушения, свяжитесь с нами, чтобы удалить их.

КОНЕЦ