Quelle des Nachdrucks des Artikels: AIGC
Quelle: AIGC Open Community
Am 14. September veröffentlichte die berühmte Open-Source-Plattform Stability AI das audiogenerative KI-Produkt Stable Audio auf ihrer offiziellen Website. (Kostenlose Nutzungsadresse: https://www.stableaudio.com/generate)
Benutzer können über Textansagen direkt mehr als 20 Arten von Hintergrundmusik wie Rock, Jazz, Elektronik, Hip-Hop, Heavy Metal, Folk, Pop, Punk und Country generieren.
Geben Sie beispielsweise Schlüsselwörter wie Disco, Drum Machine, Synthesizer, Bass, Klavier, Gitarre, fröhlich, 115 BPM usw. ein, um Hintergrundmusik zu generieren.
Derzeit gibt es von Stable Audio zwei kostenlose und kostenpflichtige Versionen: die kostenlose Version, die 20 Musikstücke pro Monat mit einer maximalen Dauer von 45 Sekunden erzeugen kann und nicht für kommerzielle Zwecke genutzt werden kann, die 11,99 $ pro Monat kostet; ca. 87 Yuan), kann 500 Musikstücke erzeugen, maximale Dauer 90 Sekunden, kann kommerziell genutzt werden.
Wenn Sie nicht zahlen möchten, können Sie ein paar weitere Konten registrieren und die generierte Musik über AU (einen Audio-Editor) oder PR zusammenfügen, um den gleichen Effekt zu erzielen.
Eine kurze Einführung in Stable Audio
In den letzten Jahren haben sich Diffusionsmodelle in den Bereichen Bild, Video, Audio und anderen Bereichen rasant weiterentwickelt, wodurch die Trainings- und Inferenzeffizienz erheblich verbessert werden kann. Es gibt jedoch ein Problem mit Diffusionsmodellen im Audiobereich, die typischerweise Inhalte mit fester Größe erzeugen.
Beispielsweise könnte ein Audiodiffusionsmodell auf 30-Sekunden-Audioclips trainiert werden und nur 30-Sekunden-Audioclips generieren. Um diesen technischen Engpass zu überwinden, verwendet Stable Audio ein fortschrittlicheres Modell.
Hierbei handelt es sich um ein latentes Audiodiffusionsmodell, das auf Textmetadaten und Anpassungen der Audiodateidauer und der Startzeit basiert und die Kontrolle über den Inhalt und die Länge des generierten Audios ermöglicht. Diese zusätzliche Zeitbedingung ermöglicht es dem Benutzer, Audio einer bestimmten Länge zu generieren.
Durch die Verwendung einer stark heruntergesampelten latenten Darstellung des Audios kann eine schnellere Inferenzeffizienz im Vergleich zum Originalaudio erreicht werden. Mit dem neuesten Stable-Audio-Modell kann Stable Audio mit der NVIDIA A100-GPU 95 Sekunden Stereo-Audio in weniger als einer Sekunde rendern, mit einer Abtastrate von 44,1 kHz.
Als Trainingsdaten verwendet Stable Audio einen Datensatz, der aus mehr als 800.000 Audiodateien besteht, darunter Musik, Soundeffekte und verschiedene Musikinstrumente.
Der Datensatz umfasst insgesamt mehr als 19.500 Stunden Audio und kooperiert zudem mit dem Musikdienstleister AudioSparx, sodass die generierte Musik für die Kommerzialisierung genutzt werden kann.
Modell der latenten Diffusion
Die von Stable Audio verwendeten Latent Diffusion Models sind diffusionsbasierte generative Modelle, die hauptsächlich im latenten Codierungsraum vorab trainierter Autoencoder verwendet werden. Dies ist ein Ansatz, der Autoencoder und Diffusionsmodelle kombiniert.
Autoencoder werden zunächst verwendet, um niedrigdimensionale latente Darstellungen von Eingabedaten (z. B. Bildern oder Audio) zu lernen. Diese latente Darstellung erfasst wichtige Merkmale der Eingabedaten und kann zur Rekonstruktion der Originaldaten verwendet werden.
Anschließend werden Diffusionsmodelle in diesem latenten Raum trainiert, wobei die latenten Variablen schrittweise geändert werden, um neue Daten zu generieren.
Der Hauptvorteil dieses Ansatzes besteht darin, dass er die Trainings- und Inferenzgeschwindigkeit von Diffusionsmodellen erheblich verbessern kann. Da der Diffusionsprozess in einem relativ kleinen latenten Raum und nicht im ursprünglichen Datenraum stattfindet, können neue Daten effizienter generiert werden.
Darüber hinaus können solche Modelle durch die Arbeit im latenten Raum auch eine bessere Kontrolle über die generierten Daten ermöglichen. Beispielsweise können latente Variablen manipuliert werden, um bestimmte Eigenschaften der generierten Daten zu ändern, oder der Datengenerierungsprozess kann durch die Auferlegung von Einschränkungen für latente Variablen gesteuert werden.
Stabile Audionutzung und Gehäuseanzeige
„AIGC Open Community“ hat die kostenlose Version von Stable Audio ausprobiert. Die Verwendungsmethode ähnelt der von ChatGPT. Geben Sie einfach die Textaufforderung ein. Der Prompt-Inhalt umfasst vier Kategorien: Details, Mentalität, Instrumente und Beats.
Es ist zu beachten, dass der Eingabetext auch detaillierter sein muss, wenn die generierte Musik zarter, rhythmischer und rhythmischer sein soll. Mit anderen Worten: Je mehr Textaufforderungen Sie eingeben, desto besser ist der erzeugte Effekt.
Stabile Audio-Benutzeroberfläche
Das Folgende ist eine Falldemonstration der Audioerzeugung.
Trance, Insel, Strand, Sonne, 4 Uhr morgens, progressiv, Synthesizer, 909, dramatische Akkorde, Refrain, optimistisch, nostalgisch, dynamisch.
Sanfte Umarmung, Komfort, leiser Synthesizer, Schimmer, Wind und Blätter, Umgebung, friedlich, entspannend, Wasser.
Pop-Elektronik, großer Hall-Synthesizer, Drum-Machine, atmosphärisch, launisch, nostalgisch, cool, Pop-Instrumental, 100 BPM.
3/4, 3 Takte, Gitarre, Schlagzeug, hell, fröhlich, klatschen
Das Material dieses Artikels stammt von der offiziellen Website von Stability AI. Wenn es einen Verstoß gibt, kontaktieren Sie uns bitte, um ihn zu löschen.
ENDE

