Stable Audio: Musik und Soundeffekte mit generative AI
Stability AI bringt ein neues Tool auf den Markt: Stable Audio generiert kostenlos Songs, Instrumentklänge und Soundeffekte aus Textprompts
Nach Bild, Video und Sprachgenerierung war es nur eine Frage der Zeit, bis sich Stability AI der Musik widmet. Das neue Tool Stable Audio ist in zwei Lizenzmodellen verfügbar und erlaubt die Komposition kurzer Songs mittels einer Textbeschreibung.
Kommerziell nutzbare Sounds generieren
Stable Audio funktioniert ganz ähnlich wie gängige KI-Tools. Ein schlichtes Interface mit einem Texteingabefeld ermöglicht die Interaktion mit Model. Pro Nutzer:innen können zusätzlich auch die Dauer des generierten Stücks definieren. Bis zu 90 Sekunden sind möglich, Nutzer:innen der Free-Variante generieren maximal 45 Sekunden.
Nach Start eines Generations-Vorgangs dauert es nur wenige Sekunden, bis man die ersten selbst beschriebenen Töne anhören und als mp3-Format downloaden kann.
Pro Nutzer:innen steht zudem die Option als WAV-Download offen. Sie können monatlich bis zu 500 generierte Lieder, Soundeffekte und Töne für rund 12 Dollar pro Monat uneingeschränkt kommerziell nutzen. Free-User können maximal 20 Prompts im Monat eingeben und dürfen die Ergebnisse nur als Samples in eigenen, nichtkommerziellen Projekten einsetzen.
Training des Modells
Das Musik-Tool basiert auf Stability-AI-Technik und einem Latent Diffusion Model, das – nach Zustimmung der Interpret:innen – mit Sounddaten und Metabeschreibungen von AudioSparx trainiert wurde. Über 800.000 Audio Files mit insgesamt rund 19.000 Stunden Dauer stecken hinter Stable Audio und ermöglichen so fast unendliche Möglichkeiten für den Output. Künftig plant Stability AI zusätzlich ein Modell, das mit Open Source Daten trainiert werden soll.
Wer sich im Detail für den Trainingsprozess und die Funktion des Modells interessiert, findet weitere Informationen dazu in einem Blogbeitrag des Stability-AI-Forschungs-Teams.
Sound Prompting: So funktioniert´s
In der Handhabung ist das Modell ganz einfach und ein Guide unterstützt Einsteiger:innen bei der Formulierung ihrer Prompts. Detailtiefe, Angaben zu Tempo, Emotion und Instrumenten helfen dabei, ein genaueres Ergebnis zu erzeugen. Beispiele aus Prompt und Soundergebnis findet ihr auf der Stable Audio Website.
Bei ersten Tests haben wir festgestellt, dass kurze Prompts deutlich besser funktionieren. So lassen sich verschiedenste Sounds und Songs erzeugen, die oft schon ziemlich professionell klingen. Schwierigkeiten hat das Modell allerdings, wenn im Song ein Tempowechsel stattfinden soll, die musikalische Szenerie wechselt, oder Stimmen vorkommen.
Für Kreative ist es trotzdem schon jetzt einen Test wert, denn es könnte die langwierige Suche nach Stock-Sounds verkürzen und bei der Vermittlung zwischen Branddesigner:innen und Sounddienstleistern helfen. Was meint ihr – sollte PAGE einen eigenen Jingle haben?
Das könnte dich auch interessieren