Kiedy myślimy o sztucznej inteligencji, generowaniu dźwięku i muzyki, nie sposób pominąć najnowszego osiągnięcia od Stability AI – Stable Audio. Ta nowa platforma AI, znana wcześniej głównie z wizualizacji tworzonych przez algorytmy, otwiera drzwi do fascynujących możliwości, pozwalając na konwersję tekstu w dźwięk.
Stable Audio opiera się na zaawansowanym modelu dyfuzyjnym, który pierwotnie był używany do generowania obrazów na popularnej platformie Stable Diffusion. Jednak w przypadku Stable Audio model ten przeszedł gruntowne przekształcenie, teraz jest szkolony na dźwięku, a nie na danych wizualnych. To narzędzie stwarza przestrzeń dla tworzenia nie tylko muzyki, ale także bogatego tła dźwiękowego dla różnych projektów.
Eelastyczność odróżnia Stable Audio od innych narzędzi generujących dźwięk
Standardowe modele dyfuzji dźwięku generują dźwięki o stałej długości, co bywało ograniczeniem dla artystów i producentów muzycznych. Stable Audio to zmienia. Teraz można generować dźwięki o różnych długościach, a to oznacza większą swobodę tworzenia.
Tę elastyczność osiągnięto dzięki zaawansowanemu szkoleniu modelu w dziedzinie muzyki oraz dodawaniu metadanych tekstowych, określających czas rozpoczęcia i zakończenia utworu. To istotny krok naprzód, ponieważ wcześniej model szkolony na 30-sekundowym fragmencie mógł generować jedynie dźwięki o takiej długości. Teraz użytkownicy Stable Audio zyskują pełną kontrolę nad długością tworzonych utworów.
Efekt najnowszych badań
Stability AI podkreśla, że Stable Audio jest efektem najnowszych badań przeprowadzonych przez ich laboratorium Harmonai ds. generatywnego dźwięku. Jak donosi theverge, firma nadal inwestuje w rozwijanie architektury modeli, tworzenie nowych zbiorów danych i usprawnianie procedur szkoleniowych, dążąc do poprawy jakości wyników, zwiększenia sterowalności procesu, przyspieszenia generowania dźwięku oraz umożliwienia tworzenia utworów o różnych długościach.
Stable Audio zostało przeszkolone na ogromnym zbiorze danych, zawierającym ponad 800 000 plików audio, które obejmują różnorodne dźwięki muzyczne, efekty dźwiękowe oraz ścieżki instrumentów. Te dane pochodzą od firmy AudioSparx, specjalizującej się w licencjonowaniu muzyki, i reprezentują niezwykłą ilość – ponad 19 500 godzin dźwięku. Stability AI zapewnia, że uzyskano wszystkie niezbędne prawa autorskie do wykorzystania tych danych.
Stable Audio będzie dostępne w trzech wariantach cenowych
Darmowa wersja pozwoli użytkownikom generować dźwięki do 45 sekund w ramach 20 utworów miesięcznie; wersja Professional, dostępna za 11,99 USD, umożliwi tworzenie 500 utworów o długości do 90 sekund; natomiast subskrypcja Enterprise da firmom możliwość dostosowania sposobu korzystania oraz ceny. Warto zaznaczyć, że użytkownicy darmowej wersji nie mogą wykorzystywać komercyjnie dźwięków stworzonych za pomocą Stable Audio.
Nie nowinka, ale perełka!
Generowanie tekstu na dźwięk nie jest nowością, ale Stable Audio staje się jednym z czołowych graczy w tej dziedzinie. Inne firmy zajmujące się sztuczną inteligencją, takie jak Meta i Google, również eksperymentują z tym konceptem, tworząc narzędzia do generowania dźwięku i muzyki na podstawie tekstowych podpowiedzi.
Stable Audio ma ogromny potencjał w produkcji dźwiękowej, znalazł swoje zastosowanie w podcastach, filmach i wielu innych dziedzinach, przyspieszając tym samym proces tworzenia dźwiękowego otoczenia.
To tylko jedna z wielu innowacji, które możemy spodziewać się od Stability AI w dziedzinie generatywnej sztucznej inteligencji. Firma ogłosiła swoje plany ekspansji także w dziedzinie generowania dźwięku, wideo i trójwymiarowych obrazów, co zapowiada fascynującą przyszłość dla tego obszaru technologii.