Narzędzie do generowania dźwięku - Stability AI przedstawia Stable Audio

17 października 2023

Kiedy myślimy o sztucznej inteligencji, generowaniu dźwięku i muzyki, nie sposób pominąć najnowszego osiągnięcia od Stability AI – Stable Audio. Ta nowa platforma AI, znana wcześniej głównie z wizualizacji tworzonych przez algorytmy, otwiera drzwi do fascynujących możliwości, pozwalając na konwersję tekstu w dźwięk.

Stable Audio opiera się na zaawansowanym modelu dyfuzyjnym, który pierwotnie był używany do generowania obrazów na popularnej platformie Stable Diffusion. Jednak w przypadku Stable Audio model ten przeszedł gruntowne przekształcenie, teraz jest szkolony na dźwięku, a nie na danych wizualnych. To narzędzie stwarza przestrzeń dla tworzenia nie tylko muzyki, ale także bogatego tła dźwiękowego dla różnych projektów.

Eelastyczność odróżnia Stable Audio od innych narzędzi generujących dźwięk

Standardowe modele dyfuzji dźwięku generują dźwięki o stałej długości, co bywało ograniczeniem dla artystów i producentów muzycznych. Stable Audio to zmienia. Teraz można generować dźwięki o różnych długościach, a to oznacza większą swobodę tworzenia.

Tę elastyczność osiągnięto dzięki zaawansowanemu szkoleniu modelu w dziedzinie muzyki oraz dodawaniu metadanych tekstowych, określających czas rozpoczęcia i zakończenia utworu. To istotny krok naprzód, ponieważ wcześniej model szkolony na 30-sekundowym fragmencie mógł generować jedynie dźwięki o takiej długości. Teraz użytkownicy Stable Audio zyskują pełną kontrolę nad długością tworzonych utworów.

Efekt najnowszych badań

Stability AI podkreśla, że Stable Audio jest efektem najnowszych badań przeprowadzonych przez ich laboratorium Harmonai ds. generatywnego dźwięku. Jak donosi theverge, firma nadal inwestuje w rozwijanie architektury modeli, tworzenie nowych zbiorów danych i usprawnianie procedur szkoleniowych, dążąc do poprawy jakości wyników, zwiększenia sterowalności procesu, przyspieszenia generowania dźwięku oraz umożliwienia tworzenia utworów o różnych długościach.

Stable Audio zostało przeszkolone na ogromnym zbiorze danych, zawierającym ponad 800 000 plików audio, które obejmują różnorodne dźwięki muzyczne, efekty dźwiękowe oraz ścieżki instrumentów. Te dane pochodzą od firmy AudioSparx, specjalizującej się w licencjonowaniu muzyki, i reprezentują niezwykłą ilość – ponad 19 500 godzin dźwięku. Stability AI zapewnia, że uzyskano wszystkie niezbędne prawa autorskie do wykorzystania tych danych.

Stable Audio będzie dostępne w trzech wariantach cenowych

Darmowa wersja pozwoli użytkownikom generować dźwięki do 45 sekund w ramach 20 utworów miesięcznie; wersja Professional, dostępna za 11,99 USD, umożliwi tworzenie 500 utworów o długości do 90 sekund; natomiast subskrypcja Enterprise da firmom możliwość dostosowania sposobu korzystania oraz ceny. Warto zaznaczyć, że użytkownicy darmowej wersji nie mogą wykorzystywać komercyjnie dźwięków stworzonych za pomocą Stable Audio.

Nie nowinka, ale perełka!

Generowanie tekstu na dźwięk nie jest nowością, ale Stable Audio staje się jednym z czołowych graczy w tej dziedzinie. Inne firmy zajmujące się sztuczną inteligencją, takie jak Meta i Google, również eksperymentują z tym konceptem, tworząc narzędzia do generowania dźwięku i muzyki na podstawie tekstowych podpowiedzi.

Stable Audio ma ogromny potencjał w produkcji dźwiękowej, znalazł swoje zastosowanie w podcastach, filmach i wielu innych dziedzinach, przyspieszając tym samym proces tworzenia dźwiękowego otoczenia.

To tylko jedna z wielu innowacji, które możemy spodziewać się od Stability AI w dziedzinie generatywnej sztucznej inteligencji. Firma ogłosiła swoje plany ekspansji także w dziedzinie generowania dźwięku, wideo i trójwymiarowych obrazów, co zapowiada fascynującą przyszłość dla tego obszaru technologii.

Tweetnij

Marka osobista w epoce AI – jak budować autentyczny wizerunek i nie zgubić siebie?

AI i dane w SEM: jak podejmować lepsze decyzje i zwiększać skuteczność kampanii

Terminal płatniczy w telefonie a tradycyjny terminal – które rozwiązanie wybrać?

Szafy wydające – jak wybrać rozwiązanie, które usprawni logistykę w firmie?

Finanse potrzebują decyzji, nie kolejnych dashboardów – jak Amibudget ...

Finansowy agent AI – kiedy pieniądze zaczynają z nami rozmawiać

Jak wybrać platformę e-commerce bez kosztownych błędów i na co zwrócić uwagę w 2026 roku?

Jak Log Management przyspiesza wykrywanie problemów IT?

Finanse potrzebują decyzji, nie kolejnych dashboardów – jak Amibudget ...

15 lat innowacji! Poznaj laureatów jubileuszowej edycji Mobile Trends Awards 2025

Umarł GUI, niech żyje… doświadczenie bez interfejsu

UX bez perfekcjonizmu: dlaczego „odpuszczanie” jest dziś kluczową kompetencją projektanta

Jak systemy DAS rewolucjonizują łączność wewnątrzbudynkową?

Czy warto już dziś kupić telefon z 5G, jeśli mieszkasz w Katowicach?

Tablet do czytania – nowy wymiar cyfrowej lektury

Telefony komórkowe Infinix, Doogee czy OPPO – który smartfon będzie najlepszy dla Ciebie?

Cyfrowa rewolucja filantropii. Jak technologia zmienia crowdfunding i dobroczynność w Polsce?

Nowa era wyszukiwania: raport Altavia Kamikaze + K2 odsłania liderów AI Search w 40 kategoriach

Eleni Panagiotopoulou z SOFTSWISS wyróżniona tytułem Best AML Professional 2025

Jak stworzyć naprawdę ergonomiczne stanowisko pracy?

PIAP Connect – lokalne targi branży artykułów promocyjnych w nowej formule

Mobile Trends Conference 2026 – mniej hype’u, więcej świadomych decyzji

Narzędzie do generowania dźwięku – Stability AI przedstawia Stable Audio

Eelastyczność odróżnia Stable Audio od innych narzędzi generujących dźwięk

Efekt najnowszych badań

Stable Audio będzie dostępne w trzech wariantach cenowych

Nie nowinka, ale perełka!

AI Act w praktyce: 6 mitów, które mogą drogo kosztować Twoją firmę

Liderzy w erze AI: jak zachować ludzki pierwiastek w cyfrowym świecie?

AI – przyszłość e-commerce? Jak sztuczna inteligencja zmienia handel online

AI i ludzie: czy transformacja zmieni pracowników, czy kompetencje?