Pixabay
16:10 - 27.12.2022 / viihde / Findance
Riffusion - tekoäly luo musiikkia

Tekoälyn luoma musiikki ei ole uusi asia. Aiemmin algoritmeja käytettiin perusmelodioiden luomiseen, mutta niiden laatu oli yleensä kaukana täydellisestä. Tekoälyteknologian kehittymisen ansiosta Riffusion on kuitenkin vienyt tekoälyn tuottaman musiikin ajatuksen seuraavalle tasolle.

Seth Forsgrenin ja Hayk Martirosin kehittämä Riffusion on tekoälyn musiikkijärjestelmä, joka käyttää Stable Diffusion -nimistä tekniikkaa luodakseen kuvia äänen perusteella. Stable Diffusion on koneoppimistekniikka, joka toimii korvaamalla vähitellen visuaalista kohinaa sillä, miltä tekoälyn mielestä kehotteen pitäisi näyttää. Riffusionin luojat käyttivät tätä tekniikkaa hienosäätääkseen tekoälyn tuottamaan kuvia spektrogrammin perusteella. Spektrogrammit ovat äänen visuaalisia esityksiä, jotka näyttävät eri taajuuksien amplitudin ajan funktiona.

Riffusionin luojat käyttivät TechCrunchin mukaan tekniikkaa luodakseen kuvia musiikin spektrogrammeista, jotka he sitten merkitsivät asiaankuuluvilla termeillä, kuten "blues-kitaralla", "jazzpianolla" ja "afrobeatilla". Näin tekoäly sai hyvän käsityksen siitä, miltä tietyt äänet "näyttävät" ja miten se voisi luoda tai yhdistää niitä.

Malli osoittautui kykeneväksi tuottamaan spektrogrammeja, jotka ääniksi muunnettuina vastasivat TechCrunchin testissä melko hyvin kehotteita kuten "funky piano" ja "jazz-saksofoni", ja se pystyi myös siirtymään vähitellen äänestä toiseen tavalla, joka kuulosti luonnolliselta.

Valitettavasti tavallisen Stable Diffusion -kuvan 512 x 512 pikselin resoluutio ei riitä tuottamaan tyypillisen kolmen minuutin mittaisen kappaleen pituutta, joten Riffusionin tekijöiden oli keksittävä luova ratkaisu. He hyödynsivät mallin "latenttia tilaa", joka on kahden solmun, kuten kissojen ja koirien, välinen alue. Näin he pystyivät häivyttämään äänestä tai instrumentista toiseen ajan myötä.

Tuloksena on outoa, mielenkiintoista ääntä, vaikkei se välttämättä olekaan korkealuokkaista. Riffusionin luojat tutkivat nyt keinoja luoda tekoälynsä avulla pidempimuotoisia äänileikkeitä.

- Voimme jatkaa tästä eteenpäin moniin eri suuntiin, ja olemme innostuneita oppimaan matkan varrella. On ollut hauska nähdä muidenkin ihmisten rakentavan omia ideoitaan koodimme päälle. Yksi Stable Diffusion -yhteisön hämmästyttävistä piirteistä on se, miten nopeasti ihmiset pystyvät rakentamaan asioiden päälle suuntiin, joita alkuperäiset tekijät eivät voi ennustaa, Riffusionin luonut kaksikko toteaa TechCrunchin haastattelussa.

Kaiken kaikkiaan Riffusion on vaikuttava esimerkki siitä, miten tekoälyteknologiaa voidaan käyttää niinkin monimutkaisen asian kuin musiikin luomiseen. Vaikka se ei ehkä olekaan täydellinen, se on silti innovatiivinen tapa tutkia tekoälyn tuottaman musiikin mahdollisuuksia.

Katso Riffusion-esittely videolla alla:

artikkelin avainsanat:
Riffusion Stable Diffusion tech tekoäly