Findance.com
14:25 - 10.01.2023

viihde / Findance
Microsoftin VALL-E pystyy matkimaan ketä tahansa 3 sekunnin ääninäytteen perusteella

Microsoft on esitellyt uuden tekoälyteknologian, joka voi mullistaa digitaalisen viestinnän. Tällä viikolla julkaistu tutkimus keskittyy VALL-E:hen, tekstistä puheeksi -tekoälymalliin, joka kykenee simuloimaan tietyn henkilön ääntä vain kolmen sekunnin ääninäytteestä, raportoi Endgadget.

Saavutuksen mahdollistaa tekoälyn kyky sovittaa yhteen äänen sävyn lisäksi myös sen omistajan tunnesävy ja akustinen ympäristö. Tämä voi osoittautua hyödylliseksi tekstistä puheeksi -sovellusten personoinnissa, vaikka siihen liittyy myös väärinkäytön riski.

Teknologia toimii "neuraalisen koodekin kielimallilla", joka on peräisin Metan tekoälyllä toimivasta Encodec-neuroverkosta. VALL-E:n kouluttamiseen Microsoft käytti 60 000 tuntia englanninkielistä puhetta yli 7 000 puhujalta Metan LibriLight-äänikirjastossa.

RISKI VÄÄRINKÄYTTÖÖN OTETTU HUOMIOON

VALL-E:n Github-sivulla esitellyt tulokset ovat ristiriitaisia. Jotkut äänet kuulostavat synteettisiltä, toiset taas yllättävän realistisilta, arvioi Engadget. Koska tekoäly pystyy säilyttämään alkuperäisen ääninäytteen tunnesävyn ja akustisen ympäristön, tämä tekee siitä paljon realistisemman.

Microsoft aikoo laajentaa harjoitusaineistoa parantaakseen suorituskykyä entisestään ja tutkii myös tapoja vähentää epäselviä tai ohi meneviä sanoja. Lisäksi teknologiajätti on päättänyt olla tekemättä koodista avointa lähdekoodia osittain siksi, että tekoälyyn, joka voi laittaa sanoja jonkun suuhun, liittyy riskejä.

Microsoft sanoi lausunnossaan, että se jatkaa "Microsoft AI Principals" -periaatteidensa noudattamista jatkokehityksessä.

- Koska VALL-E voi syntetisoida puhetta, joka säilyttää puhujan identiteetin, siihen voi liittyä mahdollisia riskejä mallin väärinkäytössä, kuten äänitunnistuksen väärentämisessä tai henkilöitymisessä, Microsoftin edustaja sanoo.

artikkelin avainsanat:
Meta Microsoft tech tekoäly VALL-E