Hyppää pääsisältöön

Tarkenna hakuasi

Tomi Kinnunen.

Kuvassa: Laskennallisen puheen tutkimusryhmän jäseniä.

Puheen syväväärennökset haastavat tutkijoita edelleen

Puheen syväväärennösten laatiminen on tullut koko ajan helpommaksi. Vähän aikaa sitten suomen kieli hidasti puheväärennösten tekoa, mutta ei enää.

  • Teksti Marianne Mustonen
  • Kuvat Niko Jouhkimainen

– Puheen syväväärennöksiä voi nykyään tehdä kuka vain. Menneinä vuosikymmeninä vaadittiin enemmän teknistä omistautumista aiheeseen, mutta nykyisin on lukuisia "äänikloonauspalveluita" periaatteessa kenen tahansa saatavilla, kertoo professori Tomi Kinnunen Itä-Suomen yliopiston tietojenkäsittelytieteen laitokselta. 

Puhesynteesiä voi periaatteessa käyttää huijaamaan biometrista tunnistusta, osana huijauspuheluita tai valeuutisia sosiaalisessa mediassa. Sen vuoksi on tärkeää pyrkiä ymmärtämään milloin automaattisia järjestelmiä ja ihmisiä voidaan huijata, sekä kehittää vastatoimia. 

– Tällaisia vastatoimia ovat esimerkiksi syväväärennösten tunnistaminen (speech deepfake detection), sekä syväväärennösten lähteen selvittäminen (deepfake source tracing) eli millä äänikloonaus- tai synteesiohjelmistolla syväväärennös on tuotettu. Biometrisen tunnistuksen tapauksessa tavoitteena on parantaa järjestelmien vikasietoisuutta erilaisia hyökkäyksiä vastaan, Kinnunen toteaa.

– Neuroverkkoja ja tekoälyä hyödynnetään laajasti alan tutkimuksessa. Itselleni on kuitenkin ollut tärkeää siirtyä jo tulkittavampiin metodeihin, joissa tunnistusmetodi pystyy "perustelemaan" päätöksensä.  

Syväväärennösten automaattista tunnistusta kehitetään 

Puhe tutkimuskenttänä muuttuu nopeasti, ja tutkittavaa riittää. Tutkimuksessa korostuu poikkitieteellinen fokus – tutkimuksessa hyödynnetään muun muassa koneoppimista, data-aineiston keruuta, puhetieteitä sekä selittävää tekoälyä.  

Kinnunen kuvailee syväväärennösten tutkimisen olevan ikään kuin kissa- ja hiiri -leikkiä. Tunnistusmenetelmät ja vastatoimet ovat kehittyneet huiman paljon tarkemmiksi viime vuosina, mutta yleistäminen on kuitenkin edelleen merkittävä haaste. 

– Koneoppiminen perustuu mallien sovittamiseen isosta koulutusaineistosta. Mallit voivat tällöin esimerkiksi ylisovittua (overfit) helposti koulutusdataan. Tällöin aiemmin tuntemattomalla synteesitekniikalla tuotettujen puheväärennösten tunnistaminen on haastavaa, hän kertoo.

–  Lisähaastetta tuo myös muun muassa se, että reaalimaailman syväväärennökset ovat usein pakattua tai kompressoitua puhetta, mikä peittää alleen puhesynteesin tuottamia artefakteja. Tämä vaikeuttaa tunnistusta. 

Puheteknologiatutkimuksessa hyödynnetään signaalinkäsittelyä ja koneoppimista, käytännössä syviä neuroverkkomalleja, joita opetetaan isoista aineistoista.

Tomi Kinnunen.
Kuvassa: Tomi Kinnunen.