Syväoppimismenetelmillä kohti nopeampaa, tarkempaa ja turvallisempaa puhujantunnistusta

29.10.2020

Teknologia ja innovaatiot

Filosofian maisteri Ville Vestman paneutui tietojenkäsittelytieteen alan väitöskirjassaan laaja-alaisesti automaattisen puhujantunnistuksen uusimpiin menetelmiin ja haasteisiin. Puhujantunnistus tarkoittaa puhujan tunnistamista, todentamista tai erottamista toisesta puhujasta erilaisilla keinoilla. Väitöskirjassaan Vestman tutki useita koneoppimismenetelmiä, joilla pyritään nopeuttamaan ja tarkentamaan automattista puhujantunnistusta. Lisäksi väitöskirja tarjoaa uutta tietoa puhujantunnistusteknologian alttiudesta väärinkäytölle.

Puhujantunnistus on usein haastavampaa kuin sormenjälki- tai kasvojentunnistus. Puhujantunnistusta vaikeuttavat muun muassa vaihtelevuus äänitystekniikassa ja akustisissa olosuhteissa, kuten jälkikaiun määrässä. Lisäksi puhujan puhetyyli voi vaihdella suuresti, kuten käy esimerkiksi kuiskatessa. Väitöskirjassa kehitettyyn uuteen aikasarjamallin pohjautuvat akustiset piirteet paransivat puhujantunnistusta erityisesti voimakkaasti jälkikaikuvasta puheesta.

Haastetta puhujantunnistukseen tuovat myös teknologian väärinkäyttöön liittyvät uhkakuvat. Huijari voi yrittää imitoida toista ihmistä tai vaihtoehtoisesti toistaa toisen ihmisen äänitettyä puhetta puhujantunnistusjärjestelmälle. Lisäksi huijauksille altistavat lukuisat synteesimenetelmät, jotka mahdollistavat periaatteessa kenen tahansa puheäänen kloonauksen tai muokkauksen koneellisesti.

Osana väitöskirjatyötään Vestman tutki puhujantunnistusjärjestelmien alttiutta yllä kuvatun kaltaisille huijauksille. Vestman oli myös mukana järjestämässä laajaa kansainvälistä huijauksentunnistusjärjestelmien tutkimuskampanjaa nimeltään ASVspoof 2019. Kampanja sysäsi huijauksentunnistimien kehitystä eteenpäin ja mahdollisti eri tahojen kehittämien ratkaisujen objektiivisen vertailun.

Väitöstutkimuksessa hyödynnettiin näytönohjainlaskentaa puhujantunnistusmenetelmien nopeuttamiseksi. Nopeutusta puhujantunnistukseen haettiin myös optimoimalla ja yksinkertaistamalla olemassa olevia menetelmiä.

Puheteknologian alalla on käynnissä laaja murros uusien neuroverkkoihin perustuvien syväoppimismenetelmien haastaessa aikaisempia tilastollisiin malleihin perustuvia menetelmiä. Tutkimuksen aikana kertynyttä tietotaitoa useista eri menetelmistä hyödynnetään väitöskirjan viimeisessä julkaisussa yhdistelemällä eri aikakausien menetelmiä keskenään. Tuloksena syntynyt “neuraalinen” ihmisen yksilöivä äänitunniste paransi tunnistustarkkuutta verrattuna generatiivisiin tilastollisiin malleihin perustuviin verrokkimenetelmiin.

Filosofian maisteri Ville Vestmanin väitöskirja Methods for Fast, Robust, and Secure Speaker Recognition tarkastetaan Itä-Suomen yliopiston luonnontieteiden ja metsätieteiden tiedekunnassa. Väitöstilaisuus järjestetään vallitsevan tilanteen vuoksi kokonaan verkossa 10. marraskuuta klo 10. Vastaväittäjinä toimivat apulaisprofessorit Tom Bäckström Aalto-yliopistosta ja Brian Kan-Wing Mak Hong Kongin teknis-luonnontieteellisestä yliopistosta. Kustoksena toimii apulaisprofessori Tomi Kinnunen Itä-Suomen yliopistosta. Tilaisuus on englanninkielinen.

Väittelijän kuva

Väitöstilaisuus verkossa

Sähköinen väitöskirja

Uutiset

FM Eemeli Eronen, väitös 10.6.2026: Hydrotermisillä menetelmillä tuotettujen nesteiden tarkka kemiallinen karakterisointi on keskeistä uusien biopohjaisten innovaatioiden kehittämisessä

Innovation Pathways Podcast -sarja: Yrittäjyyskulttuuri innovaatioiden ajurina

MA Teele Jänes, väitös 17.6.2026: Uskontoon perustuvien turvapaikkahakemusten uskottavuusarviointikäytännöt Baltian maissa

Tapahtumat

Terveysdatan OMOP-harmonisoinnin mahdollisuudet

Falling Walls Lab Eastern Finland 2026

Gerontologia 2026 -kongressi

Tarkenna hakuasi

Syväoppimismenetelmillä kohti nopeampaa, tarkempaa ja turvallisempaa puhujantunnistusta

Uutiset

FM Eemeli Eronen, väitös 10.6.2026: Hydrotermisillä menetelmillä tuotettujen nesteiden tarkka kemiallinen karakterisointi on keskeistä uusien biopohjaisten innovaatioiden kehittämisessä

Innovation Pathways Podcast -sarja: Yrittäjyyskulttuuri innovaatioiden ajurina

MA Teele Jänes, väitös 17.6.2026: Uskontoon perustuvien turvapaikkahakemusten uskottavuusarviointikäytännöt Baltian maissa

Tapahtumat

Terveysdatan OMOP-harmonisoinnin mahdollisuudet

Falling Walls Lab Eastern Finland 2026

Gerontologia 2026 -kongressi

Tarkenna hakuasi

Syväoppimismenetelmillä kohti nopeampaa, tarkempaa ja turvallisempaa puhujantunnistusta

Aiheeseen liittyvää

Stressaantuneen hätäpuhelun soittajan voi tunnistaa puheen prosodiasta