Puheesi kertoo, kuka (muka) olet

Puhe on yhtä yksilöllinen tunnistusmenetelmä kuin sormenjälki. Puhujantunnistusteknologialla on jo monta sovelluskohdetta, mutta se kiinnostaa myös huijareita.

Teksti Marianne Mustonen Kuva Tuija Hyttinen

Apulaisprofessori Tomi Kinnunen tietojenkäsittelytieteen laitokselta on viettänyt yli 15 vuotta äänibiometriikan tutkimuksen parissa.

– Puheteknologian tutkimusaihepiirissä riittää pengottavaa. Puhetta on tutkittu jo 1950-luvulta saakka, ei vain sitä, mitä sanotaan, vaan kuka puhuu ja mitä kieltä, missä tilassa, ympäristössä ja tunnetilassa, Kinnunen kertoo.

Myös puhujan äidinkieli, aksentti, murre, sukupuoli, puhetyyli, melodia, rytmitys ja omat sanat kuuluvat yksilölliseen puheeseen. Muun muassa äänihuulten muoto sekä huulen ja kielen dimensiot vaikuttavat äänen väriin, josta saadaan eniten informaatiota.

– Se on toki myös haaste, koska tietoa saadaan niin paljon, sanoo Kinnunen (yläkuvassa).

Kinnusen mukaan puhujantunnistusta on hyödynnetty jo pitkään terrorismin ja rikosten tutkinnassa, myös meillä Suomessa.

Puhujantunnistuksen menetelmissä nauhoitetut, akustiset signaalit pätkitään lyhyellä aikavälillä monta kertaa. Esimerkiksi yhden sekunnin kestävästä A-äänteestä otetaan 100 eri pätkää, joista kustakin saa 50 eri numeroarvoa.

– Näyte on kuin mosaiikki, jossa on 100 palaa, kuvailee Kinnunen.

– Paloja ei tietenkään korvakuulolla tunnisteta, vaan tietokone laskee puhujaa yksilöivät parametrit. Tässä mukaan tulee koneoppiminen ja muotisana Big Data, joka täällä meillä on kyllä ollut jo kauan käytössä. Yhden kokeen laatimiseen vaaditaan paljon laskentatehoja, sillä dataa on niin paljon.

Kinnusen ja muiden tutkijoiden tavoitteena on parantaa nykyisen puhujantunnistuksen standardeja. Tässä auttaa kansainvälinen yhteistyö ja evaluaatio: kehitysdataa jaetaan ilmaiseksi, ja sen jälkeen jokainen tutkimusryhmä ympäri maailmaa tutkii sitä omilla menetelmillään.

Muun muassa Yhdysvaltojen kauppaministeriön alainen standardointijärjestö NIST antaa tällaisia materiaaleja tutkijoiden käyttöön, mutta myös tutkijat itse keräävät paljon dataa, ja jakavat näitä erilaisten haasteiden (challenge) muodossa muiden tutkijoiden käyttöön. Kinnusen ryhmä on ollut aktiivinen myös tässä.

– Lopussa yhdistetään kaikki tulokset ja nähdään, miten eri tavoilla dataa voidaan katsoa. Tämä juuri on sitä avointa tiedettä. Meillä on muutenkin hyvin kiinteät välit kollegoihimme, kertoo Kinnunen, joka on itsekin työskennellyt uransa aikana Singaporessa ja Japanissa.

Kinnusen tutkimusryhmä on mukana kansainvälisessä OCTAVE-konsortiossa. Moniulotteisessa hankkeessa tutkitaan muun muassa pankkisovelluksia ja lentokentän kulunvalvontaa. Myös biometriset hyökkäykset, ”spoofing attacks” ovat tutkimuksen kohteina. Ne ovat tuttuja Hollywoodin elokuvista: nauhoitetulla puheella pyritään huijaamaan puheentunnistusjärjestelmiä.

– OCTAVE-hanke vie merkittävästi tutkimusalaamme eteenpäin, toteaa Kinnunen.

– Klassinen ongelma on se, että sama puhuja pitäisi tunnistaa eri päätelaitteilla. Mikrofoni, puhelinkompressio, tiedonsiirto ja akustiikka saavat kaikki puhujan vaikuttamaan eri henkilöltä.

– Puhujantunnistusteknologia alkaa nyt kuitenkin olla tarkkuudeltaan jo sillä tasolla, että se voisi toimia uudenlaisissa sovelluksissakin, kuten vahvana autentikointina sähköisessä allekirjoituksessa tai puhujan varmistamisessa telekonferenssissa. Myös viihdeteknologian mahdollisuudet ovat rajattomat, miettii Kinnunen.

Tietyissä sovelluksissa kuten rikostutkinnassa teknologia ei voi kuitenkaan koskaan täysin korvata ihmistä, kuten kielitieteilijää, vaan teknologia toimii päätöksenteon tukena.

– Automaattisen teknologian tuottama henkilön tunnistus ei ole koskaan 100-prosenttinen, vaan kertoo vain, millä todennäköisyydellä puhuja on yksi ja sama henkilö.

Juttu on julkaistu Saima-lehdessä 2/2017