Hyppää pääsisältöön

Tarkenna hakuasi

Opiskelijat työskentelevät tietokoneella.

Uusia menetelmiä poikkeavuuksien tunnistamiseen datajoukoissa

Tietokoneet käsittelevät päivittäin suuren määrän tietoa liikenteen, verkkoliikenteen, tuotteiden laadunvalvonnan, asiakkaiden käyttäytymisen ja markkinatrendien analysoimiseksi. Sovellutusten määrä on valtava.

Yksi ongelma laajamittaisessa analyysissä ovat virheelliset data-arvot, jotka johtuvat ihmisen tekemistä, tietojenkäsittelyssä tai mittauksessa tehdyistä virheistä. Ne voivat vääristää analysointia tai johtaa jopa täysin vääriin johtopäätöksiin. Niitä kutsutaan poikkeamiksi. Joissakin tapauksissa epänormaalit signaalit sisältävät hyödyllistä tietoa, kuten petokset luottokortin käytössä, verkkohyökkäykset tai pahanlaatuiset kasvaimet lääketieteellisissä kuvissa. Jos ne havaitaan, ne voivat säästää rahaa tai jopa ihmishenkiä.

MSc (Tech.) Jiawei Yangin väitöskirjatyössä on kehitetty menetelmiä poikkeamien havaitsemiseksi. Naapuruuspohjaista menetelmää nimeltä Mean-shift käytettiin poikkeavien havaitsemiseksi onnistuneesti etenkin erittäin kohinaisesta tiedosta. Sitä voidaan käyttää myös parantamaan nykyisten havaitsemismenetelmien tuloksia, ja sen havaittiin parantavan kaikkia olemassa olevia menetelmiä keskimäärin yhdeksällä prosentilla.

Poikkeamin havaitseminen testattiin myös kahdessa tapaustutkimuksessa. Ensinnäkin havaittiin, että tavalliset tunnistusmenetelmät eivät auta, kun yritetään tunnistaa tiekaista kohinaisesta GPS-datasta. Tämä osoittaa, että sovellusspesifisiä menetelmiä olisi kehitettävä tähän.

Toisessa tapaustutkimuksessa kehitettiin menetelmä, jota kutsutaan huomio-entropiaksi syketiheyden analysoimiseksi. Datan frekvenssien tai siitä poimittujen hahmojen analysoinnin sijasta huomattavasti tarkempi tulos saavutetaan analysoimalla signaalin huippupisteiden välien jakaumaa. Menetelmä parantaa parhaan olemassa olevan menetelmän havaintotarkkuutta 0,72:sta 0,80:een. Sitä voidaan mahdollisesti soveltaa jopa Covid-19:n havaitsemiseen varhaisessa vaiheessa ennen näkyvien oireiden ilmaantumista (tai jos niitä ei esiintyy lainkaan).

MSc (Tech.) Jiawei Yangin tietojenkäsittelytieteen alaan kuuluva väitöskirja Outlier detection techniques tarkastetaan luonnontieteiden ja metsätieteiden tiedekunnassa 10.9. verkossa. Vastaväittäjänä toimii Associate Professor Giacomo Boracchi, Politecnico di Milano, Italia, ja kustoksena professori Pasi Fränti, Itä-Suomen yliopisto. Tilaisuuden kieli on englanti.

Väittelijän painolaatuinen kuva

Väitöskirja verkossa

Linkki tapahtumaan