Big data

Big data on ollut arkipäivää monilla aloilla jo kauan. Metsätieteilijöille se tarkoittaa esimerkiksi vuosikymmenten aikana kerättyä laserkeilausdataa metsistä, ilmatieteilijöille taas maapallon lämpötilatietoja. Terveystieteissä kiinnostavat laajat suomalaiset terveysrekisterit, kielitieteissä kielikorpukset. Olennaista nykyään on se, miten erilaisista lähteistä peräisin olevia suuria tietomassoja voidaan hyödyntää uudella tavalla.

Teksti Marianne Mustonen, Nina Venhe, Sari Eskelinen ja Ulla Kaltiala Kuvitus Raija Törrönen

Itä-Suomen yliopistossa kehitetään parhaillaan yhtenäistä mallia, jonka avulla yliopiston valtavat tietovarannot saadaan entistä paremmin hyödynnettyä.  Jokaisessa tiedekunnassa ja laitoksilla on omia tietokantoja, rekistereitä ja tapoja niiden käyttämiseen.  

–  Yliopistossamme on todella arvokkaita tietoaineistoja esimerkiksi terveys-, sosiaali-, kieli- ja kauppatieteissä, kertoo tietojenkäsittelytieteen laitoksen johtaja, professori Markku Hauta-Kasari.

–  Se tekee yliopistostamme vahvan myös tulevaisuudessa.  

Hauta-Kasarin mukaan nyt on olennaista saattaa yhteen yliopiston datan haltijat ja datan osaajat.

–  Meillä on jo datatieteilijöitä pitkin taloa. Tutkijoiden on verkostoiduttava monitieteisesti, ja on selvitettävä, miten erilaiset tutkimusmenetelmät sopivat yhteen, sanoo Hauta-Kasari.  

–  Yhteistyömahdollisuuksia on paljon, mutta täytyy löytää juuri ne segmentit, joissa yhteistyö on oikeasti hyödyllistä.

Sote-uudistuksen myötä avautuu paljon dataa, kuten terveydentilaan ja sosiaalihuoltoon liittyviä tietoja.  

– Erityisesti biopankeissa datan kerääminen, oikeellisuus, järjestys ja dokumentointi on oltava hallussa kokonaisuudessaan. Data-aineistojen asiantuntijan rooli on erityisen tärkeä, sillä on tiedettävä, mitä tietoa on kerätty ja miten sitä tulkitaan.

Dataosaaminen huomioidaan nykyään jo yliopiston kaikissa uusissa rekrytoinneissa. Keväällä työt aloittaa kaksi uutta datatieteen professoria, joilla on laskennallista menetelmäosaamista ja esimerkiksi neuroverkkotutkimuksen osaamista. Dataosaajien tarve on kasvussa joka alalla, kansainvälisestikin.

Hauta-Kasari näkee tekoälyn –  tai koneoppimisen, kuten tietojenkäsittelytieteessä mieluummin sanotaan – käytössä hyviä puolia erityisesti aineistojen läpikäymisessä.  

–  Koneoppimisen avulla voidaan löytää aineistoista aivan uudenlaisia riippuvuuksia datojen välillä. Ennen datoja ei ole voinut yhdistää, koska aineistot ovat voineet olla liian suuria käsiteltäväksi, tai niiden ratkaisemiseen saattoi kulua liian paljon aikaa.

Nykyinen tietokoneiden laskentateho mahdollistaa suurien data-aineistojen analyysin entistä monimutkaisimmilla laskennallisilla malleilla tehokkaasti.   

–  Ravitsemustiede on tästä hyvä esimerkki. Nykyään voidaan saada esiin yksilöityjä tietoja kaikesta, mikä vaikuttaa terveydentilaan. Tulevaisuudessa voidaan kenties antaa entistä yksilöllisempiä ohjeita potilaalle terveyden ylläpitämiseen.

 

Suuriin data-aineistoihin liittyy myös tiedonhallinta- ja turvallisuuskysymyksiä.

–  Esineiden internetin (IoT) teknologian kehitys mahdollistaa sen, että kaikkea ja kaikkia voidaan mitata jatkuvasti, sanoo Itä-Suomen yliopiston tietohallintojohtaja Juha Eskelinen.

– Tämä tuo luonnollisesti valtavan määrän dataa, jota voidaan hyödyntää ja yhdistellä. Käytämme omien datakeskustemme lisäksi CSC- ja Funet -palveluja, sekä kansainvälisiä pilvipalveluja. Kehittämämme Sm4rtLab-konsepti mahdollistaa laboratorioiden ja IoT-laitteistojen etähallinnan, datan keräyksen ja analysoinnin CSC ePouta -palvelun avulla.

– Yliopistomme on ottamassa käyttöön ohjelmistorobotiikkaa ja tekoälyä vuonna 2018.

 

Muutosta on meneillään myös tilastotieteen ja datatieteen rajapinnalla.

–  Datatiede on onnistunut saamaan positiivista nostetta, enkä näe sitä välttämättä huonona asiana tilastotieteenkään kannalta. Se voi olla jopa jonkinlainen kasvojenkohotus tilastotieteelle, joka ei nimenä valitettavasti anna kovinkaan dynaamista mielikuvaa, sanoo apulaisprofessori Lauri Mehtätalo tietojenkäsittelytieteen laitokselta.

Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii määrällisten aineistojen keräämistä, käsittelyä ja niistä tehtävää päättelyä.  Datatieteessä kyse on samasta asiasta, mutta aineistot ovat usein massiivisia ja syntyneet sivutuotteina.

–  Datan käsittely ja hallinta vaativat todennäköisyyslaskennan ja tilastotieteen lisäksi tietojenkäsittelytieteen osaamista. Nähdäkseni datatiede on siis puoliksi tilastotiedettä ja puoliksi tietojenkäsittelytiedettä, kuvailee Mehtätalo.

Datatieteessä ilmiön ymmärtäminen ei ole niin keskeisessä roolissa kuin tilastotieteessä. Koneoppimisessa riittää, että tehdään automaattisia algoritmeja hyödyntämällä hyviä ennusteita – mallin ei tarvitse kuvata todellista ilmiötä.

 

Voisiko koneoppiminen tai tekoäly korvata tulevaisuudessa jopa yliopiston professorin?

–  Robotiikka tulee mukaan koulutukseen niin, että käytössä on tekoälyä hyödyntäviä ohjelmistoja, joiden avulla opiskelija voi itse opiskella, kertoo professori Pasi Vahimaa fysiikan ja matematiikan laitokselta.

Ohjelma seuraa kehitystä ja räätälöi sitä yksilöllisesti opiskelijalle.  

– Tässä voidaan hyödyntää pelillistämistä: työ etenee askel kerrallaan ja saavutetaan yksilöllisiä tavoitteita. Professorin kannalta tämä on hyvä asia, sillä kun rutiiniopetus hoituu koneilla, hän voi keskittyä koko ajan enemmän yksilölliseen ohjaamiseen.

Uusia vastauksia perinteisiin kysymyksiin

Digitaalisen humanismin ideana on, että digiaineistojen analyysin avulla saadaan uudenlaisia vastauksia perinteisiin ihmistieteiden kysymyksiin, tiivistää kirjallisuuden tutkija Kati Launis.  

Hän kuuluu tutkimuskonsortioon, joka tutkii sitä, mitä suomalaiset lainaavat kirjastosta juuri nyt. Tutkimuksessa käytetään hyväksi isoa lainausdataa, jota Vantaan kaupunginkirjasto kerää.  

– Hanke on humanistien, informaatiotieteilijöiden ja kirjaston tiivistä yhteistyötä.

Launis uskoo, että big data tuo tutkimusmaailmaan lisää aitoa monitieteisyyttä, jossa tietojenkäsittelytieteilijät ja ihmistieteilijät todella tarvitsevat toistensa työpanosta.

– Haasteena vain on löytää yhteinen kieli, jolla kommunikoida.  

Launis tutkii muun tutkimusryhmän kanssa sitä, millainen naisten lukemiskulttuuri on Suomessa.

– Jotta saisimme haluamamme tiedon esiin, asetamme tarkat kysymykset tietojenkäsittelytieteen osaajille, jotka puolestaan louhivat massiivisesta digitaalisesta lainausdatasta tarvittavat analyysit.  

Niiden pohjalta selviää, millainen nykyinen lainaus- ja lukemiskulttuurimme on.

– Tutkimuksen avulla autamme esimerkiksi kirjastoa kehittämään omia työtapojaan.

Rekisterit ovat kansallisaarre

Terveydenhuollon rekisterit ja potilastietojärjestelmät ovat tutkijan näkökulmasta kasvava kansallisaarre, jota voisi hyödyntää enemmänkin. Apulaisprofessori Anna-Maija Tolppanen selvittää niistä hoidon vaikuttavuutta ja potilasturvallisuutta muun muassa Alzheimerin tautia sairastavilla. Tiedonlouhinnan avulla voidaan havaita lääkkeiden käyttöön liittyviä, harvinaisiakin riskejä.

– Voidaan katsoa esimerkiksi eri lääkkeiden ja lääkeyhdistelmien yhteyttä lonkkamurtumariskiin ja tunnistaa myös harvinaisemmat haitat.

Suomen Akatemian rahoittamassa hankkeessa testataan tiedonlouhintamenetelmien, kuten syvien neuroverkkojen, soveltuvuutta lääkehaittatutkimukseen. Alzheimerin tautia sairastavat ovat tärkeä tutkimuskohde, koska lääkkeiden turvallisuutta harvoin tutkitaan erikseen tässä ryhmässä, vaikka niihin voi heillä liittyä suurempia riskejä.

EU:n uuden tietosuoja-asetuksen myötä rekisteritietoja saa tutkittavaksi vain tietoturvalliseen käyttöympäristöön, jollaisen rakentamisesta keskustellaan myös Itä-Suomen yliopistossa.

– Se olisi tärkeää tehokkaalle tutkimuksen teolle. Etäkäyttöjärjestelmissä tutkimus on hankalampaa.

Tarkempia ennusteita rahoitusmarkkinoille

Big data avaa luottoluokitusten arviointiin uusia mahdollisuuksia.

– Nyt luokitukset ovat perustuneet paljolti saatavilla olevaan numeeriseen tietoon. Jatkossa päätöksenteossa aletaan hyödyntää myös ihmisen digitaalisen jalanjäljen tuottamaa tietoa hänen harrastuksistaan ja muusta toiminnastaan, professori Mervi Niskanen sanoo.

Luottoriskien arvioimisessa keinotekoisten neuroverkkojen hyödyntäminen on jo yleistynyt.

– Ongelmana kuitenkin on, etteivä tekoälyteknologiat luo mallia, jolla voitaisiin ennustaa esimerkiksi yritysten luottoriskejä.

Niskanen kehitti tutkimusryhmineen perinteistä tilastollista analyysia ja keinotekoisia neuroverkkoja (ANN) hyödyntävän hybridimallin, joka mahdollistaa pk-yritysten luottoriskien aiempaa tarkemman ennustamisen. Samantapaisia malleja on aiemmin kehitetty muun muassa öljytuhojen ennustamiseen.

Tutkimuksessa hyödynnettiin isoa suomalaisten pk-yritysten taloustietoaineistoa. Tulevaisuudessa aineistoja pystytään käyttämään tutkimuksessa entistä laajemmin ja helpommin, kun taloustiedon digitalisaatiohanke Suomessa etenee.

– Silloin yritykset pystyvät itse syöttämään tietonsa tietokantaan, mikä lisää tiedon luotettavuutta. Samalla myös tutkimuksen käyttöön saadaan helpommin hyödynnettäviä tietomassoja.

Datatieteen koulutusohjelma

Muuttuvan työelämän vaatimukset uudistavat myös koulutussisältöjä. Yliopistoon on suunnitteilla uusi datatieteen koulutusohjelma, joka tulee palvelemaan kaikkien tiedekuntien tarpeita.

– Jo suunnitteluvaiheessa tarvitaan menetelmäosaajien ja soveltajien yhteistä keskustelua, jotta erilaiset tarpeet ja reunaehdot voidaan huomioida koulutussisältöjen suunnittelussa. Koulutus tulee rakentaa niin, että se palvelee myös sovellusalojen osaajia. Esimerkiksi terveysalan opiskelija voisi ottaa jatkossa sivuaineekseen datatieteen, kertoo tutkimuspäällikkö Tero Karjalainen sovelletun fysiikan laitokselta.

Karjalainen on aloittanut koordinoimaan koko yliopiston tasoista dataosaajien ja soveltajien keskustelua ja big data -osaajien verkostoitumista yli tiedekuntarajojen.

Hänen mielestään datatieteen mahdollisuudet alkavat avautua kunnolla vasta sitten, kun seuraavan sukupolven nuoret tutkijat kohtaavat.

– Tulevaisuudessa eri alojen osaajat työskentelevät samoissa tutkimusryhmissä. Silloin tarvitaan erityisesti muidenkin alojen termien tuntemusta, jotta pystytään keskustelemaan samoista asioista. Kukaan ei yksin pysty hallitsemaan kaikkea tarvittavaa osaamista, ja siksi tarvitaan entistä enemmän monitieteisiä tutkimusryhmittymiä.

Julkaistu Saima-lehdessä 1/2018.