Datavetoista tutkimusta vahvistetaan parhaillaan Itä-Suomen yliopistossa. Some antaa siihen valtavat mahdollisuudet.
– Onhan tämä häpeämättömän populistinen tutkimusaihe. Mutta samalla myös erittäin mainio esimerkki siitä, millaisia mahdollisuuksia sosiaalisen median valtavan laajat aineistot tutkimustyöhömme antavat, kuvailee englannin kielen ja kulttuurin professori Mikko Laitinen tuoretta tutkimusta, jossa selvitettiin, kiroillaanko somessa enemmän läheisten kavereiden vai tuttujen kanssa.
Ihmistieteiden tutkimukseen liittyvänä haasteena on usein aineistojen pienuus, jolloin tutkimustulosten yleistettävyyskin on osin rajallinen. Englannin kielessä tälle on annettu oma nimikin, WEIRD. Se viittaa Western, Educated, Industrialized, Rich ja Democratic -sanoihin, joilla tarkoitetaan sitä, että tutkimusaineistossa korostuvat länsimaalaisen, valkoisen, koulutetun ja suhteellisen varakkaan henkilön näkökulmat.
Siksi Laitisen johtaman sosiaalisen median aineistoihin perustuvassa tutkimuksessa ollaan aivan uuden äärellä.
– Koska maailman väestöstä sosiaalista mediaa käyttää jo 60 prosenttia, tarjoaa se tutkijoille valtavan potentiaalin lähestyä mitä tahansa ihmistieteiden tutkimusongelmaa aivan uudessa laajuudessa.
Tämän ajatuksen pohjalta Laitisen tutkimusryhmä tekee parhaillaan perustutkimusta ja selvittää, miten ihmiset käyttävät somessa kieltä.
Ja se, mitä kielenkäytön taustalta selviää, avaa taas uusia ulottuvuuksia moneen muuhunkin asiaan.
Käsillä rajattomat aineistot
Laitisen johtaman tutkimusryhmän kiroiluun liittyvä, ”häpeämättömän populistinen” tutkimus poiki satoja uutisjuttuja ympäri maailman, mutta kevyen tuntuisen aiheen taustalla oli myös tärkeämpi ja isompi asia. Mitä kaikkea kiroilun avulla siis pystyttiinkään selvittämään?
– Lähtökohtaisesti olemme kiinnostuneita siitä, miten kieltä käytetään erilaisissa verkostoissa. Kiroilu on tästä vain yksi, mutta kuitenkin hyvin toimiva esimerkki. Mutta toki verkostojen kielenkäytöstä tulee selviämään vielä paljon muutakin.
Verkostot ovat ihmisyyden ytimessä ja sosiaaliset suhteet merkittävän määrittävä tekijä hyvinvoinnillemme.
– Kielentutkimuksessa sosiaaliset verkostot ovat kuitenkin jääneet paitsioon ihan siitä syystä, että aineistonkeruu on ollut todella hankalaa.
Nyt some kuitenkin korjaa tuon ongelman. Somessa ovat tarjolla lähes rajattomat aineistot, joihin on ensinnäkin helppo päästä käsiksi, ja sosiaaliset verkostotkin ovat siellä jo valmiina.
Eri alojen asiantuntijuus avainasemassa
Kiroilututkimuksessa tutkimusaineisto koostui lähes puolen miljoonan henkilön somepäivityksistä sekä tuhansista verkostoista. Erilaisten laskennallisten menetelmien avulla tutkimuksessa pystyttiin arvioimaan, kuinka tiiviissä tai löyhässä verkostossa ihmiset somessa toimivat. Saatuja tuloksia ja metodeja voidaan hyödyntää muutenkin.
– Koska aineistot ovat valtavan suuria ja kompleksisia, tarvitaan asiantuntijuutta myös kielitieteen ulkopuolelta. Kiroilututkimuksessa – ja koko laajassa tutkimushankkeessamme – poikkitieteellistä yhteistyötä tehdäänkin tietojenkäsittelytieteen asiantuntijoiden kanssa.
Laitinen kertoo, että näin laajoja aineistoja käsitellessä yhden täytyy osata kerätä aineisto, yhden osata käsitellä sitä, yhden louhia sieltä oleellista tietoa ja analysoida tuloksia.
– Ja mikä tärkeintä, yhden on osattava asettaa tutkimuskysymykset oikein.
Koska somesta saadut aineistot ovat valtavan suuria ja kompleksisia, tarvitaan asiantuntijuutta myös kielitieteen ulkopuolelta.
Mikko Laitinen
Professori
Uusia uramahdollisuuksia
Suuriin datamassoihin perustuva tutkimus laajentaa siis kielentutkijoidenkin osaamiskenttää.
– Tämä on asia, josta puhun mielelläni. Kielten opiskelijoille tarjotut urapolut ovat jo kauan noudattaneet samaa kaavaa. Nykymaailmassa alkaa kuitenkin olla tarvetta myös sellaisille kielitieteilijöille, jotka innostuisivat kielen lisäksi numeroista.
Tällä Laitinen viittaa siihen, että datamassoja käsitellessä monitieteisessä yhteistyössä toimivinta olisi, kun tietyt asiat ymmärrettäisiin puolin ja toisin.
– Tällaiset kyvyt ja yhteistyötaidot valmistaisivat kielten opiskelijoita modernin yhteiskunnan tarpeisiin. Väitän, että kielentutkijalla ja tietojenkäsittelytieteen alan asiantuntijalla olisi yhdessä paljon annettavaa erilaisiin tutkimusaiheisiin liittyen.
Vastauksia laajoihin yhteiskunnallisiin kysymyksiin
Koska sekä akateeminen tutkimus että työelämän odotukset ovat teknologian murroksessa muutoksessa, on Itä-Suomen yliopistossa tehty strateginen päätös datavetoisen tutkimuksen edellytysten vahvistamisesta. Yliopistoon on parhaillaan rakentumassa dataintensiivisten ihmis- ja yhteiskuntatieteiden tutkimusinfra eli dataintensiivinen laboratorio, DITLab.
DITLabin tavoitteena on koota dataintensiivisen tutkimuksen osaaminen yhteen kahdesta tiedekunnasta. Samalla se vahvistaa ja tukee alan osaamista opetuksessa ja tutkimuksessa.
– DITLabissa käsitellään suuria aineistoja tehokkailla analyyseilla yhdistettynä laskennalliseen osaamiseen. Keskitetyt dataan liittyvät palvelut vapauttavat tutkijoiden aikaa itse tutkimukseen eli kaikkien ei näin tarvitse keksiä teknisiä ratkaisuja itse, Laitinen kuvailee.
Lisäksi palveluinfrastruktuuri tukee tutkijoita kilpaillun tutkimusrahoituksen hakemisessa.
– Osaaminen datavetoisen tutkimuksen osalta kasvaa yliopistossamme koko ajan. Voimme siis kielentutkijoina pian tarjota entistä parempia vastauksia yhteiskunnallisiin ja ajankohtaisiin kysymyksiin monitieteisen yhteistyön avulla.
Suuren kielimassan analysointi vaatii ymmärrystä siitä, mistä kieli koostuu ja rakentuu, miten kieli vaihtelee ja mitä analysoidessa pitää ottaa huomioon tai jättää huomioimatta.
– Monilla aloilla kieliaineksen automaattiseen analyysiin perustuvia työkaluja on kehitetty tähän mennessä pääosin tietojenkäsittelytieteen näkökulmasta esimerkiksi erilaisia kyselytutkimuksia tai asiakaspalautteita varten, Mikko Laitinen kertoo.
Yksi tällainen työkalu on sentimenttianalyysi, jonka tehtävänä on luokitella tutkinnan kohteena oleva teksti tai sen osat positiiviseksi, negatiiviseksi tai neutraaliksi.
– Tällainen pelkkä kielen mekaaninen kategorisointi ei kuitenkaan yksinään toimi. Jotta kerätystä aineistosta saataisiin haluttu tieto irti, on mukana oltava myös tutkimuksenkohteena olevan kielen asiantuntijoita.
Esimerkkinä tästä Laitinen nostaa sanan ”dead”. Sentimenttianalyysissa se todennäköisesti kategorisoitaisiin helposti negatiiviseksi sanaksi, jolloin kyseiseen sanaan liittyvät tekstit tulkittaisiin liittyvän johonkin kielteiseen tai ikävään asiaan.
– Kuitenkin englanninkielisessä maailmassa sanapari ”dead funny” muuttaa kyseisen termin aivan päinvastaiseksi ja tekee siitä todella positiivisen.
Vaikka esimerkki on hyvin yksinkertainen, kertoo se havainnollisesti siitä, miten tärkeää on, että kielellisiä aineistoja louhittaessa kielentutkijat ovat mukana jo tutkimuskysymyksiä asetellessa.
– Jokaisella alalla on oma termistönsä. Massiivisten aineistojen tutkimus voitaisiin siis hyvin ulottaa mille tahansa alalle, kunhan mukana on tutkimuksenkohteena olevan alan asiantuntija. Sillä jos tekstilajin tuntemus jätetään pois, voidaan tutkimuksessa joutua aika lailla hakoteille.
Tekstissä viitataan Mikko Laitisen johtamaan COMET-projektiin, jota rahoittaa Suomen Akatemia. Nelivuotisessa hankkeessa tutkitaan kielen muutosta digitaalisissa sosiaalisissa verkostoissa. Kiroiluun liittyvä tutkimus oli yksi osa hanketta.
DITLab on digitaalinen palveluinfrastruktuuri, joka tukee filosofisen tiedekunnan sekä yhteiskuntatieteiden ja kauppatieteiden tiedekunnan tutkimusta ja opetusta ja luo Itä-Suomen yliopiston mallin datalähtöisen menetelmäkehityksen rakenteille SSH-aloilla. Se keskittyy erityisesti tekstiaineistoihin, jotka ovat yksi yliopiston tunnistamista keskeisistä aineistotyypeistä. DITLabin vetäjiksi vuosille 2026–2027 on nimetty yliopistonlehtori Kimmo Elo ja professori Mikko Laitinen. Hankkeessa ovat mukana myös professori Kati Launis sekä staff scientist Tomi Oinas.