Hyppää pääsisältöön

Ukrainan sodan vaikutukset yliopistoon

Opiskelijat työskentelevät tietokoneella.

MSc Himat Shah, väitös 15.11.2022: Automaattinen avainsanojen poiminta verkkosivuille

Tietojenkäsittelytieteen alaan kuuluva väitöskirja tarkastetaan luonnontieteiden ja metsätieteiden tiedekunnassa Joensuun kampuksella.

Avainsanat tarjoavat lukijalle tiiviin, korkeatasoisen kuvauksen tekstin sisällöstä. Avainsanojen automaattinen generointi on olennainen vaihe tekstin monessa tietojenkäsittelyn tehtävässä, kuten tekstin automaattisessa yhteenvedossa, tiedonhaussa, aihemallien muodostamisessa, ryhmittelyssä, sekä erilaisissa suositusjärjestelmissä. Avainsanaksi määritellään yleensä yksittäinen sana tai useamman sanan muodostama kokonaisuus.

Tässä tutkimuksessa on kehitetty kolme kielestä riippumatonta ja yksi kieliriippuvainen menetelmä avainsanojen automaattiseen generointiin verkkosivuilta (web). Olemassa olevat menetelmät perustuvat luonnollisen kielenkäsittelyn tekniikoihin (NLP), kuten sanaluokat, typistäminen (stemmaus) ja lemman muodostukseen. Nämä ovat kuitenkin kielestä riippuvaisia ja vaikeuttavat yleispätevien menetelmien kehittämistä. Tutkimuksen tavoitteena on löytää menetelmiä, joita voidaan soveltaa verkkosivuilla niiden kielestä riippumatta, hyödyntämällä vain sisällön kielestä riippumattomia ominaisuuksia. Avainsanojen muodostaminen web-sivuilta on haastavaa kahdesta syystä: ensinnäkin sivuilla on paljon epäolennaista, hämäävää, tietoa kuten navigointipalkit, valikot, kommentit ja mainokset. Toiseksi, sisältö on usein monikielistä ja sisältää tekstiä eri aiheista. Sen vuoksi on tärkeää, että avainsanat ovat yleisiä eivätkä turvaudu pelkästään käytettyyn kieleen.

Tutkimustulokset sisältävät neljää uutta menetelmää avainsanojen generointiin: Hrank, D-rank, WebRank ja ACI-rank. Ne kaikki perustuvat tilastollisiin, rakenteellisiin ja kielellisiin piirteisiin. Usein esiintyvät sanat ovat todennäköisemmin hyviä avainsanoja, mutta yksinkertaiset laskelmat voivat olla myös harhaanjohtavia. Suomen kielessä yleisimmät sanat "Kuin" ja "Minä" esiintyvät useimmissa teksteissä ja harvoin kelpaavat avainsanoiksi millekään yksittäiselle tekstille. Hyvä avainsana on yleinen kyseisessä, mutta ei kaikissa teksteissä. Hyvät avainsanat sijaitsevat myös eri puolilla tekstiä, eivätkä ole keskittyneet johonkin yhteen sen osaan tai lukuun. Avainsanat on muita useammin myös visuaalisesti korostettu (lihavointi, suurempi fonttikoko) ja löytyvät tekstin alaotsikoissa.

MSc Himat Shahin väitöskirja Automatic Keyword Extraction for Webpages (Automaattinen avainsanojen poiminta verkkosivuille) tarkastetaan luonnontieteiden ja metsätieteiden tiedekunnassa. Vastaväittäjänä toimii professori Jyrki Nummenmaa, Tampereen yliopisto, ja kustoksena professori Pasi Fränti, Itä-Suomen yliopisto. Tilaisuus on englanninkielinen.

Lisätietoja:

Himat Shah, himats@uef.fi, p. +358 465 840 099