Tältä sivulta löytyy ohjeita tutkimusaineistojen tietoturvalliseen käsittelyyn ja tallennukseen tutkimuksen aikana. Alla olevissa osioissa on tietoa mm.
- tallennusratkaisuista,
- siirtämisestä ja jakamisesta,
- varmuuskopioinnista ja versionhallinnasta,
- tiedostomuodoista sekä
- kuvailusta ja metadatasta.
Tutkijan tulee säilyttää tutkimusaineistot sekä siirtää ja jakaa niitä turvallisesti koko tutkimuksen elinkaaren ajan. Tutkimusaineistoja on käsiteltävä aina Itä-Suomen yliopiston tietoaineistojen suojaus- ja käsittelyohjeiden mukaisesti. Linkki ohjeisiin löytyy alempaa kohdasta Lisätietoa, lähteet ja linkit. Tallennus- ja säilytysratkaisuihin vaikuttavat aineiston sisältämän tiedon suojaustaso, aineiston koko ja mahdollinen tarve käyttää aineistoa yhdessä eri organisaatioiden välisessä yhteistyössä.
Itä-Suomen yliopiston Digipalvelut (DiPa) tuottaa suuren osan tutkijoiden käyttämistä IT-palveluista ja palvelinresursseista. Tutkijoilla on käytettävissään myös CSC - Tieteen tietotekniikan keskuksen tarjoamia monipuolisia palveluja tutkimusdatan käsittelyyn, tallentamiseen ja avaamiseen. Näiden palveluiden hyödyntämisessä ja käyttöönotossa auttaa UEFin Digipalvelut.
Tutkimusdatan suojaustasot ja käsittelyn toimenpiteet
Tutkimusdatan tietosisällöt vaikuttavat siihen, millaista suojausta dataan sisältyvä tieto edellyttää. Julkisia tietoja voidaan käsitellä, tallentaa ja jakaa yliopiston ulkopuolellekin melko huolettomasti eri alustoilla. Koska kyse on julkisista tiedoista, ne eivät voi lähtökohtaisesti päätyä ns. vääriin käsiin. Tällöin kuluttajapilvipalvelutkin (esim. GoogleDrive, Dropbox, iCloud) ovat mahdollisia, vaikka niitä ei yleisesti ottaen suositellakaan työkäyttöön.
Salassapidettävää aineistoa määrittävät perussuojaustason toimenpiteet, jolloin monet tallennus- ja jakamisratkaisut ovat kyllä sallittuja mutta usein tietyin rajauksin. Rajaus voi koskea vaikkapa sitä, että käyttöoikeudet rajataan. Salassapidettävää aineistoa ei kuitenkaan saa tallentaa tai jakaa edellä mainituissa kuluttajapilvipalveluissa.
Arkaluonteiset tiedot edellyttävät erityistä suojausta, jolloin niitä koskee korkean suojaustason vaatimukset. Tarkat ohjeet suojaustasoista ja tallennusratkaisuista, joita UEFissa noudatetaan, löytyvät Itä-Suomen yliopiston tietoaineistojen käsittelyohjeista vuodelta 2021 (Heimo-palvelut, vaaatii kirjautumisen UEF-tunnuksilla).
Tiedostojen jakaminen
Palveluita tutkimusaineistojen jakamiseen on runsaasti. Tässä yhteydessä mainitsemme ennen kaikkea UEFin tukemat yleiset palvelut.
UEFin sisällä tiedostojen jakaminen on lähtökohtaisesti vaivatonta. Tietosuojasta on luonnollisesti huolehdittava siten, että jaettavaan tietoon pääsevät käsiksi vain ne henkilöt, joilla on siihen oikeus. Tutkimusryhmien levytiloilla voi määritellä käyttöoikeuksia.
Funet FileSender
Yliopiston ulkopuolisille yhteistyökumppaneille voi lähettää suuriakin tiedostoja Funet FileSender-palvelun avulla. Palvelu on verkkoselainpohjainen, ja sen avulla voi lähettää jopa yli sadan gigatavun suuruisia tiedostoja. Funet FileSender ei sellaisenaan sovellu sensitiivisen tiedon lähettämiseen, mutta palvelua käytettäessä lähetettävä tutkimusdatatiedosto voidaan salata. Salausta varten tiedoston vastaanottaja saa lähettäjältä salasanan, joka ei tallennu palvelimelle vaan se lähetetään aina erikseen vastaanottajalle (esimerkiksi tekstiviestinä puhelimeen). UEF-käyttäjät pääsevät Funet FileSender –palveluun Haka-kirjautumisen kautta. Myös UEFin (tai muun Haka-kirjautumisen) ulkopuolinen käyttäjä pääsee tiedonjakopalveluun niin että hän vastaanottaa nk. Upload voucher -kutsun UEF-käyttäjältä. Upload voucher-kutsu saapuu ulkopuoliselle käyttäjällä URL – verkko-osoitelinkkinä, jonka avulla ulkopuolinen käyttäjä pääsee kirjautumaan Funet FileSenderiin kertakirjautumisena.
Muita palveluita
CSC:n Fairdata.fi-palvelun tarjoama IDA-säilytysratkaisu mahdollistaa myös tutkimusdatan jakamisen ja säilyttämisen eri yhteistyökumppaneiden kanssa. IDA-palvelua voivat pääsääntöisesti käyttää maksuttomasti suomalaisten korkeakoulujen tai valtion tutkimuslaitosten tutkijat ja muut tutkimuksen parissa työskentelevät henkilöt. IDAn käyttö aloitetaan ottamalla yhteyttä kotiorganisaation IDA-yhteyshenkilöön. UEFilla tämän voi tehdä ottamalla yhteyttä tutkimuksen IT-palveluihin (servicedesk@uef.fi). IDA-palvelun kokonaisuudessaan tarjoaa opetus- ja kulttuuriministeriö.
Yleiseurooppalainen lukuisten korkeakoulujen ja tutkimuslaitosten yhteisesti ylläpitämä EUDAT-palvelukokonaisuus (EUDAT Service catalogue) mahdollistaa tutkimusdatan jakamisen ja tallentamisen. EUDATin B2SHAREBasic on tutkijoille ilmainen tutkimusdatan tallentamisen, julkaisemisen ja jakamisen ratkaisu, joka tarjoaa myös pysyvän tunnisteen (DOI tai Handle). EUDAT-kokonaisuus sisältää paljon muitakin palveluita ja toiminnallisuuksia esimerkiksi olemassa olevan tutkimusdatan etsimiseen tai tutkimusdatan pidempiaikaiseen säilyttämiseen.
Tutkimusaineistoja voi jakaa lukuisissa muissakin palveluissa, jotka voivat olla vaikkapa tutkimusalalle perinteisiä tai riippua yhteistyökumppaneista.
Lisätietoa, lähteet ja linkit
EUDAT: EUDAT Collaborative Infrastructure (EUDAT CDI) ja EUDAT Service catalogue.
FUNET Filesender -portaali. CSC (edellyttää Haka-tunnuksia eli esim. UEF-tunnukset). Ks. myös Tiedostojen lähettäminen Funet Filesenderillä / Manninen, Olavi 16.10.2020 (esitys). Heimo-palvelut, vaatii kirjautumisen UEF-tunnuksilla.
IDA - Tutkimusdatan säilytyspalvelu. CSC:n Fairdata.fi-palvelu.
Itä-Suomen yliopiston tietoaineistojen käsittelyohje. Heimo-palvelut, vaatii kirjautumisen UEF-tunnuksilla.
Tiedostojen tallentaminen ja jakaminen. Heimo-palvelut, vaatii kirjautumisen UEF-tunnuksilla.
Linkit tarkistettu 2023-04-05.
Tutkimusaineiston laadulla viitataan hieman eri asioihin kontekstista riippuen. Tutkimusaineistonhallinnan yhteydessä laadulla tarkoitetaan ns. teknisiä tai ulkoisia tekijöitä, jolloin ei puututa siihen, miten hyvin aineisto sisällöllisesti soveltuu tutkimuskysymyksen käsittelyyn. Jälkimmäinen kuuluu pikemminkin tutkimuksen metodi- ja teoriakeskusteluun.
Eheys on toinen termi, jota käytetään aineiston laadun rinnalla. Eheydellä viitataan yleisesti ottaen siihen, että aineisto on luotettavaa ja sellaisessa muodossa, mihin se on suunniteltu. Se ei ole esimerkiksi muuttunut vahingossa ja on siten myös tutkimuskontekstissaan käyttökelpoinen.
Tutkimusaineiston laadun ja eheyden varmistaminen alkaa jo suunnitteluvaiheessa. On tärkeä pohtia, mitä sellaista voi aineiston käsittelyssä tapahtua, mikä heikentäisi tutkimusaineiston soveltuvuuden tai perusteltavuuden tutkimuskysymyksen kannalta tai pahimmassa tapauksessa mitätöisi tutkimushankkeen. Aineistotyypit ja menetelmät vaikuttavat luonnollisesti siihen, millaisia laadunvarmistuksen keinoja on huomioitava esimerkiksi aineistonkeruussa tai muuttamisessa toiseen muotoon. Tällaisia voivat olla vaikkapa mittauslaitteiden kalibrointi, haastatteluaineistojen ulkopuolinen litterointi tai datan tarkistussummat, jotka paljastavat arvojen poikkeavuuksia.
Tutkimusaineiston laatuun vaikuttavia riskejä torjutaan myös lähes kaikkiin tutkimusaineistoihin kuuluvin keinoin, joita ovat esimerkiksi varmuuskopiointi, versionhallinta ja kuvailu. Näitä käsitellään alla.
Varmuuskopiointi ja versionhallinta ovat tärkeä osa tutkimuksenaikaista riskinhallintaa ja tutkimusdatan laadunhallinnan suunnitelmallista toteuttamista. Toimenpiteillä turvataan tiedostojen säilyminen ja tuetaan datan ymmärrettävyyttä.
Varmuuskopiointi
Varmuuskopioinnista huolehtiminen suojelee tutkimusdataa vahingossa tehtäviltä muutoksilta tai tuhoamiselta, laitteiden tai ohjelmistojen vioista aiheutuvilta vahingoilta tai ulkopuolisten tekijöiden tuottamilta tuhoilta (esim. hakkereiden toiminta, tietokonevirukset, tulipalot, vesivahingot).
Varmuuskopioinnissa on hyvä huomioida mm.
- rutiininomaisuus ja säännöllisyys,
- hajauttaminen siten, että kaikki varmuuskopiot eivät ole samassa (fyysisessä) paikassa,
- tallennusvälineen sopivuus ja vaihto säännöllisin väliajoin ja
- tiedostomuodot, jotka toimivat tutkimuksen aikana ja jälkeen niin pitkään kuin on tarpeen.
Toimenpiteet kannattaa suunnitella etukäteen ja huolehtia siitä, että myös kaikki tutkimusryhmän jäsenet tietävät toimenpiteet ja vastuut. Tällaiset tiedot on hyvä sisällyttää tutkimushankkeen yhteisiin ohjeisiin ja sellaiseen paikkaan, josta ne löytyvät helposti.
Tiedostojen ja datan säilytyspaikka vaikuttaa varmuuskopioinnin toteuttamiseen. Vaikka yliopiston tarjoamissa säilytyspaikoissa on useimmiten varmuuskopiointi turvattu automaattisesti, kannattaa muistaa varmuuskopioinnin hajauttaminen. Jos tutkimusdataa säilytetään esimerkiksi oman tietokoneen kovalevyllä, varmuuskopiointi on toteuttava itse. Itä-Suomen yliopiston digipalvelut päivittää yliopiston sisäisillä sivustoilla tiedostoa, johon on koottu yliopiston tarjoamien säilytysratkaisuiden varmuuskopioinnin toteuttaminen.
Versionhallinta ja tiedostojen nimeäminen
Versionhallinnalla pidetään kirjaa tutkimusdataan tehdyistä muutoksista. Versionhallinnan toteuttamistapa riippuu datatyypistä. Esimerkiksi ohjelmistojen versionhallinnassa hyödynnetään versionhallintajärjestelmiä, kun taas vaikkapa tekstitiedostoista koostuvassa tutkimusdatassa versionhallinnassa tiedostojen nimeäminen on keskeinen versionhallinnan väline.
Versionhallinta on erityisen tärkeää silloin, kun useampi henkilö työskentelee saman tutkimusdatan kanssa. Versionhallintajärjestelmät mahdollistavat tyypillisesti samanaikaisen työskentelyn. Yksi esimerkki versionhallintajärjestelmästä on Git, jota hyödynnetään esimerkiksi Microsoftin omistamalla GitHub-alustalla.
Tiedostojen järjestäminen ja nimeäminen on hyvä suunnitella siten, että se tukee dataan tulevien muutosten seuraamista. Tällaisia keinoja ovat esimerkiksi tutkimusdatan jakaminen tiedostokansioihin ja tiedostojen systemaattinen nimeäminen kansioiden sisällä. Tiedoston nimessä on hyvä olla päiväys, joka merkitään aina samalla tavalla (esim. vvvv-kk-pv: 2022-07-22). Päivämäärän avulla vältetään epämääräiset "viimeisin versio" -maininnat tiedostojen nimissä. Kansiorakenne ja tiedostojen nimeämisen kuvaus on syytä sisällyttää erilliseen tekstitiedostoon (esim. *.txt).
Lisätietoa, lähteet ja linkit
Palveluiden varmuuskopiointi. Heimo-palvelut, vaatii kirjautumisen UEF-tunnuksilla.
Linkit tarkistettu 2023-04-05.
Tiedostomuotoja eli tiedostoformaatteja on lukuisia määriä eri tarkoituksiin. Tiedostomuodot myös uudistuvat jatkuvasti, jotkut häviävät käytöstä ja uusia tulee tilalle. Mitä pidemmän aikaa työskentelee saman tutkimusdatan kanssa, sitä tärkeämpää on pitää huolta siitä, että tiedostot ovat käyttökelpoisia ja luettavassa muodossa. Tiedostomuotoihin on kiinnitettävä huomioita erityisesti pitkäaikaissäilyttämisen ja arkistoinnin kohdalla.
Yleisenä ohjeena suositellaan, että tiedostosta kannattaa tehdä ainakin yksi sellainen kopio, jonka tiedostomuoto on yleisesti käytössä. Opetus- ja kulttuuriministeriön Avoimen tieteen ja digitaalisen kulttuuriperinnön kokonaisuudessa pidetään yllä laajaa ohjeistusta säilytys- ja siirtokelpoisista tiedostomuodoista, johon kannattaa tutustua etenkin suunniteltaessa tutkimusdatan pitkäaikaissäilytystä.
Erilaisia tiedostomuotoja
Tiedostomuoto ilmaisee tiedoston rakenteen ja usein sen, miten informaatio tallennetaan digitaaliseen muotoon (esim. PDF - Portable Document Format tai TIFF - Tagged Image File Format). Tämä helpottaa tiedostojen yhteentoimivuutta. Osa tiedostomuodoista on sidoksissa kaupallisiin ohjelmistoihin (esim. Microsoft Office), osa on avoimesti kenen tahansa käytettävissä ilman kaupallisia sidoksia (esim. OpenDocument).
Etenkin tutkimusdatan avaamisessa ja/tai tutkimuksenjälkeisessä säilyttämisessä suositellaan käytettäväksi avoimia tiedostomuotoja, jolloin tiedostojen lukeminen onnistuu eri ohjelmistoilla ilman maksullisia ohjelmistolisenssejä. Tiedostomuoto käy ilmi tiedoston nimen lopussa olevasta pisteellä erotetusta tiedostopäätteestä.
Tavallisia tekstitiedostomuotoja ovat esimerkiksi
- Microsoftin Word-ohjelmasta tuttu, tekstin muotoilut sisältävä DOC/DOCX (*.doc, *.docx),
- muotoilemattomana tekstinä tallennettava TXT (*.txt),
- avoin tiedostomuoto, OpenDocument Text, ODT (*.odt) tai
- muuttujat pilkuin erotteleva, Comma Separated Values, CSV (*.csv).
Tilastoaineistoissa hyödynnetään usein
- SPSS-ohjelmistoa (*.sav) tai
- taulukkolaskentaohjelmistoja (esim. Excel, *.xlx, *.xlsx).
Kuvatiedostoissa käytetään esimerkiksi
- JPEG-formaattia (*.jpg, *.jpeg), joka ei vie paljon tilaa, tai
- TIFF-formaattia (*.tiff, *.tif), joka sisältää enemmän informaatiota kuin JPEG.
Ääntä tai ääntä ja kuvaa tallentavat formaatit ovat melko riippuvaisia järjestelmistä ja siten myös muuttuvat jatkuvasti. Kun tällaisia tiedostoja halutaan pitää käyttökelpoisina pidemmän aikaan, ne muunnetaan usein esimerkiksi
- WAV-formaattiin (*.wav, *.wave) tai
- MPEG-formaattiin (*.mpg).
Muuttaminen toiseen muotoon: konvertointi ja digitointi
Kun tiedostoja siirretään tiedostomuodosta toiseen, puhutaan konvertoinnista. Konvertointi saattaa olla tarpeen, jos käytetään jotain muuta kuin alunperin hyödynnettyä ohjelmistoa vaikkapa siksi, että laitteisto ei tue alkuperäistä tietodostomuotoa. Konvertoitaessa tiedostoja tietoa saattaa kadota tai se voi vääristyä. Konvertointi tuleekin tehdä aina suunnitellusti ja tiedon häviämistä minimoiden. Monissa ohjelmistoissa on tiedostoa tallennettaessa mahdollisuus valita save as -tallennus tai export-toiminto. Konversioon on tarjolla myös erillisiä ohjelmistoja.
Paperimuotoista tutkimusaineistoa voidaan muuttaa digitaaliseen muotoon skannaamalla. Tällöinkin on syytä kiinnittää huomiota laatuun eli esimerkiksi resoluutioon, värisävyihin tai tummuusasteeseen, jotta kaikki tarpeellinen informaatio siirtyy ja on luettavissa tai tarkasteltavissa mahdollisimman hyvin. Samalla on kuitenkin muistettava, että mitä korkealaatuisempi lopputulos, sitä suurempi tiedosto on kyseessä. Se vaikuttaa tiedoston vaatimiin tallennus- ja käyttövaatimuksiin.
Skannaus perustuu aineiston kuvaamiseen, mutta tekstiä sisältävästä aineistosta voidaan tuottaa myös tekstitiedosto tekstintunnistusohjelman avulla (OCR eli Optical Character Recognatization). PDF (Portable Document Format) on laajasti käytössä oleva tiedostomuoto, joka säilyttää skannatun aineiston asettelut hyvin. Arkistoinnissa suositellaan PDF/A-tiedostomuotoa.
Analogiset ääntä tai kuvaa ja ääntä sisältävät tallenteet voidaan muuntaa digitaaliseen muotoon erillisillä tai suoraan tietokoneeseen yhdistettävillä laitteilla.
Lisätietoa, lähteet ja linkit
Tiedostoformaatit ja ohjelmistot. Aineistonhallinnan käsikirja. Tampere: Yhteiskuntatieteellinen tietoarkisto (urn:nbn:fi:fsd:V-201504200001).
Säilytys- ja siirtokelpoiset tiedostomuodot. Opetus- ja kulttuuriministeriö. URN: <urn:nbn:fi-fe2020100578095>.
Sanasto. Digitalpreservation.fi.
Linkit tarkistettu 2023-04-05.
Jotta tutkimusdata löytyy, on ymmärrettävää ja käyttökelpoista sekä tutkijalle itselleen että muillekin, sitä pitää rikastaa lisätiedolla. Tässä yhteydessä puhutaan metadatasta, kuvailusta ja dokumentoinnista, joita on hyvä suunnitella ja toteuttaa heti tutkimuksen alusta alkaen koko tutkimuksen ajan. Tällöin tutkimusdatan julkaiseminen tai arkistoiminen on mahdollisimman vaivatonta tutkimuksen loppupuolella. Jälkikäteen metadataa on vaikea, ellei jopa mahdotonta tehdä.
Mahdollisimman rikas kuvailutieto on yksi keskeisimmistä FAIR-periaatteiden toteuttamisen keinoista, jotta data on
- löydettävissä (Findable),
- saavutettavissa (Accessible),
- yhteentoimivaa muun datan kanssa (Interoperable) ja
- uudelleenkäytettävää (Re-usable).
FAIR-periaatteista voit UEF Datatuen sivustolla lukea lisää osiosta Aineistonhallinnan suunnittelu ja tutkimuksen alku: Mitä FAIR tarkoittaa ja miksi FAIR-periaatteet mainitaan usein aineistonhallinnan yhteydessä?
Metadatan, kuvailun ja dokumentoinnin määrittely
Termeille metadata, kuvailu ja dokumentointi ei ole tiukkoja määrittelyjä käytännön toimenpidetasolle, mikä saattaa aiheuttaa hämmennystä ja päänvaivaa. Metadata eli metatieto selitetään tyypillisesti tiedoksi tiedosta. Joskus puhutaan lisäksi paradatasta, jolla esimerkiksi Tietoarkiston Aineistonhallinnan käsikirjassa viitataan “empiiriseen tietoon aineiston keruuprosesseista” (esim. haastattelujen alkamis- ja päättymisajankohta, vastausviive).
Dokumentoinnilla voidaan viitata erityisesti niihin toimenpiteisiin, joita tutkimusdatalle on tehty tutkimuksen kuluessa (versiot, tiedostojen ja kansioiden rakenteet, koodit, jne.).
Metadata jaetaan tutkimusdatan yhteydessä puolestaan usein
- kuvailevaan (descriptive metadata) ,
- hallinnolliseen (administrative metadata) ja
- rakenteelliseen (structural/structured metadata) metadataan.
Hallinnollinen metadata kertoo, millä ehdoin ja teknisin edellytyksin tutkimusdataa voidaan käyttää yksittäisen tiedoston tasolla. Tällaista tietoa ovat esimerkiksi tiedostomuoto ja -koko, lisenssi, embargo (eli ajankohta, jolloin aineiston saa julkaista) tai omistajuus. Kuvaileva metadata kertoo tutkimusdatan sisällöstä ja luonteesta, mihin kuuluvat myös datan eräänlaiset perustiedot kuten tekijän nimi, otsikko, pysyvä tunniste ja provenienssi. Rakenteellinen metadata viittaa tutkimusdatan rakenteeseen ja järjestykseen.
Kuvailun kokonaisuuden ymmärtämistä voi ajatella siten, että hallinnollisessa metadatassa fokus on tiedostoissa ja kuvailevassa metadatassa tutkimusdatan kokonaisuudessa. Viime kädessähän ei ole olennaista keskittyä metadatan jaotteluun vaan ylipäätään siihen, että tutkimusdata kuvaillaan kattavasti ja selkeästi.
Metadatastandardi
Metadatan yhteydessä törmää usein kehotukseen hyödyntää standardeja tai skeemoja. Tämä siksi, että kun tutkimusdataa kuvaillaan yhdenmukaisesti ja koneluettavasti, ne olisivat helpommin löydettävissä ja hyödynnettävissä keskenään ja eri yhteyksissä. Yksinkertaisimmillaan metadatastandardit ovat täytettäviä lomakkeita, jotka noudattavat tiettyä rakennetta. Tällöin halutut metadatatiedot tulevat kaikilta täyttäjiltä aina samankaltaisina. Metadata vertautuu tätä kautta julkaisuista tuttuun formaattiin, jossa kerrotaan esimerkiksi nimi, tekijä, omistajuus jne.
Standardeja on lukuisia. Osa on n. geneerisiä metadatastandardeja, kuten hyvin yleisesti käytetty Dublin Core (DC), osa taas tieteenalakohtaisia. Tutkija ohjataankin usein hyödyntämään oman alansa standardeja, joita löytyy esimerkiksi Digital Curation Centren tai Research Data Alliance -yhteisön ylläpitämistä luetteloista.
Metadatastandardin valintaa voi ohjata myös datarepositorio- tai arkisto, jota tutkija on aikeissa hyödyntää tutkimusdatansa kohdalla. Esimerkiksi Tietoarkistossa on käytössä DDI-metadatastandardi (Data Documentation Initiative), joka on kehitetty ja jota ylläpidetään erityisesti yhteiskuntatieteellisen data-aineiston kuvailun tarpeita silmällä pitäen.
Standardin käyttö ei aina ole tietoista, vaan metadatastandardeja tutkija voi hyödyntää vaikkapa silloin, kun syöttää tutkimusdatansa tietoja datarepositorioon tai kuvailee datansa kansallisen verkkoselainpohjaisen Qvain-työkalun avulla.
Qvain-työkalun käyttö on melko vaivatonta: tutkija syöttää pyydettyjä tietoja verkkolomakkeeseen, jota voi myöhemmin täydentää ja halutessaan julkaista. Julkaisemisen jälkeen kyseinen tutkimusdata on löydettävissä Etsin-työkalun kautta, ja tiedot haravoituvat myös muihin palveluihin ja alustoille, kuten vaikkapa UEFin UEF erepositorioon (UEF eRepo).
Qvaimen käyttöopas johdattaa askel askeleelta tarpeellisten metatietojen kertomiseen. Qvain edellyttää mm. seuraavia tietoja, joihin sisältyy osin pakollisia kenttiä:
- Datalähde
- Oikeudet ja lisenssit
- Datan kuvaus
- Toimijat
- Dataan liittyvät julkaisut ja muut tuotokset
- Maantieteellinen alue
- Ajanjakso
- Infrastruktuuri
- Provenienssi (historiatiedot ja tapahtumat)
- Projekti ja rahoitus
Tiedostojen kuvailu ja dokumentointi
Metadatastandardi tai eräänlainen bibliografinen tai muodollinen, tutkimustason metadata ei riitä takaamaan tutkimusdatan ymmärrettävyyttä, kuten yllä mainittu Qvaimen kenttäluettelo osoittaa. Toisinaan tuntuu jopa siltä, että metadata- ja kuvailuohjeistus keskittyy liiaksi standardien ympärille.
Metadataan kuuluu erottamattomasti tutkimusdatan eräänlainen sisäinen kuvaus, jos sellainen ei käy ilmi metadatastandardista. Sisäisen kuvauksen avulla esimerkiksi käytetyt muuttujat ja termit, tiedostojen järjestys ja hierarkia, tekniset ja hallinnolliset vaatimukset ja muut datan ymmärtämisen kannalta olennaiset seikat kirjataan itselle ja muille. Tällainen voi käytännössä olla mm. taulukkotiedoston yhteyteen lisätty selostus tai tiedostokansioihin sisällytetty readme-tiedosto. Kuvailun tuottamisen apuna voi käyttää ajatusta, miten pystyn itse ymmärtämään oman tutkimusdatani 10 vuoden kuluttua sen aktiivisesta käytöstä.
Kuvailuun sisältyy siten tietoa
- aineistonkeruun kontekstista, tutkimuksen tavoitteista ja menetelmistä,
- tiedostojen rakenteesta,
- laadunvarmistusmenetelmistä,
- versionhallinnasta,
- käyttöehdoista,
- muuttujista ja tietueista,
- koodeista ja luokitusjärjestelmistä,
- erikoistermeistä ja lyhenteistä ja
- puuttuvista arvoista.
Sanasto, tesaurus ja ontologia
Tutkimusdatan kuvailussa suositellaan käytettäväksi sanastoja (vocabulary, glossary), tesauruksia (thesaurus) ja ontologioita (ontology). Finton mukaan sanastot, tesaurukset ja ontologiat ovat strukturoituja ja koneluettavia käsitteistöjä. Sanastoissa tietyin perustein valitut termit ja käsitteet ovat ennalta määriteltyjä. Tesauruksissa ja ontologioissa käsitteiden väliset suhteet ovat tärkeitä, mikä mahdollistaa tiedon linkittyvyyden.
Käytännössä sanastojen ja ontologioiden käyttö tarkoittaa sitä, että tutkimusdataa kuvailtaessa pyritään etsimään valmiista, yleisesti hyväksytyistä kuvailutermeistä ja asiasanoista kyseiseen tutkimusdataan sopivat ilmaukset. Suomessa tällainen on YSO eli Yleinen suomalainen ontologia, josta kuvailutermistöä löytyy kolmella kielellä (suomi, ruotsi, englanti). Sanastoja ja ontologioita hyödynnetään myös automaattisesti esimerkiksi datarepositorioissa, kun sinne syötetään tietoja tutkimusdatasta.
Tutkija voi kuvailla dataansa myös täysin vapaavalintaisin termein ja sanoin, mikä mahdollistaa tutkijan näkökulmasta mahdollisimman sopivan ja monipuolisen datan kuvailun mutta ei sellaisenaan välttämättä edistä datan löydettävyyttä.
Koska sanastot ja ontologiat rakentuvat yhteisesti sovittuihin merkityksiin ja termien välisiin suhteisiin, ne tukevat tutkimusdatan metadatan laatua. Ne edistävät datan löydettävyyttä, yhteentoimivuutta ja uudelleenkäytettävyyttä eli palvelevat keskeisiä FAIR-periaatteita.
Lisätietoa, lähteet ja linkit
Aineistonhallinnan käsikirja. Tampere: Yhteiskuntatieteellinen tietoarkisto. URN: <urn:nbn:fi:fsd:V-201504200001>.
Berman, F., Wilkinson, R., Wood, J. (2014). Guest editorial: Building global infrastructure for data sharing and exchange through the Research Data Alliance. D-Lib Magazine 20(1/2). DOI: <http://doi.org/10.1045/january2014-berman>.
Berman, F. (2019). The Research Data Alliance --The First Five Years,
Berman, F., & Crosas, M. (2020). The Research Data Alliance: Benefits and Challenges of Building a Community Organization. Harvard Data Science Review, 2(1). DOI: <https://doi.org/10.1162/99608f92.5e126552>.
Dublin Core. The Dublin Core™ Metadata Initiative.
Fuchs, Siiri & Kuusniemi, Mari Elisa 2018. Making a research project understandable - Guide for data documentation (1.2). Zenodo. DOI: <https://doi.org/10.5281/zenodo.1914401>.
List of Metadata Standards. Digital Curation Centre.
Qvain – Tutkimusaineistojen metatietotyökalu. Fairdata.fi.
The RDA Metadata Standards Catalog. Research Data Alliance (Metadata Standards Catalog Working Group).
Tietoarkisto ja DDI-malli. Tietoarkisto.
Van Wettere, Niek 2022. How to implement the metadata standard "Data Documentation Initiative (DDI)"? Zenodo. DOI: <https://doi.org/10.5281/zenodo.5841664>.
Yleistietoa ontologioista. Finto – Sanasto- ja ontologiapalvelut.
YSA – Yleinen suomalainen asiasanasto. Finto – Suomalainen asiasanasto- ja ontologiapalvelu.
YSO – Yleinen suomalainen ontologia. Finto – Suomalainen asiasanasto- ja ontologiapalvelu.
Linkit tarkistettu 2023-04-05.