Rosti T. & Satama M. (2023). Tutkimusdata talteen: kuka, miten ja missä? Tietolinja, 2023(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe20231218155442
Tutkimustulosten julkaisemisen ja avoimuuden rinnalle on noussut keskeiseksi tavoitteeksi tutkimusdatan julkaiseminen ja avoimuus, mikä näkyy myös kansallisissa linjauksissamme. Missä tutkimusdatan pitäisi olla, kenen vastuulla ja millaisella osaamisella näihin tavoitteisiin päästään? Tähän mammuttiteemaan käytiin käsiksi LIBERin 2023 konferenssin yhdessä työpajassa otsikolla How to set up data repository services in a university.[1]
Tutkimustietojärjestelmät ja datatiedonkeruu
Kirjastot ovat monessa yliopistossa tutkimusdatanhallinnan solmukohdassa, ja tutkimusdata on erottamaton osa tutkimustuloksia ja niiden julkaisemista. Sen vuoksi datan avaaminen, julkaiseminen ja datarepositoriopohdinnat solahtavat luontevasti kirjastolaisten LIBER-konferenssiin ja keskusteluun. Käytännössä työn toteuttaminen ei ole kuitenkaan ongelmatonta.
Useimmissa tieteellisissä kirjastoissa on jo vakiintunut käytäntö kirjata organisaation julkaisutiedot yliopiston tutkimustietojärjestelmään, josta ne siirretään tutkimustietovarantoon VIRTA-tiedonsiirron kautta. Kirjastojen tehtävänä on useimmiten samalla tarkastaa julkaisujen metatiedot kuntoon. Datan tapauksessa ei välttämättä toimita samoin, koska organisaatioiden datavarannoista ei tyypillisesti kerätä tietoja samalla tavoin kuin julkaisuista.
Organisaatiot ovat havahtuneet siihen, että tietoa niiden omista datavarannoista olisi kuitenkin syytä jollakin tavalla seurata, sillä dataan kohdistuu erilaisia näkökulmia ja osoittamisvelvollisuuksia. Joissakin organisaatioissa on toteutettu aineistokatalogeja datakokoelmien inventointia varten. Toisissa organisaatioissa avattuja aineistoja kerätään haravoimalla metatietoja olemassa olevista repositorioista.
Molemmissa toteutuksissa on hyvät ja huonot puolensa. Aineistokatalogi saattaa työllistää tutkijaa lisäämällä tutkijan velvollisuutta kirjata tutkimusdataan liittyviä tietoja. Metatietojen haravointi jättää puolestaan ainakin jotain aineistoa pimentoon: organisaatio ei voi tietää, minne kaikkialle aineistoa on tallennettu, ellei siitä informoida organisaatiota. Yksi konkreettinen ongelma on affiliaation esittäminen. Onko tutkija tallentanut tiedon oikeassa muodossa ja onko kaikki mahdolliset affiliaatiot huomioitu? Helpotusta tähän voisi tuoda esimerkiksi pysyvien tunnisteiden hyödyntäminen myös affiliaatiota ilmoitettaessa.
Datajulkaisut ovat melko uusi ilmiö tutkimuksen kentällä. Ne ovat vertaisarvioituja julkaisuja, jotka sisältävät tietoa vaikkapa datan keruu- ja analyysimenetelmistä. Datajulkaisuissa voidaan tarjota riittävää kuvailutietoa datojen löydettävyyden ja uudelleenkäytettävyyden varmistamiseksi. Yhä useammin erityisesti tutkimusjulkaisuiden kohdalla halutaan tietää, missä julkaisun perustana oleva data on saatavilla. Tässä kirjastojen tärkein tehtävä onkin huolehtia siitä, ettei data päädy samalla tavoin maksumuurien taakse kuin tiedejulkaisut.
Datarepositorio datan elinkaaren turvaajana
Datan julkaiseminen tutkimustulosten yhteydessä tai erillisessä datajulkaisussa edellyttää, että datalle on tarjolla FAIR-periaatteita tukeva ja edistävä luotettava tallennuspaikka. Muistitikut tai organisaation tutkijalle tarjoama levytila, joka ei työsuhteen päätyttyä ole enää tutkijan käytettävissä, eivät tähän tarkoitukseen tai muuhunkaan vastuulliseen datan säilyttämiseen sovellu. Tutkimusdatalle onkin tarjolla lukuisia repositorioita, joista osa on tieteenalakohtaisia ja osa ns. yleisrepositorioita. Repositorioratkaisut voivat myös olla organisaatiokohtaisia, kansallisia tai kansainvälisiä. Vastuullisissa repositorioissa on huolehdittu myös datan pitkäaikaissäilytyksestä. Repositorioiden vastuullisuus voidaan osoittaa esimerkiksi CoreTrustSeal-merkinnällä.
Repositorio voidaan tiiviisti määritellä tietokannaksi tai virtuaaliseksi arkistoksi, joka on perustettu tieteellisten tuotosten keräämistä, levittämistä ja säilyttämistä varten.[2] Repositorio ei ole tietenkään pelkkä tekninen ratkaisu, jossa tutkimustuotokset lymyilevät, vaan järjestelmän ja palveluiden kokonaisuus. Tutkija on tekemisissä datarepositorion kanssa niinä hetkinä, kun data konkreettisesti laitetaan jonnekin tai sitä jostain haetaan käyttöön. Noiden hetkien ulkopuolella datan pitää pysyä kunnossa ja käyttökelpoisena.
Tutkimuksen ja tutkimusdatan yhteydessä puhutaan usein elinkaaresta. Se ei tieteellisessä tutkimuksessa ole välttämättä täysin onnistunut sanavalinta. Erityisesti datan tapauksessa voitaisiin pikemminkin puhua jatkumosta tai syklisyydestä. Tutkimushankkeelle on hyväkin määritellä alku ja loppu, mutta hankkeessa hyödynnetylle ja tuotetulle datalle ei tällaista tarkkaa rajaa voida vetää, vaikka esimerkiksi datan keruun aloittaminen tai sen julkaiseminen tarjoavat toki yhdenlaiset rajapyykit. Dataa voidaan käyttää uudelleen, sitä rikastetaan, muokataan, yhdistetään muihin datasetteihin ja tulkitaan erilaisista teoreettisista näkökulmista. Jatkumoajattelu asettaa siten datan löydettävyydelle ja saavutettavuudelle erityisiä vaatimuksia, joita datarepositoriot täyttävät teknisine järjestelmineen ja palveluineen.
Ei palveluja ilman osaamista
Tutkijaa kiinnostaa ennen kaikkea palvelu eikä niinkään datarepositorion järjestelmätason toteutus. Tutkija on toki vastuussa oman tutkimusdatansa hallinnasta, mutta palveluntarjoajan tehtävä on huolehtia luotettavista, laadukkaista ja tutkimuseettiset vaatimukset täyttävistä järjestelemistä ja työnkuluista, jotta tutkija pystyy valitsemaan tarkoituksenmukaisimman ratkaisun luottavaisin mielin ja mahdollisimman sujuvasti. Tutkimusorganisaatioiden tehtävä on auttaa tutkijoita tässäkin asiassa.
LIBERin työpajan asiantuntijapuheenvuoroissa pohdittiin erityisesti organisaatioiden näkökulmasta, millaisia osaamistarpeita ja huomioitavia seikkoja datarepositorioihin liittyy. Tällaisia kysymyksiä nousee esiin riippumatta siitä, onko organisaatiolla omaa repositoriota. Alustuksissa kuultiin Leuvenin yliopiston laaja-alaisesta tutkimusdatarepositoriosta (Roxanne Wyns), Tanskan kansallisesta datarepositoriomallista (Kirsten Kruuse) ja Karlsruhen Institute of Technologyn datarepositorion laadun parantamisesta (Claudia Kramer).
Leuvenissa ja Karlsruhessa repositoriot ovat jo vakiintuneet, joten niistä saatiin hyviä neuvoja esimerkiksi standardisoidun metadatan tärkeydestä, organisaation johdon tuen ja riittävän taloudellisen resurssin keskeisyydestä ja viestinnän merkityksestä. Tanskassa suunnitelmat lähtivät liikkeelle jo 2010, mutta toteuttaminen on vasta nyt käsillä. Suurin hankaluus kilpistyi osaamisen puutteeseen: millaista osaamista ylipäätään tarvitaan ja mistä saadaan tarpeeksi osaava porukka kasaan. Tarvitaan ihmisiä, jotka osaavat tutkimusaineistonhallinnan asioita monipuolisesti, tuntevat tieteenala- ja aineistotyyppiset erityisvaatimukset ja pystyvät kouluttamaan muita.
Tutkimusaineistonhallinnan osaamiseen liittyvää keskustelua käydään aktiivisesti eri puolilla, mikä näkyi myös LIBERin konferenssin ohjelmassa ja palkituissa esityksissä.[3] Suomessa Avoimen tieteen ja tutkimuksen kansallisen koordinaation puitteissa on ollut käynnissä työryhmä Professionalisation of RDM Experts. Työryhmää on vetänyt Mari Elisa Kuusniemi Helsingin yliopiston kirjastosta. Ryhmän loppuraportti on tulossa vuoden 2024 alkupuolella. Työryhmä on pohtinut osaamisen sisältöjä, koulutustarpeita ja koulutuksen systemaattista järjestämistä tutkimusaineistonhallinnan eri asiantuntijatehtävien näkökulmasta. Olemme kansallisesti vihdoin menossa kohti systemaattista RDM-asiantuntijakoulutusta yhdessä tuumin ja yhteistyössä kansainvälisten kumppaneiden kanssa. Seuraamme tiiviisti kansainvälisiä avauksia, joissa korostuu vahvasti verkostomaisen työskentelyn ja jaettujen opetusmateriaalien tarve, kuten esimerkiksi EOSC:n (European Open Science Cloud) Skills4EOSC-projekti osoittaa.[4]
Ei palveluita ilman käyttäjiä ja heidän osaamistaan
Datanhallinnan tehtävissä toimivien henkilöiden osaamisvaatimukset ovat erottamattomasti sidoksissa tutkijoiden ja datanhallinnan palveluiden käyttäjien tarpeisiin ja osaamiseen. Tätä teemaa pohdittiin LIBERin työpajan toisessa osiossa pienryhmissä. Käytännössä erityisesti tietosuojalainsäädäntö, käyttöoikeuksien määrittely, datan omistajuus ja datan avaamisen rajoitukset nousevat vahvasti esiin tutkijoiden kohtaamina ongelmina.
Palveluiden käyttäjien pitäisi tunnistaa mitä, missä ja miten heidän hyödyntämäänsä tai tuottamaansa dataa voi ja saa käyttää tai avata muiden käyttöön. Tämä kaikki vaatii opettelua, aikaa, ehkäpä lisää rahaa ja myös tutkimushankkeessa työskentelevää henkilöä, jolla on datanhallinnan erityisosaamista. Jälkimmäinen saattaa usein nivoutua menetelmäosaamiseen, mikä korostaa datanhallinnan ja metodologian välisen rajanvedon häilyvyyttä.
Kun tutkijan arvioinnissa painopiste on yhä vahvasti tutkimusjulkaisuissa eikä laadukkaassa datanhallinnassa, datan julkaisemisessa tai sen avaamisessa, on selvää, ettei motivaatiota avoimen tieteen vaatimusten mukaiseen toimintaan ja tähän liittyvien taitojen hankintaan välttämättä ole. Tutkimushankkeen loppupuolella ei ehkä löydy enää intoa paneutua syvällisesti datarepositorion valintaan ja datan saattamiseen hyvään repositoriokuntoon, ellei sitä ole tehnyt pitkin matkaa. Tutkimusdatanhallinnan asiantuntijoilta tarvitaankin sellaista osaamista, joka tukee tutkijoita osaamisen kartuttamisessa heitä kannustavalla ja motivoivalla tavalla.
Datarepositorion ympärille kietoutuu sekä tutkijaan että tutkimusorganisaatioon kohdistuvia vaatimuksia mielenkiintoisella tavalla. Tämä tarjoaa konkreettisen lähtökohdan ja tavoitteen pohtia dataan ja osaamiseen liittyviä asioita. Vasta kun tiedetään, millaisia seikkoja on huomioitava, päästään tarkemmin miettimään vastuita, velvollisuuksia ja osaamisen kartuttamista. Tätä ei tehdä yksin.
Lähteet
Avoimen tieteen koordinaatio, Tieteellisten seurain valtuuskunta (2023). Tutkimusaineistojen ja -menetelmien avoimuus. Korkeakoulu- ja tutkimusyhteisön kansallinen linjaus ja toimenpideohjelma 2021–2025: Osalinjaukset 1 (Tutkimusdatan avoin saatavuus) ja 2 (Tutkimusmenetelmien ja -infrastruktuurien avoin saatavuus). Tiedonjulkistamisen neuvottelukunta ja Tieteellisten seurain valtuuskunta. Vastuullisen tieteen julkaisusarja 2:2023, Helsinki. Saatavilla: DOI: https://doi.org/10.23847/tsv.667.
OpenAIRE: What are repositories? Haettu 17.11.2023. Saatavilla: https://www.openaire.eu/where-can-i-read-more-about-fp7.
Report – LIBER Conference Research Data Management Workshop, 5th of July 2023. Haettu 17.11.2023. Saatavilla: https://libereurope.eu/wp-content/uploads/Report-on-Annual-Conference-Workshop_2023.pdf.
Rosti, T. & Satama, M. (2023). Tutkimuskirjastojen arvot uudelleenarvioinnissa. UEF kirjaston blogi, 28.9.2023. Haettu 17.11.2023. Saatavilla: https://blogs.uef.fi/ueflibrary/tutkimuskirjastojen-arvot-uudelleenarvioinnissa-reassessing-research-library-values/.
Säynevirta, H. (https://www.saynevirta.fi/), kuviasuomesta.fi (https://www.kuviasuomesta.fi/info/).
Whyte, A., Green, D., Avanço, K., Di Giorgio, S., Gingold, A., Horton, L., Koteska, B., Kyprianou, K., Prnjat, O., Rauste, P., Schirru, L., Sowinski, C., Torres Ramos, G., van Leersum, N., Sharma, C., Méndez, E., & Lazzeri, E. (2023). D2.1 Catalogue of Open Science Career Profiles – Minimum Viable Skillsets (v1.2). Saatavilla: DOI: https://doi.org/10.5281/zenodo.8101903.
Kirjoittajat
Tomi Rosti, tietoasiantuntija
Itä-Suomen yliopiston kirjasto
tomi.rosti [at] uef.fi
Manna Satama, tietoasiantuntija
Itä-Suomen yliopiston kirjasto
manna.satama [at] uef.fi
Viitteet
[1] Report – LIBER Conference Research Data Management Workshop, 5th of July 2023.
[2] OpenAIRE: What are repositories?
[3] Rosti & Satama 2023.
[4] Whyte et al. (2023).
Leave a Reply