Uusi riepumatto tuotiin lattialle: Miten syntyy avoimen tieteen palveluiden kokonaisuus

Keskitalo E-P (2017). Uusi riepumatto tuotiin lattialle: Miten syntyy avoimen tieteen palveluiden kokonaisuus. Tietolinja, 2017(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201709258720

Avoin tiede ja tutkimus on opetus- ja kulttuuriministeriön vuonna 2014 käynnistämä hanke, joka edistää tiedon saatavuutta ja avointa tiedettä. Tavoitteena on, että vuoteen 2017 mennessä Suomi nousee yhdeksi johtavista maista tieteen ja tutkimuksen avoimuudessa ja että avoimen tieteen mahdollisuudet hyödynnetään laajasti yhteiskunnassa.

Avoin tiede koskettaa koko tieteellisen tutkimuksen elinkaarta. Kirjastoille hyvin tuttu on tutkimusjulkaisujen avoimen saatavuuden periaate, jonka eteen tehdään jatkuvasti lujasti töitä muun muassa FinELibin aineistoneuvotteluissa. Julkaisemisen alaan liittyy myös vertaisarviointiprosessien avaaminen. Mutta itse tieteen tekemistäkin voidaan avata. Kansalaistieteessä voidaan esimerkiksi hajauttaa havaintojen tekemistä tai vaikkapa datan korjailua, kuten Kansalliskirjaston taannoisessa sukukielten digitointiprojektissa tehtiin. Tieteen avoimuus voi tarkoittaa myös tutkimuksen vaiheiden ja välituloksien aktiivista viestimistä ja avaamista toisten tutkijoiden kritiikille ja neuvoille

Avoin tiede ja tutkimus -hankkeessa keskiössä on ollut tutkimusdatan avaaminen, minkä on tehnyt mahdolliseksi tutkimuksen digitaalistuminen. Datan avaamisessa voi nähdä kahtalaisia hyötyjä. Datan tuottamiseen käytetyt investoinnit saadaan tuottamaan mahdollisimman paljon lisäarvoa, kun dataa voidaan käyttää uudestaan erilaisilla, kenties yllättävilläkin tavoilla. Julkishallinnon datan avaaminen on johtanut myös uudenlaisiin palveluihin ja liiketoimintamahdollisuuksiin; niitä voi toivoa syntyvän myös avoimen tutkimusdatan ympärille. Toinen hyöty liittyy tieteellisen järjestelmän itsekorjautuvuuteen. Tutkimuksen todennettavuus ja toistettavuus ovat tieteen tärkeitä periaatteita. Datan avautuminen kriittiselle tarkastelulle tukee näin ollen tieteen perusolemusta.

Paljon vanhaa, hiukan uutta

Ennen ATT-hanketta työskenteli TTA- eli Tutkimuksen tietoaineistot -hanke (2011–2013), joka sai alkunsa vuonna 2011 julkaistusta Tieto käyttöön -raportista. TTA-hankkeen tehtävänä oli edistää sähköisten tietoaineistojen hyödyntämistä tutkimuksessa. Sen puitteissa luotiin tutkijapalveluita, jotka muodostavat lähtökohdan ATT-hankkeen tavoitteille. Yksi niistä, tutkimusaineistojen säilytyspalvelu IDA, onkin ollut käytössä jo useita vuosia. IDA tarjoaa tutkijoille tallennustilaa, joka on luotettavaa ja tutkijalle edullista: useiden petatavujen kapasiteetin kustannukset kattaa opetus- ja kulttuuriministeriö. Se jakaa tallennuskiintiön korkeakouluille ja Suomen Akatemialle, jotka puolestaan jakavat sen tutkimusprojekteille. IDA-palvelu tulee jatkumaan käyttäjien kannalta nykyisen kaltaisena, vaikkakin sen konepellin alla tapahtuu muutoksia.

Myös tutkimusaineistojen hakupalvelu Etsin on jo vakiintunut. Tutkija, tutkimusryhmä tai organisaatio voi Etsimen avulla julkaista tiedot omista aineistoistaan ja tarjota niitä laajempaan käyttöön. Hakupalveluun myös haravoidaan muista tietokannoista, esimerkiksi Tietoarkiston Ailan sisältö on löydettävissä myös Etsimen kautta. Hakukäyttö on luonnollisesti kaikille avointa.

Avoimen tieteen päämääränä on poistaa kaikki mahdolliset esteen tiedon ja tiedon tarvitsijan välistä. Jos aineiston käyttö välttämättä edellyttääkin lupaa, pitää sen hankkimisen olla helppoa ja luotettavaa. Etsimen taustalla toimii tutkimusaineistojen käyttölupien haku- ja hallintatyökalu Reetta. Kun Etsimen kautta haluaa päästä käsiksi käyttörajoitettuun aineistoon, Reetta opastaa täyttämään hakemuslomakkeen, toimittaa sen oikeaan osoitteeseen ja lopulta avaa hakijalle pääsyn aineistoon. – Reetan taustalla olevasta sovelluksesta on näinä päivinä tulossa julkisuuteen uusi, huomattavasti kehittynyt versio.

Jos tutkimusaineistot halutaan todella avata käyttöön, niistä tarvitaan kuvailutietoa; ilman sitä ei Etsinkään toimisi. Kansalliskirjastossa on valmistumassa tutkimusaineistojen kuvailutyökalu Qvain. Alkuvaiheessa tärkein päämäärä on mahdollistaa tallennuspalvelussa olevien tiedostojen kokoaminen ja kuvaileminen julkaisukelpoisiksi aineistoiksi. Qvainta on kuitenkin suunniteltu sillä tavalla itsenäisenä komponenttina, että se on aikanaan sovellettavissa myös muihin käyttöympäristöihin. Taustalla on tehty myös elintärkeää tietomallityötä. Edelleen elävässä vaiheessa oleva ”Tutkimusaineistokatalogien soveltamisprofiili” perustuu Data Catalog Vocabularyn (DCAT) eurooppalaiseen sovellusprofiiliin.

Kuvailutyökalun, tallennuspalvelun ja hakupalvelun taustalle on vielä syntymässä niiden yhteinen tutkimusaineistojen metatietovaranto. Se tulee siis keskustelemaan kuvailutyökalun, säilytyspalvelun, hakupalvelun ja pitkäaikaissäilytyspalvelun kanssa ja välittämään tietoa niiden välillä.

Mummo silkkiänsä säästi piirongissa

”… kunnes silkki itse itseänsä söi”. Digitaalinen pitkäaikaissäilytys ei sekään onnistu tuuppaamalla aineistoja piirongin perälle. Kuten tiedetään, digitaalisen aineiston säilymiseen ja käytettävyyteen kohdistuvia riskejä on jatkuvasti seurattava ja torjuttava, esimerkiksi siirtämällä aineisto ajanmukaisille tallennusalustoille.

Tutkimusaineistojen pitkäaikaissäilytyspalvelu on vielä toteutusvaiheessa, mutta itse asiassa paljon siitä on jo olemassa: palvelun tekniset ratkaisut tulevat olemaan yhteisiä Kansallinen digitaalinen kirjasto -hankkeessa rakennetun säilytysratkaisun (KDK-PAS) kanssa. KDK-PAS otettiin käyttöön loppuvuodesta 2015. Kansalliskirjasto oli sen ensimmäinen käyttöönottaja, ja ensimmäisenä aineistona säilytykseen alettiin viedä suomalaista verkkoarkistoa, jota on kerätty vuodesta 2006 alkaen. Käyttöönottoa valmistellaan myös Kansallisarkiston, Kansallisen audiovisuaalisen arkiston, Yhteiskuntatieteellisen tietoarkiston ja Museoviraston kanssa. – Kansalliskirjasto sai vastikään opetus- ja kulttuuriministeriöltä uuden kiintiömyönnön. Sen seurauksena voidaan aloittaa myös muiden elektronisten vapaakappaleiden sekä digitoitujen aineistojen pitkäaikaissäilytykseen siirron suunnittelu ja toteutus.

Opetus- ja kulttuuriministeriön rahoittama ja Tieteen tietotekniikan keskuksen CSC:n hoidossa oleva KDK-PAS ottaa vastaan aineistoja, jotka ovat säilytyskelpoisissa tiedostomuodoissa ja jotka metatietoineen on paketoitu tarkasti määritellyiksi paketeiksi. Pakettien laatu tarkistetaan vielä ennen säilytykseen siirtoa. Säilytettävät aineistot tallennetaan kolmelle teknisesti erilaiselle tallennusalustalle. Asiantunteva tiimi seuraa säilytyksen onnistumista ja hoitaa ongelmatilanteita – tekniikka pettää aina! – sekä seuraa pitkällä aikavälillä tapahtuvia toimintaympäristön muutoksia ja niiden vaikutusta aineistojen käyttökelpoisuuteen. Säilytys vaatii aktiivista otetta aineistojen hallintaan niin palvelun toteuttajalta kuin aineistojen omistajiltakin.

Itse digitaalisten aineistojen säilyttäminenhän on melko lailla samanlaista niiden sisältöön katsomatta. Sen sijaan ne prosessit, joilla tutkimusdata syntyy ja muotoutuu tutkimusaineistoiksi, ovat tutkimuksessa hyvin erilaisiakuin vakiintuneissa kulttuuriperintölaitoksissa. Yli 350-vuotiaan Kansalliskirjaston rooli aineiston säilytyksessä on pakostakin erilainen kuin lyhytikäisen tutkimusryhmän. Lisäksi tutkimusaineistojen hallinnan, kuvailun ja käsittelyn toimintatavat ovat vielä monenkirjavia ja nopeasti muuttuvia, ja eri alojen aineistot ovat keskenään merkittävästi erilaisempia kuin eri alojen tutkimusjulkaisut.

Monimuotoisen toimintakentän takia onkin varauduttava siihen, että säilytyksen prosesseja tulee olemaan erilaisia. Jos tutkimuksen datatiedostot ja dokumentaatio ovat säilytyspalvelussa ja kuvailu on tehty riittävän huolellisesti kuvailutyökalulla metatietovarantoon, niin monia toimenpiteitä voidaan yhtenäistää. Ensin tarkistetaan, että metatieto on muodollisesti riittävää ja että kaikki tutkimusaineistoon kuuluvat tiedostot ovat olemassa ja hyväksyttävissä formaateissa. Kun on todettu, että aineisto on valmis säilytykseen, sen siirtämiseen annetaan lupa nk. hallintapalvelussa, jossa eri toimijat voivat myös tarkastella käytössään olevia kiintiöitä. Sen jälkeen kaikki aineiston osaset muodostetaan paketiksi, joka lähetetään varsinaisen pitkäaikaissäilytysratkaisun hyväksyttäväksi ja vastaanotettavaksi.

Mikäli taas säilytyspaketin osaset ovat tutkimusorganisaation omissa järjestelmissä, joudutaan prosessia suunnittelemaan tämän ympäristön ehdoilla. Silti tällaiset räätälöinnit saattavat hyvinkin olla perusteltuja, etenkin jos aineiston tuotanto on jatkuvaa tai sitä on hyvin paljon.

Opetusministeriö tulee sopimaan tutkimusorganisaatioiden kanssa pitkäaikaissäilytyksen resurssien jaosta. Ymmärrettävää on, että alussa siirrot säilytykseen vievät aikansa. Pilotoinneissa on todettu, että useimpiin aineistoihin liittyy ainakin pieniä yllätyksiä selvitettäväksi.

Joka mattotilkku hälle tarinoi

Monet muutkin olemassa olevat kansalliset palvelut tietenkin sivuavat ATT-hanketta läheisesti. Avointen tutkimusaineistojen julkaisualusta AVAA sisältää keskenään varsin erilaisia tutkimusdatan avaamisen toteutuksia. Aineistoissa on niin vesi-, lumi- ja raesadealueita koskevaa dataa kuin tietoa kirjojen levinneisyydestä Suomessa 1850-luvulle asti. Jokainen aineisto vaatii oman laisensa käyttöliittymän suunnittelu- ja toteutustyön, joten aineistoja voidaan lisätä palveluun vain harkiten. Se on kuitenkin tärkeä näyteikkuna tutkimusaineistojen maailmaan, ja aineistoja onkin käytetty esim. kouluopetuksen tukena.

Datanhallintasuunnitelmille on Helsingin yliopistossa kehitetty DMPTuuli-työkalu, jonka jatkonäkymiä selvitellään parhaillaan. DMPTuuli on ollut tutkijoille suureksi hyödyksi mm. Suomen Akatemian hakujen yhteydessä. Pitkällä aikavälillä on toiveissa, että datanhallintasuunnitelmien tuottaminen muodostuu alkupisteeksijatkumossa, jossa siirrytään joustavasti datan hallinnan ja kuvailun eri vaiheisiin.

Julkaisuarkistojen verkosto on oleellinen osa tieteen avoimuutta. Myös Kansalliskirjaston Tieteen avoin julkaiseminen -projekti (Tajua) on ollut osa ATT-hanketta. Muiden tavoitteiden ohella projektissa etsitään toimintatapoja, joilla kotimaisten tiedejulkaisujen pitkäaikainen saatavuus voidaan varmistaa mahdollisimman aukottomasti.

Tärkeiden toimijoiden listaa voisi jatkaa: CSC:n tutkijoille tarjoamat laskentapalvelut ovat paljon käytettyjä, ja Tampereen yliopiston yhteiskuntatieteellinen tietoarkisto sekä Kielipankki aloillaan merkittäviä palveluntuottajia.

Monta kysymystä tehtiin kutojalle

Avoin tiede ja tutkimus -hankkeen laajasti näkynyt ja konkreettinen osa on ollut koulutus, jota Kansalliskirjasto on koordinoinut ja jonka tuottamiseen on osallistunut suuri joukko eri alojen asiantuntijoita. Koulutuksen sivuilla on saatavissa runsaasti aineistoa ja mm. linkki avoimen tieteen verkkokurssiin.

Monta pientä jalkaa sillä piipertää

ATT-hankkeessa tuotettavien palveluiden tarkoituksena on muodostaa hyvin yhteen toimiva kokonaisuus. Yksi tärkeä osa-alue on käyttäjänhallinnan järjestäminen niin, että sekä data että sen hallinnoijat voivat liikkua komponenttien välillä saumattomasti. Toisaalta päämääränä on, että tutkimusorganisaatiot tuottavat tutkijoilleen tarvittavia palveluita. Toisin sanoen halutaan pitää huolta siitä, että yhteiset palvelut voidaan integroida osaksi paikallisesti toteutettavaa toimintaympäristöä, joka on jokaisessa organisaatiossa oman näköisensä. Niinpä esim. tallennuspalveluita voi olla IDAn rinnalla käytössä muitakin, ja niiden käytön pitäisi olla tutkijalle yhtä lailla helppoa ja mielellään yhdenmukaista.

Molemmat ovat haastavia päämääriä eivätkä kaikilta osin helposti yhteen sovitettavissa. Lisänsä palapeliin tuovat erilaiset eri tieteenalojen omat ratkaisut ja suuret kansainväliset toimijat kuten Figshare, Zenodo ja Eudat, jota suomalaisetkin ovat mukana rakentamassa. Tässä vaiheessa voi vain todeta, että maailmaa ei ole vielä saatu valmiiksi.

Kuinka riepumatto muuta olla vois?

ATT-hanke ja KDK-hanke päättyvät tämän vuoden lopussa. Hankkeiden tulosten ylläpitämiseksi ja edelleen kehittämiseksi on laadittavana toimintapolitiikka. Sen perimmäisenä päämääränä on mahdollistaa demokraattinen, monimuotoinen ja menestyvä yhteiskunta, jossa tieteellinen ja kulttuurinen vuorovaikutus ja osallistuminen kuuluvat kaikille. Päämäärä edellyttää sitä, että tieteen ja kulttuurin toimintatavat tukevat avoimuutta ja vuorovaikutusta – erityisesti digitaalisissa palveluissa.

Vaikka konkreettisia ratkaisuja ensi vuodelle vielä odotellaan, voi sanoa, että KDK- ja ATT-hankkeiden päämäärät nivoutuvat toisiinsa niin, että hankkeiden perillisten läheisempi yhteiselo ei vaikuta suinkaan keinotekoiselta. Esimerkiksi Kansalliskirjaston olisi hyvin vaikea valita puoltaan, jos vaihtoehdot olisivat ”kulttuuri” ja ”tiede ja tutkimus”.

Artikkelin otsikoinnissa on lainattu Helena Eevan sanoitusta lauluun Riepumatto.

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, kehittämispäällikkö
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4) 00014 HELSINGIN YLIOPISTO
sähköposti: esa-pekka.keskitalo [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.