Tutkimuksen tietoaineistot – pöytälaatikosta menestystarinaksi

Esa-Pekka Keskitalo
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe201312137637

 

Tuotamme yhä enemmän dataa tutkimuksessa, hallinnossa ja oikeastaan kaikilla elämän aloilla. Meidän on mahdollista kohtuullisin kustannuksin myös tallentaa yhä enemmän tietoa sekä analysoida sitä monipuolisemmin ja nopeammin.

Hätkähdyttäviä esimerkkejä datan määrästä on helppo keksiä luonnontieteistä. Geenitutkimuksen, lääketieteen samoin kuin kemian ja fysiikan eri alojen tutkimuksen kokonaistuotoksista ei enää puhuta megatavuina, gigatavuina (1000 megatavua), teratavuina (1000 gigatavua), petatavuina (1000 teratavua) vaan eksatavuina (1000 petatavua). Eksatavua varten tarvittaisiin miljoona suurinta kaupasta saatavaa muistitikkua, tai, jos vanhoja kaivelemme, 700 miljardia lerppua. Maailman vuosittainen informaatiotuotanto lasketaan tuhansissa eksatavuissa eli tsettatavuissa.

Myös humanististen tieteiden puolelta voi mainita kunnioitettavia datakokonaisuuksia. Wired-lehti kertoi syyskuussa 2013 tutkimuksesta, jossa oli digitoitu tiedot 200 000 Old Baileyssä pidetystä oikeudenkäynnistä. Määrä ei ehkä ole luonnontieteilijälle suuri, mutta data on sitäkin hankalammin koneellisesti analysoitavaa. Asiakirjoja on kuvailtu paljon käsin, mutta sillä on tietenkin rajansa. Tutkijat ovat kuitenkin pystyneet kehittämään matemaattisen topologian menetelmiä, joilla tunnistettiin tekstistä avainsanoja, joiden avulla eri tapauksia voitiin luokitella yhteen.

Old Baileyn digitoidut arkistot ovat avoimesti käytettävissä. Niihin perustuen on syntynyt jo kymmeniä ellei satoja tutkimusjulkaisuja mitä erilaisimmista aiheista. Teknologia, joka on mahdollistanut datan määrän lisääntymisen, on myös tehnyt helpommaksi sen jakelemisen.

 

Ihanteena avoin data

Tieteellisen datan avoin saatavuus ideana seuraa ideana julkaisujen avoimen datan jalanjälkiä. Myös datan avoimuudesta on ilmeisiä hyötyjä. Hyötyä syntyy siitä, että kerran kerätystä datasta voidaan puristaa kaikki mahdollinen irti. Tarkoitus ei tietenkään ole riistää tutkijoilta mahdollisuutta hyödyntää etuoikeutetusti keräämäänsä dataa, mutta on ilmeistä, että toiset tutkijat voivat myöhemmin lähestyä dataa eri lähtökohdista ja hyödyntää sitä uusilla tavoilla. Old Baileyn aineistoista on tutkittu muun muassa juutalaisia ammattinyrkkeilijöitä, ympäristörikosoikeuden historiaa ja monia muita seikkoja laajuudessa, joka yhdeltä tutkimusryhmältä olisi jäänyt saavuttamatta, Erityisen kiinnostavaa on mahdollisuus yhdistellä eri lähteistä saatua dataa, jonka kaiken keräämiseen yhdellä tutkijalla tai suorastaan kokonaisella tieteenalalla ei ole mahdollisuuksia. – Hyötyjä voi olla myös tieteen luotettavuus, kun tutkimusten taustoja voi tarvittaessa analysoida tarkemmin. Hyötyjiin pitäisi kuulua myös itse tutkijoiden, joiden luonnollisesti pitäisi ansaita tieteellistä meriittiä myös tutkimusdatan julkaisukuntoon saattamiseen liittyvästä osaamisesta ja vaivannäöstä; tämän työn tärkeyden tunnustamisessa on kuitenkin vielä paljon tehtävää. Avoimuutta puolustavat myös julkisten varojen käyttöön liittyvät näkökohdat. Suurin osa tutkimusdatasta tuotetaan kokonaan tai ainakin osittain julkisin varoin. On perusteltua edellyttää, että julkisten investointien tulokset ovat julkisesti saatavilla.

Julkaisujen avoimen saatavuuden idea eli Open Access on jo tuttu käsite. Vaikka tieteellisiä julkaisuja on runsaasti avoimesti saatavilla, ei voi sanoa, että avoimuus olisi kaikilta osin toteutunut läheskään tyydyttävästi. Datalla ei ainakaan vielä ole tieteelliseen julkaisemiseen verrattavissa olevia markkinoita. Nähtäväksi jää, juurtuuko avoimuuden periaate tällaisessa avoimessa tilanteessa nopeammin.

Suomessa ja Euroopan unionissa viime aikoina kiinnitetty paljon huomiota myös tutkimusaineistoksi soveltuvien julkishallinnon datavarantojen avaamiseen – esimerkiksi paikkatiedot, säätiedot, yhteisöverotiedot sekä mitä erilaisimmat tilastotiedot. Kyse ei siis ole vain siitä, että dataa voi käyttää verkossa vaan siitä, että dataa myös voi saada itselleen suurissa määrissä ja että se on käytettävissä koneluettavassa muodossa. Asia on suorastaan nostettu hallitusohjelmaan. Kirjastojen pyrkimykset avoimeen dataan liittyvät tähän suuntaukseen, mutta eri syistä. mm. museoalalla dataa on päästy avaamaan ripeämmin.

 

Laboratorion sotkusta siistiksi tietoaineistoksi

Datan hallinta on muuttunut mahdollisemmaksi ja halvemmaksi, muttei lastenleikiksi eikä ilmaiseksi. Tallennusmäärien kasvu pyrkii syömään tallennustilan halpenemisen. Pelkkä halpa levytila ei myöskään ratkaise datan hallinnan ongelmia. Paljo data huonosti hallittuna on liki arvotonta. Tämä on kirjastoväelle toki tuttu dilemma julkaisujen maailmasta.

Tutkijoiden ja tutkimusryhmien toiminta tähtää ennen kaikkea tieteellisten julkaisujen tuottamiseen. Jos kysytään: ”Oletko julkaissut tämän datan?” tarkoitetaan kysyä, onko tutkimustuloksista tehty julkaisua. Tutkimuksen datan hallinta on ollut ja on yhä alisteista tälle päämäärälle. Tällöin hallinta ei suinkaan välttämättä tuota sellaisia datakokonaisuuksia, jotka olisivat käyttökelpoisia ulkopuolisille. Julkaistavaksi kelpaava datakokonaisuus – joillakin aloilla puhutaan tietotuotteista – syntyy tutkijan käsissä olevasta datasta itsestään yhtä vähän kuin kirjailijan muistiinpanot kirjoittaiksevat omin päin romaaniksi. Samoin oma sotkuinen työpöytämme saattaa olla omassa työssämme toimiva, mutta jos työtehtävät pitäisi jakaa toisen henkilön kanssa, järjestys ja sen ylläpito pitäisi miettiä kokoaan eri tavalla.

Ero pahimman ja parhaimman datanhallinnan käytäntöjen välillä on tietenkin valtava. Suuria ovat erot myös eri tieteenalojen välillä. Joitakin perusperiaatteita hyvästä datanhallinnasta voidaan yleisellä tasolla esittää.

  • Dataa ei heitetä pois, vaan se säilyy johdonmukaisina ja käyttökelpoisina kokonaisuuksina. Toisaalta dataa on myös pystyttävä karsimaan – kaiken tallentaminen alla olevat vaatimukset huomioon ottaen ei ainakaan vielä ole mahdollista.
  • Datan jalostusaste on oikein valittu. Liian raakaa raakadataa on vaikea hyödyntää.
  • Data on teknisesti sellaista, että sitä voidaan käyttää uudestaan. Tyypillinen ongelma ovat mittaustulokset, joiden tiedostoformaatti on sidottu tietyn mittalaitteen tiettyyn malliin ja vaatii erityistä ohjelmistoa.
  • Datasisältö on mielekästä. Triviaali esimerkki on, että taulukossa pitää mainita, mitä sarakkeen numeroarvot tarkoittavat, mikä on mittayksikkö jne.
  • Datan keräämiseen ja muokkaamiseen liittyvät seikat on selostettu niin, että datan uudelleenkäyttöön liittyvät ongelmat voidaan tunnistaa.
  • Datan käyttöön liittyvät, tietosuojasta tai muista syistä johtuvat rajoitukset on ilmaistu selkeästi. Jos käyttö edellyttää lupaa, on oltava selkeät ohjeet luvan hakemiseksi.
  • Data on ylipäätään kuvailtu niin, että tutkija voi ilman perusteellista kaivelua päätellä, onko aineisto hänelle käyttökelpoista.

Suomessa, Euroopassa ja maailmalla on laajoja esim. havaintodataa tuottavia tutkimusyhteisöjä, joissa suuri osa yllä maninituista vaatimuksista täytyy hyvin. Suomessa Yhteiskuntatieteellisen tietoarkiston tehtävänä on nimenomaan arkistoida ja välittää tutkimusaineistoja laadukkaalla tavalla. Monilla aloilla ja monissa tutkimuksissa tekemistä kuitenkin vielä riittää. Pitkällä aikavälillä tutkimuksen prosessien pitää muuttua niin, että avointa dataa syntyy ilman valtavia ponnistuksia. Niin kauan kuin datan avaaminen on ikään kuin jälkikäteen tapahtuvaa.

Tutkimusaineistojen koneluettavuus ja helppo käyttö yli tutkimuskulttuurien rajojen on tavoite, jonka saavuttamiseen on vielä pitkä matka. Mitä enemmän datan jatkokäytön mahdollisuus muokkaa tiedon käsittelyn tapoja koko tutkimusprosessissa.

 

Tutkimuksen tietoaineistot -hanke

Opetusministeriö perusti jo 2009 selvityshankkeen, jossa kartoitettiin mahdollisuuksia julkisin varoin tuotettujen tietovarantojen hyödyntämisen lisäämiseksi. Hanke tuotti 2010 loppuraportin Tutkimuksen tietoaineisto – olennaisen käsikirja päättäjille, jossa esitettiin joukko suosituksia jatkotoimenpiteiksi. Näitä olivat

  • kansallisen tietopolitiikan laatiminen;
  • toiminnanohjauksen parantaminen;
  • lainsäädännölliset toimenpiteet mm. tekijänoikeuslain, maksuperustelain ja tietosuojalain suhteen;
  • tutkimuksen tietoaineistojen tuottamista ja käyttöä tukevien palveluiden luominen; sekä
  • lisenssi- ja lupakäytäntöjen selkeyttäminen, meritoitumispolitiikan luominen ja muiden toimintatapojen kehittäminen.

Vuonna 2011 ilmestyi lisäksi raportti Tieto käyttöön – tiekartta tutkimuksen sähköisten tietoaineistojen hyödyntämiseksi. Tiekartta täsmensi aiemman selvityksen tavoitteita. Näiden esitöiden pohjalta perustettiin 2011 Tutkimuksen tietoaineistot -hanke eli TTA-hanke, jossa tiekarttaa ryhdyttiin toteuttamaan.

Lähde: Tieto käyttöön -raportti (2011)

Lähde: Tieto käyttöön -raportti (2011)

TTA-hanke (joka päättyy vuoden 2013 lopussa) on opetus- ja kulttuuriministeriön hanke, mutta sillä on ollut korkean tason koordinaatioryhmä, jossa eri hallinnonalat ovat olleet edustettuina. Eri ministeriöiden aloilla on tutkimustoimintaa, ja ne myös tuottavat tutkimukselle mielenkiintoisia tietoaineistoja. Tätä kokonaisuutta ei ole haluttu unohtaa, vaikka yliopistot ovatkin keskiössä tutkimusaineistoista puhuttaessa.

Hankkeen tietoinfrastruktuurityöryhmän tehtävänä oli laatia edelleen tarkempi suunnitelma siitä, mitä konkreettisia palveluita tutkimusaineistojen hyvä hallinta edellyttää. Kirjoittaja toimi ryhmän puheenjohtajana, ja sillä oli monipuolinen kokoonpano tutkijoita, arkistoihmisiä, yliopistojen tutkimus- ja IT-hallinnon asiantuntijoita sekä julkishallinnon tiedontuottajien ja tutkimuslaitosten edustajia. Työryhmän päätuotos oli TTA-kokonaisarkkitehtuuri, jossa on tarkasteltu tavoitetilan palveluita ja prosesseja.

TTA-kokonaisarkkitehtuurin palvelukartta. Lähde: TTA-kokonaisarkkitehtuuri (2013)

TTA-kokonaisarkkitehtuurin palvelukartta. Lähde: TTA-kokonaisarkkitehtuuri (2013)

Kokonaisarkkitehtuurityöryhmän lähtökohtana oli tutkijan palveleminen. Joissakin tapauksissa tutkijaa palvelevat parhaiten lähellä tuotetut, ehkä väliaikaiset ratkaisut. Ei nähty esimerkiksi tarkoituksenmukaiseksi, että sähköisiä laboratoriokirjoja lähdettäisiin toteuttamaan kansallisena toimenpiteenä. Joissakin tapauksissa tarve kansallisille palveluille taas oli ilmeinen. Ilmeisten ääripäiden väliin jää suuri joukko prosesseja ja palveluita, joissa erilaisilla ratkaisutavoilla on puolensa, joita tulee vielä punnita. Eri organisaatioissa ja eri tieteenaloilla lopputulokset voivat olla erilaisia. Erityistapaus ovat ne tieteet, joissa maailmanlaajuiset infrastruktuurit sanelevat pitkälti toimintatavat ja toimintaympäristön. Niidenkin suhteen on kuitenkin kansallinen tarve seurata tutkimustulosten syntymistä ja kotimaisten tutkimuspanostusten vaikuttavuutta.

Todella toimiva, tehokas ja laadukas tutkimusdatan hallinnan ja jakelun kokonaisuus on vielä pitkän tien päässä. Ensimmäiseksi on keskitytty varmistamaan, että dataa ylipäänsä voidaan säilyttää lisäämällä tallennuksen resursseja. Sen perustalta voidaan parantaa datan hallintaa mm. kuvailukäytäntöjen osalta. Myöhemmin varmasti huomio kiinnittyy entistä enemmän myös datan esittämistapoihin.

 

Kohti uusia kansallisia palveluita

TTA-hanke on alusta asti ollut hyvin kiinteästi sidoksissa kirjastoille jo vanhastaan tuttuun CSC:hen. Yrityshän on jo vanhastaan tarjonnut tutkijoille erilaisia tietotekniikan palveluita mm. datan prosessointiin. Varsin luonnollista siis on, että tunnistetut kansalliset palvelutarpeet ovat alkaneet siksi syntyä CSC:ssä opetusministeriön toimeksiantoina. Palveluiden kehittäminen jatkuu, vaikka TTA-hanke nyt päättyykin.

IDA-säilytyspalvelu (http://www.tdata.fi/ida). IDA on CSC:n ylläpitämä, keskitetty tallennuspaikka tutkimusdatalle. Tilaa on tällä hetkellä noin kolme petatavua, joka on tiettyjen periaatteiden mukaan jyvitetty korkeakouluille, Suomen akatemian projekteille sekä ”soveltuvin osin” tutkimuslaitoksista ynnä muualta tulevalle datalle. IDAssa on jo otettu ensi askeleita pois ”levyn reunalle tuuppaamisesta” kohti säännöllisempää tiedonhallintaa: aineistoista on luotava miniminetatietomallin mukaiset kuvailutiedot, jotka viedään myös tutkimustiedon yhteisluettelo KATAan. – Datan vieminen IDAan ei siis vielä tarkoita datan julkaisemista, ainoastaan sen säilyttämistä nähtävillä olevaan tulevaisuuteen. Julkaisemista varten on oma palvelunsa AVAA.

AVAA-jakelupalvelu (http://avaa.tdata.fi/) tarjoaa välineitä eri tieteenalojen tutkimusdatan avointa jakelua varten. Datan tarvitsijat voivat ladata dataa itselleen tai tarkastella sitä visualisointityökaluilla. Palvelu on jo käytettävissä mutta vasta pilotin betavaiheessa. Sitä tullaan lähiaikoina edelleen kehittämään aktiivisesti.

KATA-luettelo (http://kata.csc.fi/) on vastikään avattu testikäyttöön. Se on TTA-hankkeen terminologiassa metadatakatalogi – kirjastossa sitä kutsuttaisiin yhteisluetteloksi. KATA ei sisällä tutkimusaineistoja, ainoastaan niiden kuvailutietoja. Niitä haravoidaan IDAsta sekä muista datavarastoista, joita on syntynyt ja syntymässä. Haravointi tietenkin edellyttää sitä, että aineistot on kuvailtu asianmukaisesti. – KATA varmaankin aikanaan on haravoitavissa myös Finnaan.

REMS-käyttövaltuuspalvelun (http://www.tdata.fi/rems) tarkoituksena on yksinkertaistaa prosesseja tilanteissa, joissa aineiston käyttöön täytyy saada lupa. Nyt sen hankkiminen voi olla monimutkainen kysymys, ja usein on epävarmuutta siitä, kenellä on oikeus lupa antaa. REMS tunnistaa luvan hakijan, antaa tämän täyttää hakemuksen, välittää sen oikeaan paikkaan ja informoi niitä, joiden toimenpiteitä tarvitaan datan luovuttamiseksi.

TTA-PAS (http://www.tdata.fi/pas) eli tutkimusaineistojen pitkäaikaissäilytys on myös kehittelyssä. Tässä työssä voidaan pitkälti hyödyntää Kansallisen digitaalisen kirjaston pitkäaikaissäilytysratkaisua, joskin erojakin on. Tutkimusaineistojen myötä säilytykseen tulee teknisesti uudentyyppisiä aineistoja. Säilytettävien aineistojen valinta on välttämätöntä, mutta siihen ei vielä ole periaatteita – niiden luominen synnyttää epäilemättä mielenkiintoista keskustelua.

 

Tutkimusaineistojen kuvailun minimitietojen määrittely

TTA-hankkeessa toimi metatietotyöryhmä, puheenjohtajanaan Mari Kleemola Yhteiskuntatieteellisestä tietoarkistosta. Työryhmän tärkein tuotos oli TTA-minimimetatietojen määritys. Se kuvaa ehdottomasti kaikille tutkimusaineistoille välttämättömät kuvailutiedot. Erityisen haasteellisiksi saattavat osoittautua vaatimukset kuvailla aineiston tekijä tai omistaja sekä sen käyttöehdot – seikkoja, jotka eivät suinkaan aina ole itsestään selviä. (Metatietomallin esittely: http://www.tdata.fi/documents/10180/43907/Mari+Kleemolan+esitys/)

 

Miksi Kansalliskirjasto on mukana TTA-hankkeessa?

Mitä tekemistä kirjastoilla yleensä ja Kansalliskirjastolla erityisesti on tutkimuksen tietoaineistojen kanssa? Tietoaineistoilla tarkoitetaan tässä yhteydessä nimenomaan jotakin muuta kuin julkaisuja, kirjastojen perinteistä leipälajia.

Tutkimusdatan hallinta – etenkin sen paketointi jakelukelpoiseen kuntoon – seisoo tai kaatuu sen mukana, miten aineiston kuvailu on ratkaistu. Kirjastoilla, Kansalliskirjasto mukaan lukien, on aivan aidosti tästä asiasta paljon hyvää asiantuntemusta, jota ei kannata ujostella. Julkaisut ja niiden perustana oleva data joka tapauksessa tulevat yhä enemmän sulautumaan yhteen, data-asioiden osaaminen tulee välttämättömäksi myös monissa kirjastoissa. Lisäksi Kansalliskirjastolla on jo nyt palveluita, jotka hyödyttävät myös tutkimusdataa: pysyvät tunnisteet, sanastot ja ontologiat sekä auktoriteetit. Näihin toki kohdistuu myös kehitystarpeita. Kuka ottaisi ylläpitääkseen yliopistojen hallinnollisten rakenteiden ontologiaa – vastuut ja meriitit kun pitäisi pystyä osoittamaan oppiainetasolle saakka, ja pelkkä laitoksen nimi kuvailutiedoissa on hyvin nopeasti vanhenevaa tietoa nykyajan jatkuvassa organisaatiomyllerryksessä.

TTA-hankkeessa on mahdollisuuksien mukaan pyritty keräämään tietoa tutkimuksen tietoaineistojen nykykäytännöistä. Tehtävä on yllättävän vaikea. Asia ei kohdennu henkilöihin eikä organisaatioyksikköihin, vaan velloo usein hyvinkin epämääräisesti niiden välissä. Oma näkökulmansa on tutkimushallinnolla, laitoshallinnolla, tietotekniikkakeskuksilla ja kirjastoilla, itse tutkijoista ja tutkimusryhmistä puhumattakaan. Kun hankkeessa valmisteltiin raporttia tutkimusdatan hallinnan nykytilanteesta, saatettiin yliopistossa todeta, että asian kanssa työskentelevät tapasivat hankkeen tilaisuudessa toisensa ensimmäistä kertaa (http://www.tdata.fi/documents/10180/43697/Tutkimusdatan+hallinnan+tilannekartoituksen+raportti/).

Olisi hyvin toivottavaa, että myös kirjastot ottaisivat paikkansa, kun yliopistoissa lähdetään miettimään sitä, miten tutkimusaineistojen hallinnasta ja siihen liittyvistä palveluista syntyy tutkijan kannalta koherentti kokonaisuus.

 

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, tietojärjestelmäpäällikkö
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26 (Teollisuuskatu 23)
00014 Helsingin yliopisto
sähköposti: esa-pekka.keskitalo [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.