Pysyvillä tunnisteilla parempaan tutkimukseen ja tiedonhallintaan

Parland-von Essen J (2021). Pysyvillä tunnisteilla parempaan tutkimukseen ja tiedonhallintaan. Tietolinja, 2021(1). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2021061938979

Avoimen tieteen edistäminen on ollut Suomessa aktiivista ja hyvin järjestäytynyttä useiden vuosien ajan. Vuonna 2020 tuotetun Avoimen tieteen ja tutkimuksen julistuksen[1] on allekirjoittanut yli 60 organisaatiota ja sen ympärille on muodostumassa joukko linjauksia ja suosituksia, joita valmistellaan asiantuntijaryhmissä. Osana tätä työtä valmistui viime vuonna myös suositus pysyvien tunnisteiden käyttöön tutkimuksessa. Työn tarkoituksena on ollut tutkimuksen toistettavuuden parantaminen ja niin sanottujen FAIR-periaatteiden edistäminen.[2]

FAIR on lyhennys sanoista Findable, Accessible, Interoperable, Reusable

Kuva. 1. Fair-periaatteet. Wikimedia Commons / SangyaPundir, lisenssi: CC BY-SA 4.0.

FAIR-periaatteet ovat käytännössä teknisen avoimuuden määritelmä. Periaatteita noudattamalla edistetään luotettavia tutkimuskäytäntöjä. Ne edellyttävät paitsi oikeuksien hallintaa ja niistä sopimista, myös aineistojen tai vähintään metatietojen hyvää yhteentoimivuutta ja koneluettavuutta.

Datan kerääminen ja valmistelu on usein suuri osa tutkimusta, ei ainoastaan työmäärällä mitattuna vaan myös sen vaatiman asiantuntijuuden vuoksi. Tästä työstä voi saada hyödyn irti vain hyvällä aineistonhallinnalla ja tunnistamalla aineistot tärkeiksi tutkimustuotoksiksi. Aineiston julkaiseminen voi itsessään olla tutkijaa meritoivaa.  Kun sähköisiin aineistoihin voi viitata luotettavalla tavalla ja lähdeaineistoihin pääsee käsiksi, sekä työn tehnyt tutkija että hänen työnsä ja osaamisensa saa näkyvyyttä. Myös tutkimuksen todennettavuus ja toistettavuus paranee. Aineistojen piilottelu omalla koneella jakamatta niitä muille ei ole enää tätä päivää, eikä hyvän tieteellisen käytännön mukaista. Tästä kärsii pitemmän päälle sekä tiede että tutkija itse. Tutkimusdatan hallinta vaatii asiantuntemusta, johon tutkimusorganisaatioissa on nykyään jo onneksi saatavilla tukea.

Luotettava viittaaminen sähköisiin lähteisiin vaatii huolellisuutta, sekä itse viitteen luomisessa että sen toimivuuden varmistamisessa pitemmällä aikavälillä. Viitattujen tietojen sisällön muuttuminen huomaamatta tai niihin johtavien linkkien rikkoutuminen on valitettavasti edelleen arkipäivää myös tieteellisessä julkaisemisessa.[3] Koko järjestelmän luotettavuus vaatii myös itse datan kuvailemista ja huolellista säilyttämistä. Tämä edellyttää pitkäjänteisyyttä ja palveluita, joiden tueksi tarvitaan pysyviä rakenteita ja vakaata rahoitusta.

Suositus pysyvien tunnisteiden käytöstä tutkimusaineistoille

  1. Tunnisteiden käyttö ja hallinta on dokumentoitua ja tukee tutkijayhteisön tarpeita.
  2. Kaikilla tutkimusaineistoilla, jotka avataan tai joiden kuvailutiedot julkaistaan tutkimustuloksen julkaisemisen yhteydessä, on ainutkertainen, pysyvä tunniste, mieluiten DOI tai URN.
  3. Pysyvät tunnisteet ohjaavat riittävään kuvailutietoon.
  4. Jos aineisto ei ole enää saatavilla, pysyvä tunniste ohjaa edelleen sen kuvailutietoihin muistosivulla.
  5. Yhdellä aineistolla voi olla useita eri järjestelmien tunnisteita.
  6. Relaatioiden kuvaamiseen käytetään DataCiten relaatiotyyppejä.
  7. Tunnisteissa käytetään semanttista merkitystä harkiten, esimerkiksi objektin identifioivia pysyviä elementtejä voi käyttää.
  8. Tunnisteilla on määritelty rakenne.
  9. Ihmisille tarkoitetut tunnisteet ovat käyttäjäystävällisiä.
  10. Turhien pysyvien tunnisteiden luomista vältetään.

Avoimen tieteen koordinaation Dataviittaus ja tunnisteet: tutkimustuotosten linkittäminen – työryhmä, 2019.

Vuonna 2019 valmistunut suositus viittaamista tukevien pysyvien tunnisteiden käyttöön tutkimusaineistoille oli suunnattu ennen kaikkea tutkimusorganisaatioille ja tutkimuksen tukipalveluiden tarjoajille.[4] Yksittäinen projekti tai tutkimusryhmä, joka ei ole luonteeltaan pysyvä, ei voi kantaa sitä vastuuta, jota pysyvien tunnisteiden ylläpito vaatii. Tunnistejärjestelmät perustuvat laajaan kansainväliseen yhteistyöhön, jonka puitteissa hallinnoidaan sekä tunnisteisiin liittyviä teknisiä vaatimusmääritelmiä että niiden käyttöä tukevia palveluita.[5] Kaiken taustalla on ymmärrys siitä, että pysyvä tunniste on lupaus, joka takaa aineiston tai vähintään sen dokumentaation löytyvyyden verkossa pitkällä aikajänteellä,  organisaatio- ja teknologiamuutoksista huolimatta. Tämä edellyttää vahvaa sitoutumista palvelun ylläpitoon ja rahoittamiseen. Vaikka kustannukset eivät välttämättä ole suuria, niitä kuitenkin on, ja ne jakautuvat pitkälle ajalle.

Tutkimusorganisaatioilla ja tutkimuksen tukipalveluilla on keskeinen rooli pysyvien tunnisteiden tarjoamisessa tutkijoille. Tutkijat tarvitsevat tunnisteita voidakseen viitata sähköisiin aineistoihin ja saadakseen myös omista tuotoksistaan meriittiä. Lisäksi vaatimukset tutkimuksen toistettavuudelle kasvavat. Tutkimuksessa käytetyn datan ja siinä käytettyjen menetelmien mahdollisimman pysyvä saatavuus on tästäkin syystä tärkeää. Myös tutkimusrahoittajat ovat yhä enemmän heräämässä siihen, että rahoittaessaan hankkeita ne samalla investoivat hankkeissa tuotettavaan dataan, jota mahdollisesti voidaan hyödyntää moneen otteeseen.  Datanhallinnan ja tunnistepalveluiden kehittämiselle on selkeät perusteet, mutta käytännössä näiden palveluiden tarjoaminen vaatii suunnittelua ja sitoutumista.

Dataviittauksiin liittyviä käytäntöjä selvittänyt asiantuntijaryhmä tuotti viime vuonna  tähän tarpeeseen toisen suosituksen, “Askelmerkkejä pysyvien tunnisteiden käyttöönottoon”[6], joka on tarkoitettu tukemaan organisaatioita tunnisteiden käyttöönottoon liittyvissä prosesseissa. Myös kansallinen Tiedejatutkimus.fi-palvelu nojaa vahvasti pysyvien tunnisteiden käyttöön suomalaista tutkimusta koskevien tietojen yhdistelyssä ja niiden laadun parantamisessa. Monipuolisella ja hallitulla pysyvien tunnisteiden käytöllä on siis monenlaisia hyötyjä, kuten raportoinnin helpottaminen sekä yhteentoimivuuden ja järjestelmien välisten linkitysten parantaminen. Huolellisesti tehty pysyvien tunnisteiden käyttöönotto tukee tiedonhallinnan suunnittelua ja datapolitiikan toteuttamista.

Pysyvä tunniste eli PID

PID-tunnisteiden ominaisuuksiin kuuluu, että niihin liittyy resolvointipalvelu, joka on sekä vakautta että tunnistettavuutta luova tekninen lisäkerros. Suomessa yleisimmät aineistojen pysyvät tunnisteet ovat DOI ja URN.  Näiden järjestelmien vaihtoehto on n.s. Cool URI eli jo alun perin muuttumattomaksi suunniteltu verkko-osoite. Käytännössä Cool URI -ratkaisuissa ennemmin tai myöhemmin tarvittavien uudelleenohjausten toteutus ja ylläpito on osoittautunut hankalaksi ja epäluotettavaksi.

Toinen pysyvien tunnisteiden tärkeä ominaisuus on, että sekä kone että ihminen pystyy tunnistamaan, että kyseessä on nimenomaan pysyvä tunniste. Aineistoille annettavien tunnisteiden lisäksi on olemassa muitakin standardoituja ja hyvin hallinnoituja tunnuksia, joita voi käyttää myös URI-muodossa, kuten toimijatunnisteet ISNI ja ORCID.

DOI

DOI (Digital Object Identifier) koostuu etuliitteestä, takaliitteestä ja niitä erottavasta vinoviivasta. Etu- ja takaliitteen yhdistelmä on ainutkertainen ja pysyvä, sillä samaa etuliitettä ei koskaan anneta jollekin toiselle toimijalle, eikä toimija saa antaa samaa takaliitettä toiselle objektille.

Tunnuksen eteen lisätään DOI-resolverin proxy-osoite, https://doi.org, esim. https://doi.org/10.23978/inf.98302

Tutkimusaineistoille sopiva tunniste on DataCiten tarjoama DOI. Tutkimusartikkeleille käytetään usein CrossRefin tarjoamaa vastaavaa palvelua.

URN

URN-tunnuksessa (Uniform Resource Name) on kolme osaa:

  • merkkijono urn:
  • nimialueen tunnus, esim. NBN:
  • nimialuekohtainen tunnus

Nimialueilla (n = 50) on kullakin omat sääntönsä tunnuksen rakenteelle ja identifioitaville objekteille.  Tunnuksen eteen lisätään resolverin osoite, esim. https://urn.fi

Esim. urn:nbn:fi:fsd:T-FSD3424

Suomessa URN-tunnuksia hallinnoi Kansalliskirjasto.

Askelmerkkejä pysyvien tunnisteiden käyttöönottoon

Käytettävän tunnistejärjestelmän valinnassa täytyy ottaa huomioon monenlaisia kysymyksiä

Kuva 2. Käytettävän tunnistejärjestelmän valinnassa kannattaa ottaa huomioon monenlaisia kysymyksiä.

Dataviittaamisen käytäntöjä koskevassa suosituksessa pysyvien tunnisteiden käyttöönotto on asetettu laajempaan tutkimustiedon hallinnan kontekstiin, sillä aineistot ovat vain yksi osa sitä kokonaisuutta, josta tutkimusorganisaation on huolehdittava. Valmistelussa on syytä ottaa huomioon sekä tutkijoiden että organisaation tarpeet, olemassa olevat järjestelmät ja vaatimukset myös sidosarkkitehtuurien osalta.

Alustavat selvitykset, määrittelytyö ja kustannusten arviointi on syytä tehdä mahdollisimman laajasti, ottaen huomioon esimerkiksi organisaation tietoarkkitehtuurin nyky- ja tavoitetilat. Siksi kyseiseen suositukseen onkin kirjattu muistilistan tapaan runsaasti tähän työhön liittyviä asioita, joita on syytä huomioida. On tärkeää muistaa, että tutkimusaineistojen säilyttäminen ja pysyvien tunnisteiden ylläpito vaativat organisaatioilta merkittävää sitoutumista, sillä julkaiseminen ja säilyttäminen ovat asioita, joihin liittyy aina kustannuksia.

Suomen DataCite-konsortioon liittyminen ei edes ole mahdollista, ellei organisaatio pysty takaamaan metatietojen laatua ja aineistojen eheyttä. Taustalla on pysyviin tunnisteisiin liittyvän luottamuksen ja uskottavuuden varjelu: ellei DOI-tunniste toimi kuten odotetaan vaan rikkoutuu, se vahingoittaa koko järjestelmää ja luotettavan tieteellisen viittaamisen ideaa. Siksi on hyvin tärkeää erottaa toissijainen, kopioitu tai raportoitu metatieto tutkimusaineiston alkuperäisestä master-metatiedosta ja kuvailusivusta. Vain jälkimmäiselle voi antaa pysyvän tunnisteen, jota voi luotettavasti käyttää tieteellisessä viittaamisessa.

Tunnisteiden toimintaperiaatteiden hahmottaminen voi olla tutkijoille vaikeaa. Koska tutkijoiden pitää pystyä keskittymään omaan ydintyöhönsä eikä eri tunnistejärjestelmien ominaisuuksiin, organisaatioiden ja palveluntarjoajien vastuu on tässä hyvin suuri. Uusia pysyviä tunnisteita tulee ottaa käyttöön valikoiden ja niiden hallinnoinnista täytyy myös pitää huolta. Oikein käytettyinä tunnisteet tuovat suurta lisäarvoa kaikille osapuolille.  Ne ovat tutkijan kannalta välttämättömiä, jotta hän voisi tuottaa aineistonsa rahoittajien ja tiedeyhteisön edellyttämällä tavalla. Vastuullisesti toimivan tutkimusorganisaation on siis tavalla tai toisella varmistettava, että tutkijat saavat aineistoilleen niiden tarvitsemat pysyvät tunnisteet.

Askelmerkkejä pysyvien tunnisteiden käyttöönottoon -suosituksessa ohjataan organisaatioita kirjaamaan tunnisteiden käyttöperiaatteet, sekä ylätasolla PID-politiikan muodossa että tarkemmin jokaisen tunnistetyypin käyttöön ja omistajuuteen liittyvien prosessien osalta. Vastuista tulee sopia läpinäkyvästi, minkä lisäksi organisaatioiden pitää huolehtia myös riittävästä dokumentaatiosta ja koulutuksesta.

Lopuksi

Käytännössä sekä pysyvistä tunnisteista sopiminen palveluntarjoajan kanssa että niiden tekninen käyttöönotto ovat suhteellisen yksinkertaisia ja suoraviivaisia asioita, kunhan organisaatio on suunnitellut asian omalta osaltaan huolellisesti. Tunnisteiden tuottamat hyödyt voivat näkyä hyvinkin nopeasti tutkimusaineistojen ja niiden metatietojen elinkaaren hallinnan parantumisena ja jakelun tehostumisena. Organisaatiossa tuotettu tieto tulee jäljitettäväksi ja alkuperä näkyväksi. Näin myös tutkimustoiminnan vaikuttavuus lisääntyy ja aineistojen parantunut näkyvyys luo monipuolisempia edellytyksiä tiedon käytölle tieteenalarajojen yli, yhteistyön rakentamiselle ja laajemminkin paremmalle yhteentoimivuudelle. Myös tutkijoiden työ helpottuu, kun raportointi ja viittaaminen on vaivatonta, luotettavaa ja tarkkaa.

Kirjoittaja

Jessica Parland-von Essen
Kehityspäällikkö
CSC – Tieteen tietotekniikan keskus
jessica.parland-vonessen [at] csc.fi

Viitteet

[1] Avoimen tieteen koordinaatio, Tieteellisten seurain valtuuskunta: Avoimen tieteen ja tutkimuksen julistus 2020–2025. Vastuullisen tieteen julkaisusarja 1:2020, Tiedonjulkistamisen neuvottelukunta ja Tieteellisten seurain valtuuskunta. https://doi.org/10.23847/isbn.9789525995237

[2]FAIR-periaatteet. Fairdata.fi.  https://www.fairdata.fi/tietoa-fairdatasta/fair-periaatteet/

[3]  Klein M, Van de Sompel H, Sanderson R, Shankar H, Balakireva L, Zhou K, et al. (2014). Scholarly Context Not Found: One in Five Articles Suffers from Reference Rot. PLoS ONE 9(12): e115253. https://doi.org/10.1371/journal.pone.0115253 ja Jones SM, Van de Sompel H, Shankar H, Klein M, Tobin R, Grover C (2016). Scholarly Context Adrift: Three out of Four URI References Lead to Changed Content. PLoS ONE 11(12): e0167475. https://doi.org/10.1371/journal.pone.0167475.

[4] The use of Persistent Identifiers for Research Datasets. Recommendation by the Finnish Scientific Community for Open Research.  https://doi.org/10.5281/zenodo.3560738

[5] EOSC Executive Board (ed.). A Persistent Identifier (PID) policy for the European Open Science Cloud (EOSC).  Report from the European Open Science Cloud FAIR and Architecture Working Groups. European Commission, October 2020. https://doi.org/doi:10.2777/926037

[6] Choosing and implementing persistent identifiers. Guide for research organisations. https://doi.org/10.5281/zenodo.4395767

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.