PIDapalooza 2018: pysyvien tunnisteiden festivaali

Keskitalo E-P (2018). PIDapalooza 2018: pysyvien tunnisteiden festivaali Tietolinja, 2018(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201802133370

Pysyvät tunnisteet

PIDapalooza on pysyvien tunnisteiden kevytmielinen konferenssi, jossa juhlallinen avaaminen ja päättäminen ja muu konferenssimuodollisuus on riisuttu vähimpään mahdolliseen. Alussa sytytettiin pysyvien tunnisteiden ikuinen tuli. Siitä ei ikävä kyllä ole kuvaa, koskapa tuo juhlallinen soihtu – valaistu ja tuulettimen heiluttama kankaanpala – sammahti käryten heti kohta sytyttyään. Onneksi tapaus ei muodostunut enteeksi, vaan tarjolla oli mielenkiintoisia esityksiä. Tällä kertaa konferenssin isäntä oli Barcelonan yliopisto mutta paikkana Gironan kaupunki lähellä Barcelonaa. Lukuisia kiinnostavia esityksiä on verkossa saatavana.

Pysyvät tunnisteet eivät ole tekninen ongelma. Tekniikka on loppujen lopuksi melko suoraviivaista. Haasteet ovat pikemminkin sosiaalisia ja psykologisia. Kun tunnisteiden tarve syntyy – ajatellaan vaikka tieteellisten artikkelien tunnuksia, jotka ovat nopeasti muodostuneet tavanomaisiksi – niitä kyllä käytetään. Yksi ongelma on se, että esimerkiksi tieteen eri toimijoiden tarpeet ovat erilaisia. Tutkijoita on vaikea paimentaa tunnusjärjestelmien pariin, jos niiden käytöstä ei ole näkyvää hyötyä. Mutta mitä enemmän myös tutkimusaineistot muuttuvat julkaisunomaisiksi ja mitä enemmän data muuttuu linkitettäväksi, sitä ilmeisemmiksi tunnisteiden edut käyvät. Pysyvät tunnisteet mainitaan FAIR-periaatteissakin useamman kerran.

Kuva: Girona sijaitsee neljän joen yhtymäkohdassa; Ter-joki virtaa konferenssikeskuksen ohi.

Organisaatioiden tunnukset – ihan kohta?

Organisaatioiden luotettava tunnistaminen on tärkeää ja vaikeaa. Oikeushenkilötasolla on erilaisia kansallisia, varsin luotettavia järjestelmiä, mutta tieteelliseen viestintään ja tutkimushallintoon ne eivät varsinaisesti sovellu. Yksi hankaluus on se, että usein olisi oleellista tunnistaa pikemminkin vaikkapa osastoja kuin kokonaisia yliopistoja. Organisaatioiden tunnistaminen sulautuu sitten ilman selkeää rajaa esim. konsortioiden, projektien, tutkimusryhmien ja esim. fyysisten paikkojen kuten laboratorioiden ja mittausasemien yksilöintiin.

Ainakin neljässä esityksessä kosketeltiin kansallisia tutkimushallinnon palveluita ja ratkaisuja sekä niiden tarvetta organisaatiotunnuksille. Portugalin PTCRIS on ”palveluiden ekosysteemi”, jonka tehtävänä on luoda kansallisia tutkimushallinnon infrastruktuureja.

Organisaatioiden jäännöksetön tunnistaminen ja yksilöinti on sellaisessa ekosysteemissä tietenkin äärimmäisen tärkeää. PTCRIS on lähestynyt asiaa seuraavin askelin:

  • Määritellään organisaatioiden tunnusjärjestelmä ottaen huomioon hyviksi havaitut kansalliset ja kansainväliset käytännöt; ja sovitaan tunnusten antamiseen ja käyttöön liittyvistä periaatteista, säännöistä ja prosesseista.
  • Rakennetaan ensimmäinen iteraatio kansallisesta organisaatiorekisteristä käyttäen hyväksi eri lähteistä saatavaa dataa. Eri tietolähteitä on yhdistetty käyttäen hyväksi OpenRefinea (ent. Google Refine).
  • Kiinnitetään huomiota organisaatioiden tiedoissa esiintyviin virheisiin ja puutteisiin ja estetään sellaisten syntyminen jatkossa.
  • Kehitetään organisaatioiden rekisteröimisen ja tietojen ylläpidon prosesseja

Tarkoituksena on, että kukin organisaatio voi itse hallita tietojaan ja että tiedot julkaistaan avoimen rajapinnan kautta. Tiedot synkronoidaan ISNI- ja Ringgold-tietokantojen kanssa. (Ringgold tarjoaa kaupallisia organisaatioiden yksilöinnin palveluita julkaisualalla.)

Portugalin ratkaisu perustuu ennen kaikkea ISNI-tunnuksiin – ja samaan on päädytty Isossa-Britanniassa. Research Councils UK on joutunut painiskelemaan useiden, kauan pystyssä olleiden ja paljon päällekkäisyyksiä ja ristiriitaisuuksia keränneiden tietojärjestelmien kanssa. The British Library otti tarkistaakseen kaikkien tutkimushallinnon tiedoissa ilmenevien organisaatioiden ISNI-tunnukset lisäten puuttuvat ja tarkistaen olemassa olevien tietojen paikkansapitävyyden. Kaikki organisaatioiden tiedot on lisäksi yhdistetty Companies Housen eli sikäläisen yhtiörekisterin tietoihin. Gateway to Research -portaalin tietojenkäsittelyä on pyritty parantamaan niin, että eri lähteiden data yhdistyisi paremmin; täysin ei tuplista ja muista sellaisista ongelmista kuitenkaan ole voitu päästä eroon.

Toinen brittiläinen organisaatio, Jisc, on myös tarttunut organisaatiotunnisteiden haasteeseen. Heidän tarkastelussaan oli neljä mahdollista tunnuskandidaattia, tämänkin vertailun voitti ISNI. Jisc suosittelee ratkaisua, jossa ISNI muodostaa selkärangan. Ringgoldin ansiot palveluntarjoajana tunnustetaan, mutta samalla sen rinnalle kaavaillaan muita rekisteröijätahoja.

Kuva: Näilläkään lounassalaattipurkeilla ei ole vielä pysyviä tunnuksia.

Uhkaako uusi organisaatiotunnus?

Meneillään on jo jonkin aikaa ollut tutkimusorganisaatioiden tunnistejärjestelmän ryhdistäminen. Laaja työryhmä https://orcid.org/content/organization-identifier-working-group”>on työskennellyt jo pitkään. Työ on tähän asti ollut pohjatyötä, jossa on valmisteltu hallintamallia ja yleisiä periaatteita. Nyt työ on edennyt siihen, että isäntäorganisaatiota ollaan valitsemassa. Tarjolla ovat The British Library, California Digital Library, Crossref, OCLC, Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen sekä PSI.

Onko siis tulossa uusi organisaatiotunnus? Uusi tapa käyttää ja jaella jotakin olemassa olevista tunnuksista? Nämä yksityiskohdat ovat vielä utuisia. Näyttäisi, että tyytymättömyys nykytilaa kohtaan johtuu ennen kaikkea siitä, että organisaatiot eivät voi itse hallita omaa identiteettiään tunnusjärjestelmissä. Ja näin ollen tekeillä todellakin olisi uusi järjestelmä: organisaatiot voisivat itse ylläpitää tietojaan uudessa järjestelmässä, mutta tarpeen tullen myös järjestelmän ylläpitäjä voisi tehdä päivityksiä. – Periaatedokumenteissa kylläkin todetaan, että uuden järjestelmän tulisi olla ”avoin, luotettu, täydentävä, yhteistoiminnallinen eikä tarkoituksellisesti kilpaileva”. Mikä on tarkoituksellisen ja tahattoman kilpailun ero, jää nähtäväksi.

Viittaukset – itsenäisiä olioita, joilla pysyvät tunnukset?

(Tämä kappale perustuu Oxford e-Research Centren David Shottonin esitykseen.)

Viittaustieto on muuttunut avoimeksi hyvin nopeassa tahdissa. Vielä pari vuotta sitten viittaustiedoista ehkä vain prosentti oli saatavissa avoimien rajapintojen kautta. Tilannetta on parantanut etenkin Initiative for Open Citations -aloite. Siinä on avattu Crossrefin huostassa olevaa viittausdataa. Se tietenkin edellyttää tiedontuottajien suostumusta. Tällä hetkellä noin puolesta Crossrefin tuntemista artikkeleista on viitetiedot avattu. Artikkeleita on yhteensä noin 38 miljoonaa; avattuja on siis noin 19 miljoonaa; ja niissä viittauksia lähes 500 miljoonaa kappaletta. – Esimerkiksi tammikuussa 2018 Oxford University Press avasi omat viittauksensa.

Yleensä lähdeviittaukset on käsitetty pelkästään suhteeksi kahden olion, viittaavan ja viitatun välillä. Viittauksia voi ja kannattaakin tarkastella myös itsenäisinä olioina. Tällä oliolla on muun muassa ne ominaisuudet, että se viittaa johonkin ja viittaa jostakin. Tällöin viittausta voidaan määritellä ja kuvailla rikkaammin: sillä voi olla alkamisaika ja kenties rajattu kesto; sillä voi olla tyyppi – esimerkiksi tieto siitä, että kirjoittaja viittaa itse kirjoittamaansa artikkeliin tai populaarijulkaisuun. Luonnollisesti tällaisella viittauksella olisi myös pysyvä tunnus.

Mitä hyötyä tällaisesta tarkastelutavasta sitten on? Viittaus voi ensinnäkin olla rikkaampi, eli kaikki oleellinen tieto voidaan pitää samassa paikassa. Viittaukset on helpompi yksilöidä ja laskea. Kun tällaisia viittausolioita saadaan kootuksi yhteen, avautuu monenlaisia bibliometrisiä mahdollisuuksia. – Tältä kannalta viittaustietojen avoimuus saattaa kiinnostaa myös kotimaisia lehtiä ja niihin kirjoittavia.

Yksi avoimen viittausdatan jalostajista on OpenCitations, Bolognan yliopiston ylläpitämä viitekorpus, joka hakee dataa mm. Crossrefiltä, Europe PubMed Centralista ja Orcidista. Se muuntaa viittaukset avoimeksi linkitetyksi dataksi. Konferenssissa julkistettiin myös uusi pysyvien tunnisteiden järjestelmä: Open Citation Identifier eli OCI.

Nähtäväksi jää, tuleeko uudelle tunnisteelle laajemmin käyttöä OpenCitationsin ulkopuolella. Joka tapauksessa viittausdata, etenkin avoin viittausdata, ja siihen liittyvät ontologiset kysymykset varmasti pysyvät pinnalla lähiaikoina.

Kuva: Kävi selväksi, että Kataloniassa ollaan.

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, kehittämispäällikkö
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4) 00014 HELSINGIN YLIOPISTO
sähköposti: esa-pekka.keskitalo [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.