Nimitietopalvelu edistyy: suunnitelmasta pilottitoteutukseen

Saarikko J, Sornova K, Vainonen O (2020). Nimitietopalvelu edistyy: suunnitelmasta pilottitoteutukseen. Tietolinja, 2020(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe20201217101279

Kulttuuriperintöorganisaatioiden yhteinen nimitietopalvelu on kuluneen vuoden 2020 aikana muuttunut tavoitteesta toiminnaksi. Kerromme tässä tarkemmin Nimitietopalvelu-projektin vaiheista: miten Kansallinen digitaalinen kirjasto –hankkeessa (KDK) ja sittemmin Digime – Digitaalinen kulttuuriperintömme -kokonaisuuden piirissä tehtyä tietomallia on kehitetty, millainen tuotantoympäristö nimitietopalveluun on valittu ja miten mappaustyöt ovat sujuneet. Lopuksi hahmottelemme myös tulevaisuuden näkymiä.

Kulttuuriperintöorganisaatioita ovat kirjastot, arkistot ja museot, ja niistä käytetään tavallisesti nimeä KAM-sektori tai KAM-organisaatiot. Nimitietopalvelulla puolestaan tarkoitetaan kulttuuriperintöorganisaatioiden yhteistä tietovarantoa toimijoista: henkilöistä, yhteisöistä ja suvuista.

Nimitietopalvelulla on kolme keskeistä tavoitetta. Ensiksi tarkoituksena on koota yhteen KAM-organisaatioiden keräämät tiedot toimijoista. Toiseksi halutaan mahdollistaa toimijatietojen käyttö kaikilla sektoreilla. Kolmanneksi tavoitellaan sitä, että tiedot toimijoista ja niihin liittyvistä aineistoista olisivat paremmin löydettävissä. Yhteisten kuvailusääntöjen ja käytäntöjen soveltamisen myötä toimijatietojen yhteentoimivuus paranee, kuvailutyö tehostuu ja tiedon laatu paranee. Samalla mahdollistetaan myös KAM-sektorin toimijatietojen linkitys sektorin ulkopuolisiin resursseihin ja avataan uusia yhteistyömahdollisuuksia esimerkiksi tutkimus- tai tekijänoikeustiedon tuottajien suuntaan.

Kulttuuriperintöorganisaatioiden yhteisestä nimitietovarannosta on puhuttu pitkään, ja aiheeseen liittyviä selvityksiä on tehty muutama. Vuoden 2020 aikana pääsimme vihdoin ottamaan ensimmäisiä konkreettisia askeleita kohti yhteisen palvelun toteutusta.

Nimitietopalveluprojekti 2020

Tämä projekti nojaa voimakkaasti KDK:n ja sittemmin Digimen piirissä tehtyyn KAM-sektorin yhteistyöhön ja pitkäaikaisiin tavoitteisiin. Vuoden 2020 projektin keskeisimpänä tavoitteena on ollut aiempien suunnitelmien konkretisoiminen käytännössä.

Projektin keskeisimmät tavoitteet ovat 1) nimitietopalvelun tietomallin kehittäminen, 2) eri sektoreilla käytettyjen kuvailuelementtien sovittaminen tietomalliin (eli mappaustyö) ja 3) Wikibasen testaaminen mahdollisena tuotantoympäristönä.

Tietomallin kehittäminen

Nimitietopalvelun tietomalli on luotu osana kirjastojen, arkistojen ja museoiden kuvailun yhteentoimivuuden määrittelyä. Tietomalli muodostuu kaikille sektoreille yhteisestä ytimestä, joka perustuu RDA-kuvailustandardiin ja jota on täydennetty sektorikohtaisilla tiedoilla. Tietomallin ensimmäinen versio julkaistiin Nimitietopalveluselvityksen liitteenä vuonna 2017 (ks. Nimitietopalveluselvitys). Tällä hetkellä tietomallia ylläpidetään Digi- ja väestötietoviraston yhteentoimivuusalustan tietomallityökalulla (ks. KAM nimitietopalvelun tietomalli).

Tietomalli on kokenut vuoden 2020 aikana suuren muodonmuutoksen: Word-tiedostoon tallennetusta taulukosta on tullut RDF-muotoinen tietomalli (RDF=Resource Description Framework), jossa tieto on mallinnettu sopivaksi eri tietojärjestelmien integrointia varten. Yhteentoimivuuden parantamiseksi tietomallin ominaisuudet on linkitetty yleisiin kansainvälisiin standardeihin (RDA, ISNI, EU Core) ja mapattu sektorinkohtaisiin metadataformaatteihin. Näitä ovat kirjastojen MARC 21, arkistojen ISAAR CPF ja EAC-CPF ja museoiden SPECTRUM. Kuvailussa käytettyjen elementtien mappaus muihin tietomalleihin helpottaa sekä tiedon tuontia että poimintaa erilaisten tietojärjestelmien käyttämiin formaatteihin.

Tietomallin soveltaminen käytännössä

Eri formaateissa käytettyjä elementtejä mapattiin nimitietopalvelun yhteisen tietomallin ominaisuuksiin yhteistyössä museoiden ja arkistojen asiantuntijoiden kanssa. Kun tietomallin ominaisuudet viettiin testiympäristöön, testattavaksi kerättiin toimijatietoja kaikilta sektoreilta. Testiaineisto koottiin satunnaisesti valittujen yhteisöjen ja ennen 1900-lukua syntyneiden henkilöiden kuvailutiedoista. Tämän jälkeen laadittiin tiedontuontiprosessi ja testattiin aineiston latausta testiympäristössä. Tällä hetkellä eli marraskuussa 2020 testataan kirjastojen MARC 21 -formaatissa olevan datan vientiä.

Haasteellisiksi osoittautuivat odotetusti nimien erilaiset merkitsemistavat ja identiteettien hallinta. Eri formaateissa nimet merkitään eri tavalla: kun yhdessä formaatissa etu- ja sukunimet tallennetaan erillisiin kenttiin, toisessa ne merkitään samaan kenttään välimerkeillä erottaen. Esimerkiksi yksiosaisten nimien kuvailutietoja pitää ensin analysoida, jotta voidaan määritellä, onko kyseessä etunimi vai pelkkä sukunimi.

Vastaava ongelma on myös niin kutsuttujen julkisten identiteettien hallinnassa. Arkistoissa ja museoissa kaikki samaan henkilöön liittyvät nimet ja nimenmuodot on koottu yhteen kuvailuun, mutta kirjastoissa on tapana erottaa todelliset ja toiset identiteetit (esimerkiksi pseudonyymit) omiksi kuvailuikseen. Yhteisen tuotantoalustan on hallittava nämä erilaisuudet ja pystyttävä kokoamaan ja palauttamaan tietoja takaisin sektorien omiin järjestelmiin luotettavasti kunkin sektorin vakiintuneiden käytäntöjen mukaisesti.

Myös eri sektoreilla vaihtelevat merkintätavat ajan ja ajanjaksojen kuvailussa aiheuttivat pientä päänvaivaa tietojen mappauksessa. Eroja löytyy erityisesti epämääräisten ja epätarkkojen ajankohtien merkitsemisessä. Koska yhteinen toimintaympäristö edellyttää eri sektoreiden ajan merkitsemistapojen ja käytäntöjen yhdenmukaistamista, on sovittu, että ajanjaksojen merkitsemisessä käytetään ISO 8601 -standardia. Jos kuvailutiedot konvertoidaan standardoituun ajan esittämistapaan, saavutetaan nykyistä huomattavasti tehokkaampi yhteentoimivuus ajan esittämisessä ja aikaan perustuvissa hauissa.

Wikibase tuotantoympäristönä

Yhteistä tietovarantoa rakennettaessa on otettu huomioon myös muualla maailmalla kehitteellä olevat ja päättyneet projektit, joissa on testattu toimijoiden kuvailuja sisältävän Wikidatan ja Wikibase-ohjelmiston soveltuvuutta kirjastoissa tuotettujen kuvailutietojen esittämiseen ja jakamiseen. Wikibase on Saksan Wikimedian kehittämä avoimen lähdekoodin ohjelmisto, joka on vapaasti käytettävissä ja asennettavissa. Wikibase on Wikimedia-sovelluksen laajennus, jolla Wikidata on toteutettu.

Ranskan kansalliskirjaston projekti French national entities file ja Saksan kansalliskirjaston projekti GND meets Wikibase ovat toimijakuvailun näkökulmasta keskeisimmät. Molemmissa projekteissa päädyttiin samaan lopputulokseen: Wikibase-alusta on kehittämiskelpoinen ratkaisu kirjastojen tarpeisiin, pelkkä Wikidata ei riitä.

Tältä pohjalta myös Suomessa päätettiin testata nimitietopalvelun KAM-sektorin kehittämän tietomallin toimivuutta ja toimijakuvailujen hallintaa Wikibase-alustalla. Tietomallin ominaisuudet viettiin tuotantoympäristöön, ja niitä täydennettiin muutamalla tuotantoympäristötyökalun laadunvalvontaan liittyvillä ominaisuuksilla. Wikibasen valinta sopii myös Kansalliskirjaston strategiaan, jonka mukaan digitaaliset palveluratkaisut toteutetaan pääosin avoimeen lähdekoodiin, avoimiin rajapintoihin sekä laajaan kansalliseen ja kansainväliseen yhteistyöhön pohjautuen.

Avoin lähdekoodi on vain yksi Wikibasen hyvistä puolista. Muita ovat esimerkiksi nopeasti ja helposti omaksuttava käyttöliittymä ja joustavuus tietomallin suhteen. Tietoja voi tallentaa sekä koneellisesti että käsin, tiedot tallennetaan lähtökohtaisesti monikielisenä ja merkistö on UTF-8 standardin mukaista. Lisäksi Wikibasessa on valmiina erittäin hyödyllinen valmis ohjelmointirajapinta, jonka avulla dataa voidaan vaihtaa eri sovellusten kesken. Monimutkaisten kyselyjen tekemiseen tarkoitettu SPARQL-hakuliittymä palvelee sekin yhteisen tietovarannon toimivuutta. Järjestelmässä on myös valmiina tuplatietueiden yhdistämistoiminto, jolla voidaan helposti yhdistää kaksi päällekkäistä kohdetta ja niiden ominaisuudet. Wikibasessa kaikilla luoduilla kohteilla ja ominaisuuksilla on omat tunnisteensa samalla tavalla kuin Wikidatassa. Tunnisteiden avulla kohteet voidaan linkittää keskenään ja linkittäminen ulkoisiin tietomalleihin ja palveluihin onnistuu kohtuullisen vaivattomasti.

Tämän kirjoittamisen hetkellä Saksan Wikimedia (Wikimedia Deutschland) hakee yhteistyökumppaneita. Tarkoituksena on kehittää Wikibase-alustaa myös kirjastojen tarpeisiin esimerkiksi kehittämällä kuvailutyötä tukevia tallennuslomakkeita. Lisäksi etsitään ratkaisuja tiedon siirrettävyyteen liittyviin pulmiin.

Eteenpäin kohti yhteistä nimitietopalvelua

Nimitietopalvelun kehitystyö on jo tuottanut hyvää tulosta, mutta työtä riittää myös tulevaisuudessa ja jatkolle on haettu rahoitusta. Kehitystyön tukena KAM-sektorilla on yhteinen näkemys tulevasta:

Vuonna 2024 kirjastojen, arkistojen ja museoiden kuvailu toimijoista tuotetaan yhdessä. Yhteisesti tuotettu kuvailu on laadukasta ja yhteentoimivaa. Data on koneluettavassa muodossa ja linkitetty ulkopuolisiin tietovarantoihin kotimaassa ja kansainvälisesti. Toimijatietoja hyödynnetään laajasti ja monipuolisesti paitsi kulttuuriperintö-organisaatioiden tietojärjestelmissä myös niiden ulkopuolella.

KAM-sektorin organisaatiot rakentavat yhteiskäyttöistä palvelua läheisessä yhteistyössä. Muuten ei voisi ollakaan. Organisaatioiden järjestelmien integrointiin etsitään ratkaisuja, toimintaympäristöjä kehitetään ja toimijakuvailun periaatteista ja käytännöistä päätetään – yhdessä. Edessä on vielä teknisiä haasteita (mm. samaan henkilöön liittyvien tietojen yhdistelyssä), mutta jokainen askel eteenpäin edistää yhteisen nimitietopalvelun käyttöönottamista.

Lisätietoja

Kirjoittajat:

Jarmo Saarikko, tietoasiantuntija
https://orcid.org/0000-0002-6801-6151

Katerina Sornova, tietoasiantuntija
https://orcid.org/0000-0002-4589-0751

Okko Vainonen, tietojärjestelmäasiantuntija
https://orcid.org/0000-0002-2662-7333

Kansalliskirjasto, Kirjastoverkkopalvelut
PL 15 (Unioninkatu 36), 00014 Helsingin yliopisto
Kirjoittajien sähköposti on muodossa etunimi.sukunimi[at]helsinki.fi.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.