Asteri Lindalle : auktoriteettitietokantahankkeesta

Laila Heinemann
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe201005211889

 

Auktoriteettitietokanta kuuluu sarjaan ”ikuisuusprojekteja”, joista alamme vanhat konkarit muistelevat haaveilleensa aikojen alusta saakka.

Konkreettisen askelen asia otti ensimmäisen (?) kerran kun Liisa Sten ja Kirsti Tainio – molemmat jo eläkkeellä – laativat ehdotuksen asiasta syyskuussa 2000.

Tässä muutama yhä ajankohtainen perustelu tuosta paperista:

  • auktoriteettitietueita ylläpidettäisiin samalla ohjelmistolla kuin kirjastotietokantojakin, mikä mahdollistaa tietueiden kopioinnin tietokantojen välillä
  • YSA ja ALLÄRS ylläpidettäisiin samassa tietokannassa, mikä lyhentäisi viivettä niiden päivittymisen välillä
  • eri(kielisten) sanastojen väliset linkit voitaisiin hoitaa MARC 21:n mukaisin linkkitiedoin
  • bibliografisissa tietokannoissa indeksoinnissa hyödynnettäisi yhteisiä auktoriteettitietueita tietokantakohtaisten tarpeiden sijaan

Ehdotuspaperi vaikutti pitkään edelleen relevantilta, kunhan vain VTLSn korvasi Voyagerilla, K-miehen VESAlla ja FINMARCin MARC21-finillä. Nyt on tultu tilanteeseen, jossa vaihdamme vielä tilalle järjestelmät Aleph ja ONKI sekä puhtaan MARC 21-formaatin. Asian ydin on yhä sama, mutta tekniset edellytykset paranevat koko ajan.

Tilanne tänään

Tällä hetkellä auktoriteettitietoja ylläpidetään Voyager-järjestelmässä, jossa ei kuitenkaan ole erillistä auktoriteettimoduulia. Näin ollen ne ovat olleet tietokantakohtaisia ja niiden välittäminen muihin tietokantoihin – muista järjestelmistä puhumattakaan – on ollut enemmän tai vähemmän manuaalista puuhaa koska Voyagerin rajapinnatkaan eivät ole olleet kovin standardinmukaisia.

YSAa ja suomalaisia nimiauktoriteetteja on ylläpidetty FENNICA-tietokannassa ja niiden ruotsinkielisiä vastineita Åbo Akademin ALMAssa. Suomalaiset musiikkiauktoriteetit puolestaan ovat olleet VIOLAssa, kun taas ulkomaisia musiikkiauktoriteetteja löytyy Sibelius-Akatemian ylläpitämänä taidekorkeakoulujen ARSCAsta. Muilla kirjastoilla on ollut sekalaisesti omia auktoriteettitietueita omissa tietokannoissaan. Vaihto on tapahtunut pääasiassa eräajoina ja käyttö paljolti leikkaa/liimaa -toiminnolla.

Tekniikaltaan jo antiikkiseksi käyneen VESA-verkkosanaston tilalle on ratkaisuksi tarjoutunut ontologiahankkeen ONKI-palvelu. Sen etuna on paitsi linkitys ontologioihin, myös muihin kuin Kansalliskirjaston ylläpitämiin asiasanastoihin. Poiminta onnistuu leijukken avulla suoraan järjestelmiin, joissa on toimivat Web Services -rajapinnat – mitä Voyagerissa ei ole.

Lapsipuolen asemaan tässä kaikessa kehitystyössä ovat jääneet nimiauktoriteetit. RDAn ja FRBRn myötä kuvioon ovat tulleet myös teosauktoriteetit, jotka nekin ovat vailla omaa kotia. (Näitä kutsutaan nykyisin uudella termillä ’auktorisoidut nimimuodot’.)

Kuva 1: Auktoriteettien tuotanto ja käyttö ("Voyager-malli")

Kuva 1: Auktoriteettien tuotanto ja käyttö (”Voyager-malli”)

Nyt tilanne on viimein liikahtanut eteenpäin ympäristön muuttuessa vauhdilla. Auktoriteettitietueista ovat kiinnostuneita sekä kansallinen yhteisluettelo että KDK:n asiakasliittymähanke. Taivaanrannassa kajastelee myös kansainvälinen auktoriteettivaihto, ennen muuta VIAF-hanke (Virtual International Authority File), jota puolestaan tukee uusi nimiauktoriteettien tunniste ISNI (ks. Juha Hakalan artikkeli tässä samassa lehdessä ) sekä uudelleen henkiin herätetty teostunniste ISTC.

Yhteisluettelon auktoriteettitietokanta

Kun yhteisluettelo LINDA vuodenvaiheessa 2008/2009 siirrettiin Voyagerista Aleph-järjestelmään yksi radikaaleimmin muuttuneista työnkuluista koski juuri auktoriteetteja. Alephissa on niitä varten erillinen moduuli – siis valmis toimiva alusta auktoriteettitietokannalle. Suurin tekninen este poistui lähes vahingossa.

Kansallisbibliografian siirto yhteisluetteloon jopa vaatii bibliografisten ja auktoriteettitietueiden erottamista eri kantoihin, mikä on viivästyttänyt FENNICAn siirtymistä uuteen LINDAan. Samalla ryhdyttiin valmistelemaan koko auktoriteettituotannon rationalisointia ja mahdollisesti jopa hajauttamista. Tätä varten perustettiin yhteisluettelohankkeen alle erillinen alahanke auktoriteettitietokantaa varten.

Hankkeen työnimenä on ollut ASTERI (asiasana-tekijä-rekisteri) joka on pikkuhiljaa jo alkanut vakiintua käyttöön.

Seuraavassa on esitetty kuvaa 1 vastaava kaavio, kun auktoriteetit on erotettu bibliografisesta datasta:

auktoriteetit2_pieni

Kuva 2: Auktoriteettien tuotanto ja käyttö (”Aleph-malli”)

Kuten kaaviokuvasta näkyy, arkkitehtuuri on huomattavasti yksinkertaisempi. Kuvaan on myös ilmaantunut kaksi uutta laatikkoa, joiden kautta on haravoitavissa sisään muualla tuotettua valmista dataa.

Kansainvälisen VIAF-järjestelmän periaate on, että kussakin maassa auktorisoidaan vain kansalliset toimijat ja ulkomaisten tekijöiden tiedot saadaan vaihtoina heidän kotimaastaan.

Mahdollisia – ja toivottavia – yhteistyökumppaneita ovat lisäksi kustantajat sekä tutkijoiden julkaisuarkistot ja julkaisurekisterit. Kaikki nämä toimijat tuottavat valmista auktoriteettidataa, jota ei kuitenkaan ole pystytty käyttämään suoraan hyödyksi kirjastoluetteloissa. Kustantajien käyttämän ONIX-formaatin ja julkaisuarkistojen käyttämän opinnäytteiden Dublin Core -formaatin molempien konvertointiin MARCiksi on olemassa valmiit mappaukset, vain toimivat rajapinnat tietojen vaihdolle ovat puuttuneet toistaiseksi.

Hankkeessa on edetty nyt niin pitkälle, että Alephin testipalvelimella on toimiva auktoriteettitietokanta, jonne on ladattu kaikki kansallisbibliografian auktoriteettitietueet. Testailun kuluessa monet alun perin suurilta vaikuttaneet ongelmat ovat osoittautuneet helpoiksi ratkaista, mutta toisaalta vastaan on tullut uusia pulmia, joita ei lainkaan ole osattu ennakoida. Esimerkiksi auktoriteettivalvonnasta tiedonhaun puolella saatava lisäarvo – kuten oikean viitteen löytyminen myös väärällä nimimuodolla – toimii vain yhteisluettelossa, eikä periydy Voyagerilla toimiviin paikalliskantoihin ellemme keksi siihen jotain vippaskonstia.

Teknisten kysymysten lisäksi hankkeen kuluessa on tunnistettu puhtaasti ”poliittisia” ongelmia, jotka myös vaativat ratkaisua ennen kuin uusi tietokanta voidaan ottaa täysimittaiseen tuotantokäyttöön. Hajautettu tuotanto esimerkiksi tuo säästöjä koko sektorille, mutta vaatii kentällä lisäpanostuksen auktoriteettityöhön – karkea arvio on että auktoriteettityö vie noin kolmanneksen primääriluetteloinnin työajasta. Jos puolestaan Kansalliskirjasto ottaa vastuun muistakin kuin kansallisbibliografian auktoriteeteista, aiheuttaa se lisäresurssien tarpeen Kansalliskirjastoon (joko lisää henkilöresursseja tai tiedontuottajasopimusten rahoituksen). Lisäksi esille nousee sellaisia riskitekijöitä kuin sitoutuminen ja laadunvarmistus.

Auktoriteetit KDK:n asiakasliittymässä

Kansallisen digitaalisen kirjaston asiakasliittymähanke puolestaan on nostanut auktoriteettitietokannan vaikeusastetta seuraavalle tasolle. Kun on saatu ratkaistua kirjastojen ja niiden sidosryhmien työnjako ja linjaukset, olisi KDK:n piirissä pystyttävä vaihtamaan näitä tietoja myös museoiden ja arkistojen kanssa.

Museoilla on esimerkiksi runsaasti auktoriteettitietoja suomalaisista taiteilijoista, jotka usein ovat aktuelleja myös kirjastoille joko teosten kuvittajina tai julkaisujen kohteina. Yhteisöjen kohdalla yhtymäkohtia on vielä enemmän. Arkistoilla puolestaan voi olla kokoelmissaan samojen toimijoiden henkilökohtaisia papereita tai virallisia asiakirjoja. Kun tutkijan aiheena on Akseli Gallen-Kallela (jonka tunnetaan myös nimimuodolla Axel Gallen), hän on varmasti kiinnostunut niin taidemuseoissa olevista tauluista, kirjastoissa olevista kuvitetuista Kalevalan laitoksista ja taiteilijaelämäkerroista kuin mahdollisesti vain arkistoissa olevista henkilöhistoriaan liittyvistä dokumenteista.

Ensimmäinen ongelma on kuitenkin tallennusformaatti. Museot käyttävät pääsääntöisesti CIDOCin Conceptual Reference Modelia (CRM), joka on jopa MARCiakin rikkaampi. Kansallisarkisto puolestaan käyttää oman alansa keskeiseen standardiin liittyvää formaattia Encoded Archival Context – Corporate Bodies, Persons, and Families (EAC-CPF). Ensimmäiseksi on löydettävä tapa mapata nämä keskenään niin että asiakasliittymän haku pystyy käyttämään niitä kaikkia hyväkseen. Tähän tarkoitukseen on esitetty KDK:n omaa auktoriteettitietokantaa (vrt. Esa-Pekka Keskitalon artikkeli tässä samassa lehdessä).

Tässäkin työssä kuitenkin helpottaa, jos KDK:n tarvitsee keskustella vain yhden toimijan kanssa kullakin sektorilla. Ylläoleva kuva 2 näyttäisikin KDK:n näkökulmasta tältä:

auktoriteetit3_pieni

Kuva 3: Auktoriteettien tuotanto ja käyttö KDK:n näkökulmasta

Teknisesti ONKI-palvelin saattaisi tarjota alustan tällekin metatietojen vaihdolle ja yhteiskäytölle, joskin muitakin vaihtoehtoja on, esim. englantilaisessa Names -hankkeessa rakenteilla oleva alusta.

Kuviossa on kuitenkin tällä kertaa myös juridisia näkökulmia, koska hankkeessa mukana olevilla toimijoilla ei välttämättä ole tietosuojalain mukaan oikeutta luovuttaa hallussaan olevia henkilötietoja muiden käyttöön. Teknisten ratkaisujen lisäksi tarvitaan poliittisia päätöksiä – ja ne saattavat olla jopa haasteellisempia.

Molemmat hankkeet – sekä yhteisluettelo että KDK – jatkavat työtään ja toivon mukaan kaikki eteen nousevat ongelmat saadaan yksi kerrallaan ratkottua, ettei tämä pitkäaikainen haave jää yhä vain ikuisuusprojektiksi.

Lisätietoa

Kirjoittajan yhteystiedot

Laila Heinemann, atk-erikoistutkija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: laila.heinemann (at) helsinki.fi