Laadukas metatieto kirjastojen kansallisen metatietovarannon pohjana

Marjatta Autio-Tuuli
Marja-Liisa Seppälä
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe201205305658

Tässä artikkelissa esittelemme keskeisiä metatiedon yhteentoimivuuteen vaikuttavia osa-alueita, jotka tukevat laadukkaan metatiedon luontia kirjastojen kansallisessa metatietovarannossa.

Metatietojen yhteentoimivuus – tuloksellinen tiedonhaku

Metatietojen yhteentoimivuus on keskeinen metatietovarannon laatukriteeri. Yhteisiä periaatteita noudattava aineistojen kuvailu edistää tiedonhaun tuloksellisuutta.

Yhteentoimiva metatieto edellyttää yhteisesti sovittuja aineiston kuvailun periaatteita. Kirjastoilla on pitkät perinteet yhteistyöstä yhteisten periaatteiden ja standardien, mm. luettelointisääntöjen, kehittämisestä sekä niiden käytöstä.

Ensimmäinen julkilausuma kansainvälisistä luettelointiperiaatteista, Statement of International Cataloging Principles ICP, ilmestyi vuonna 1961, uusin versio on vuodelta 2009 (http://www.ifla.org/files/cataloguing/icp/icp_2009-en.pdf). Näiden periaatteiden tavoitteena on edistää tietojen kansainvälistä yhteiskäyttöisyyttä. Ne ovat toimineet perustana luettelointisäännöille.

Uusin versio periaatteista perustuu FRBR- (Functional Requirements for Bibliographic Records) tiedonmallinnuksen teoriaan.

Tiedonmallinnuksen teoriat tiedonhaun edistämiseksi

FRBR-malli perustuu IFLAn luettelointijaoston asettaman työryhmän laajaan tutkimukseen kirjastojen tuottaman bibliografisen tiedon käytettävyydestä. FRBR-malli kuvaa teorian tasolla, mistä käyttäjät ovat tyypillisesti kiinnostuneita etsiessään aineistoja, ja mitä näitä kuvailevia tietoja ts. metatietoja tarvitaan, jotta käyttäjät voivat löytää ja tunnistaa tarvitsemiaan aineistoja, valita käyttötarkoitukseensa sopivimman ja saada sen käyttöönsä.

Selvityksen perusteella aineistoja ja tietoa etsittäessä käyttäjien mielenkiinto kohdistuu:

  • tieteelliseen tai taiteelliseen sisältöön ts. teokseen (”Se on hyvä kirja. Haluaisin lukea sen uudelleen.”), siihen miten sisältö on esitetty ts. ekspressioon (”Haluaisin lukea kirjan suomennoksena tai mieluimmin kuunnella äänikirjana.”), missä muodossa sisällön saa käyttöön ts. manifestaatioon (”Haluaisin sen e-kirjana PDF-tiedostona.”), yksittäiseen kappaleeseen (”Unohdin palauttaa kirjan.”)
  • käyttäjiä kiinnostaviin henkilöihin ja yhteisöihin, jotka liittyvät aineistoihin tekijöinä, esittäjinä, julkaisijoina, kappaleiden omistajina jne. (”Haluaisin lukea saman kirjailijan muita teoksia.”)
  • teoksen aiheisiin (”Haluaisin tietoa vanhusten oikeudellisesta asemasta Suomessa.”).

FRBR-mallissa määritellään näitä käyttäjiä kiinnostavia asioita eli entiteettejä (teos, ekspressio, henkilö jne.) kuvaavat metatiedot (nimeke, julkaisuaika, painos, nimi, syntymäaika- ja paikka jne.).

Entiteettien välillä on eritasoisia suhteita. Elokuvasta tehdään näytelmä, tietokirjasta on tullut uusi versio, laulaja on myös yhtyeen jäsen jne. FRBR määrittelee nämä suhteet. Kun suhteet ilmaistaan näkyvästi ja hierarkkisesti, luodaan käyttäjille mielekäs navigointiympäristö tiedonhaun tueksi. FRBR-mallia kutsutaankin entiteetti-relaatio-malliksi.

FRAD ja FRSAD-tietomallit täydentävät FRBR-mallia. FRAD käsittelee hakutietojen (access point) muodostamista aineistojen löytyvyyden ja tunnistamisen edistämiseksi. FRSAD (Functional Requirements for Subject Authority Data) käsittelee teosten aiheita, lähtökohtana aineistojen löytyvyys.

FR-tietomallit ovat osoittautuneet kestäviksi teorioiksi tiedonmallinnukseen. Niistä on tullut nopeasti kansainvälisesti hyväksyttyjä teorioita. Nämä tietomallit kuvaavat tyypillisesti käyttäjien aineistoihin kohdistuvia erilaisia tiedontarpeita ja toimivat hyvänä perustana tiedonhakuympäristölle.

RDA (Resource Description and Access) teorioiden toteuttajana

Uuden kuvailustandardin RDAn (Resource Description and Access) perustana ovat FR-tietomallit.

RDA otetaan käyttöön vuonna 2013 standardin kehittäjämaissa USAssa, Britanniassa, Australiassa ja Kanadassa sekä myös Saksassa. Käyttöönotto on laajenemassa myös muihin maihin. European RDA Interest Group EURIG perustettiin vuonna 2010. Suomessa Kansalliskirjasto on perustanut projektin RDAn käyttöönoton valmistelemiseksi. Tavoitteena on RDAn käyttö n. vuonna 2014 kansallisena suosituksena aineistojen kuvailuun.

RDA ei määrittele tietojen esitys- tai tallennustapaa. Metatiedot ovat Itsenäisiä tietoelementtejä, jotka jäsentyvät tarkoituksenmukaisiksi kuvailukokonaisuuksiksi, dataseteiksi. RDAn mukaan tuotettu data on hyödynnettävissä käyttäjälle erilaisissa tietojärjestelmissä. Entiteetti-relaatio-mallin vuoksi se sopii web-ympäristöön, erityisesti linkitetyn datan skeemaan.

Kuva: Hahmotelma linkitetystä datamallista RDAn mukaan. Esimerkkinä teos: Guns, germs and steel

Kuva: Hahmotelma linkitetystä datamallista RDAn mukaan. Esimerkkinä teos: Guns, germs and steel

Muuttuva metatietoympäristö

Uusien metatietomallien, -varantojen ja -välineiden myötä kuvailutyö siirtyy moniulotteisempaan metatietomaailmaan lähivuosien aikana. Tietueeseen nojaava luettelointityö korvautuu metatietojen linkittämisellä, mikä tarkoittaa suhteiden luomista entiteettien välille. Suhteiden avulla metatiedot linkittyvät toisiinsa metatietoverkostoksi yli organisaatio-, toimiala- tai kansallisrajojen. Globaalin metatietoverkoston luominen vaatii yhteentoimivaa metatietoa eli poisoppimista järjestelmä- ja organisaatiokohtaisista linjauksista ja käytänteistä.

Sanastot laadun takeena

Kansainvälisten periaatteiden, sääntöjen ja standardien lisäksi yhteisten elementti- ja arvosanastojen käyttö lisää metatiedon tuotannon ekonomisuutta ja parantaa metatiedon laatua. Kuvailuelementteihin (esim. aineiston kieli) ja elementtien arvoihin (esim. englanti) liittyviä termejä sisältävät kansalliset ja kansainväliset metatietovarannot ovat keskeisiä metatietojen verkoston luomisessa. Kansainväliseen metadatarekisteriin (Open Metadata Registry) on määritelty keskeisten kirjastoaineistojen kuvailuun vaikuttavien sanastojen, kuten ISBDn (International Standard Bibliographic Description), RDAn, DCn (Dublin Core) ja FRBRn, elementit sekä elementtien vakioituja arvoja. Kuvailuelementtien arvoihin liittyviä sanastoja ovat esim. yhteisö- ja henkilöentiteettien nimiin liittyvä rekisteri VIAF (Virtual Authority File) ja käsite- ja paikkaentiteetteihin liittyvä YSO (Yleinen suomalainen ontologia). Tällaiset metatiedon tuotantoa ohjaavat varannot olisi hyvä integroida metatiedon tuotantojärjestelmään kuvailutyön tehostamiseksi. Yhteisten kuvailuelementtien käyttö helpottaa myös tiedonhakupalveluiden rakentamista (esim. rajausten ja fasetoinnin osalta). Yhteisten elementtien arvojen käyttö taas laajentaa hakutuloksia.

Toiminnallisuutta metatietoon URI-tunnisteilla

Keskeisille metatiedon tuotantoa ohjaaville viitekehyksille (RDA, ISBD, FRBR jne.) on luotu omat nimialueet, joiden sisällä termien määritykset ovat voimassa. Nimialueet on sisällytetty sanastojen termeille annettuihin URI-tunnisteisiin (Uniform Resource Identifier). Esimerkiksi RDAn termin mediatype URI-tunniste on http://rdvocab.info/termList/RDAMediaType, kun taas ISBDn mukaisen termin mediatype URI-tunniste on http://iflastandards.info/ns/isbd/elements/P1003.

Viitekehyksen lisäksi URI-tunniste antaa kuvailutermille kielineutraaliuden, mikä on tärkeää globaalissa linkitetyn metatiedon maailmassa. Esimerkiksi suomenkielinen termi mediatyyppi voidaan linkittää RDAn termin mediatype URI-tunnisteeseen. Samalla tavoin henkilöstä eri kielissä käytetyt nimimuodot voidaan koota yhteisen globaalin URIn alle, katso esim. http://viaf.org/viaf/89612684/.

URI-tunnisteet ovat konelukuisia, mikä tukee metatiedon automaattista linkittymistä ja kattavampia hakutuloksia.

Sanastojen yhteismitallistaminen

Metatiedon yhteismitallistamiseksi eri sanastojen termit on ”mapattava” toisiinsa. Mappaus vähentää sovellusprofiilissa vaadittavaa yhteismitallistamista. Suhteet eri termien välillä voidaan ilmaista RDF-skeemassa (Resource Description Framework). Esimerkiksi ISBD- ja RDA-termejä yhteismitallistettaessa poistetaan RDA-termeistä viittaukset FRBR-entiteetteihin, sillä ISBD-termejä ei ole määritelty suhteessa FRBR-malliin. FRBR-neutraalit RDA-termit esitetään RDF-suhteina vastaaviin ISBD-termeihin.

Metatiedon yhteismitallisuuteen vaikuttavat myös globaalien tunnistejärjestelmien – esim. ISTC (International Standard Text Code), ISNI (International Standard Name Identifier) ja ISSN (International Standard Serial Number) – ja FR-käsitemallien (FRBR, FRAD ja FRSAD) eroavuudet entiteettien rajojen määrittelyssä. Tunnistejärjestelmiä kehitettäessä, esim. julkaisualan kanssa, näkökulma on bibliografisen metatiedon jäsentämistä laajempi. Entiteettien rajat ja identiteetit pitäisikin määritellä selkeämmin ja yleispätevämmin, jotta entiteettien tunnisteisiin tukeutuva linkitys antaisi tulokseksi järkeviä kuvailuelementtien settejä.

Uudenlaisia tietomalleja metatiedolle

Metatiedon rakenteellinen muutos vaatii uudenlaista tietomallia kuvailuun. Nykyisistä formaateista irtautuva kuvailu tukeutuu jatkossa funktionaaliseen käsitemalliin (FRBR) ja kuvailuun valittujen sanastojen määriteltyihin elementteihin. Sanastojen ja funktionaalisen käsitemallin ontologiset rakenteet määrittelevät eksplisiittisesti entiteettien väliset suhteet. Entiteettien hierarkia auttaa maksimoimaan useammalle entiteetille yhteisten elementtien käytön. Hierarkkiseen rakenteeseen liittyy myös periytyvyys, jolloin hierarkiassa ylempänä luodut suhteet periytyvät alatasoille. FRBR-käsitemalli eräänlaisena mentaalisena kuvailun viitekehyksenä auttaa metatiedon tuottajaa lähestymään kuvailun kohteena olevaa aineistoa globaalista metatietojen verkoston näkökulmasta. FRBR-malli ohjaa tuottamaan rakenteistettua, nykyisestä tietuerakenteesta vapaata metatietoa.

Mentaalin tietomallin lisäksi tarvitaan metatiedon datamalli, joka sopisi mm. linkitetyn datan ympäristöön. Library of Congress pyrkii monivuotisen projektinsa (Bibliographic Framework Transition Iniative) aikana kehittämään MARC 21-formaatin korvaavaa datamallia, joka olisi yhteentoimiva sekä tietokantojen sisäisten datamallien (usein relaatiotietokantarakenne, jossa kaikki data esitetään suhteina) että linkitetyn datan RDF-skeeman kanssa. Yhteentoimivuus RDFn kanssa on oleellista, sillä RDF semanttisen webin kielioppina ja globaalina metatiedon alustana mahdollistaa metatiedon avaamisen verkkoon muodossa, jota eri sovellukset pystyvät hyödyntämään ja jonka myötä kirjaston metatieto on haettavissa verkon hakupalveluissa.

Vaikka uuden metatiedon datamallin luominen lähtee metatiedon sisällöllisistä tavoitteista ja entiteetti-relaatio-mallin pohjalta, on sen huomioitava myös nykymuotoisen metatiedon (esim. MARC 21-muodossa olevan datan) konvertointimahdollisuudet ja yhteismitallisuus uuden datamallin kanssa. MARC-formaatin kentät eivät valitettavasti aina edusta itsenäisiä kuvailuelementtejä vaan ovat sidoksissa tietuerakenteeseen. MARC-metatiedon muokkaaminen rakenteisempaan ja linkitettävämpään muotoon on haaste, jonka kansainvälinen metatietojen asiantuntijaverkosto on valmis ottamaan kirjastojen olemassaolon varmistamiseksi digitaalisessa tietoympäristössä.

Metatiedon laatuvaatimukset

Metatiedon laadulla tarkoitetaan metatietojen johdonmukaisuutta, tarkoituksenmukaisuutta, kestävyyttä, luotettavuutta ja rikkautta. Nämä tuloksellista tiedonhakua tukevat kansainväliset metatiedon laatukriteerin edellyttävät aktiivista yhteistyötä kansallisten ja kansainvälisten metatietovarantojen luomisessa.

Kirjoittajien yhteystiedot

Marjatta Autio-Tuuli, kirjastonhoitaja/RDA-projektipäällikkö
Marja-Liisa Seppälä, tietoasiantuntija
Kansalliskirjasto,
PL 26 (Teollisuuskatu 23)
00014 Helsingin yliopisto
Sähköposti: etunimi.sukunimi [at] helsinki.fi

Theme by Anders Norén