Viisi vuotta eikä suotta – BIBFRAME-hankkeen nykytilanne

Hakala J (2016). Viisi vuotta eikä suotta – BIBFRAME-hankkeen nykytilanne. Tietolinja, 2016(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2016052913003

 

Tietolinjassa on julkaistu useita vuonna 2011 alkaneesta BIBFRAME-formaatin kehittämishankkeesta kertovia artikkeleita. Ulla Ikäheimon artikkelia ”Elämää MARC-formaatin jälkeen?” seurasivat allekirjoittaneen artikkeli American Library Association’in vuoden 2013 kesäkokouksesta sekä vuoden 2014 kakkosnumerossa Ullan kirjoittama DC-2014 -kokouksen raportti.

Marraskuussa 2013 kirjoittamassani artikkelissa kuvasin formaatin tilaa näin:

Tätä kirjoitettaessa (marraskuu 2013) BIBFRAME-hanke on yhä kesken emmekä tiedä milloin uusi formaatti valmistuu. Valitettavasti monia periaatekysymyksiäkin on auki, kuten osakohteiden ja nidetietojen käsittelytapa. Mutta perustavoitteena on edelleen MARC 21:n korvaaminen oleellisesti modernimmalla formaatilla.

Kovin paljoa tilanne ei ole muuttunut: hanke on yhä kesken, emmekä edelleenkään tiedä milloin BIBFRAME valmistuu. Mutta jotakin myönteistäkin kerrottavaa on.

BIBFRAME 2.0

Huhtikuussa 2016 Kongressin kirjasto julkisti BIBFRAME-tietomallista version 2.0. Uudesta formaattiversiosta kertoessaan Sally McCallum kuvasi sen valmisteluprosessia seuraavasti:

We are pleased to finally be able to announce the publication of the BIBFRAME vocabulary 2.0 that has been under development <https://www.loc.gov/bibframe/>. This has been a major process as we have tried to take into consideration a number of sources of comment on the 1.0 vocabulary: the many community comments over the last 2 years on the BIBFRAME listserv, advice from invited experts, issues resulting from our own pilot with the 1.0 vocabulary, and comments received on GitHub where conversion programs for MARC to BIBRAME were posted.

Uudessa tietomallissa on paljon samaa kuin edeltäjässään. Suurin muutos on niteen statuksen nosto. Kun versio 1.0 ”tunnisti” vain tasot work ja instance, versiossa 2.0 ne ovat work, instance ja item. Uusi BIBFRAME on siis edeltäjäänsä paremmin FRBR-yhteensopiva, mutta ei täysin – ekspressio puuttuu edelleen. Kirjasto on perustellut tätä sillä, että teostason tietueessa voidaan kuvata myös ekspressio; tarvitaan vain koodi joka osoittaa kumman tyyppisestä tietueesta on kyse.

Niteen lisääminen mallin ylätasolle on yksi niistä muutoksista, joita International peer review -ryhmän jäsenet pitivät tärkeinä. Kongressin kirjastolta kesti pitkään myöntyä tähän vaatimukseen. Niteen lisäämisen ansiosta on helppo parantaa myös formaatin RDA-yhteensopivuutta esimerkiksi yhdistämällä bf:custodialHistory niteeseen (johon sen RDA:n mukaan oikeastaan kuuluu) eikä vain teokseen ja instanssiin.

BIBFRAME 2.0:aan on lisätty Tapahtumat (Events), joilla voi olla kahtalainen rooli. Tapahtuma voi olla esimerkiksi lehdistötilaisuus, joka on kuvailtavan teoksen aihe. Toisaalta teos voi olla myös nauhoite kyseisestä tilaisuudesta.

Mitä terminologiaan tulee, se on pääosin ennallaan. Siksi on yllättävää, että hallinnollinen metadata (administrative metadata) tarkoittaakin BIBFRAME:ssa meta-metadataa, eli esimerkiksi tietoa siitä, kuka tietueen on luonut ja mitä kuvailusääntöjä käyttäen.

Round trip

Kongressin kirjasto asetti jo projektin alkuvaiheessa tavoitteeksi sen, että MARC 21 -tietue voidaan muuntaa häviöttömästi BIBFRAME-tietueeksi, joka puolestaan voidaan konvertoida takaisin alkuperäiseksi MARC 21 -tietueeksi. Joidenkin teoreettisemmin asiaan suhtautuvien henkilöiden mielestä tämä round trip -periaate on Prokrusteen vuode, mutta on vaikea nähdä miten muuten voidaan toimia silloin kun formaatit tulevat olemaan rinnan käytössä vuosien ja ehkä vuosikymmenien ajan.

Abstraktin BIBFRAME-mallin perusteella ei voi tehdä pitäviä päätelmiä siitä, toteutuuko round trip eli edestakainen matka kolhuitta. Ainoa tapa varmistua asiasta on konversio, jossa tietojen hävikki voi formaatin ongelmien lisäksi aiheutua myös ohjelmiston virhetoiminnasta. Washingtonin yliopistossa tehdyn BIBFRAME 1.0 -pilotoinnin perusteella osa MARC-tiedoista katosi jo BIBFRAME-muunnoksessa. Lisäksi on tietoja, jotka voidaan muuntaa BIBFRAME:en mutta ei enää takaisin, koska BIBFRAME 1.0:ssa oli vähemmän tietoelementtejä kuin MARC 21:ssä.

En ole ennättänyt tutkia BIBFRAME 2.0 -termilistausta tarkemmin, mutta sopii toivoa että ykkösvaiheen pilotoinnissa havaitut ongelmat on korjattu. Jo pikainenkin termilistaan perehtyminen toki selventää asioita. BIBFRAME:ssa on esimerkiksi luokan teos ominaisuudet hasExpression ja expressionOf, joilla voidaan linkittää toisiinsa teokset ja niiden ekspressiot FRBR:n ja RDA:n edellyttämällä tavalla. Vaikka formaatin tietomalli ei otakaan ekspressioita huomioon, niiden RDA-pohjainen kuvailu onnistuu.

Pitkä (?) matka tuotantoon

BIBFRAME 1.0 -formaattia varten kehitettiin konversio-ohjelmia ja luettelointisovelluksia. Uuden formaattiversion myötä nämä sovellukset joutavat romukoppaan. Kongressin kirjaston tavoitteena on, että uudet välineet olisivat käytettävissä pilotointia varten jo vuoden 2016 syksyllä.

Hankkeen alkuvaiheessa merkittävä rooli oli Early implementers -ryhmällä, jossa olivat mukana esimerkiksi British Library ja Saksan kansalliskirjasto; niillä molemmilla oli runsaasti kokemusta avoimen linkitetyn datan tuottamisesta. Ja koska MARC-formaatin seuraajaa tullaan soveltamaan kaikkialla, ryhmän kansainvälisyys oli merkittävä etu.

Ainakin näin sivusta katsoen on vaikuttanut siltä, että Early implementers -ryhmän toiminta on vuosien mittaan kuihtunut. Sen roolin ovat ottaneet suuret amerikkalaiset yliopistot, jotka ovat yhdessä Kongressin kirjaston kanssa saaneet Mellon-säätiöltä hankerahaa BIBFRAME-formaatin jatkokehittämiseen ja testaamiseen. Philip Schreur Stanfordin yliopiston kirjastosta tiedotti toukokuussa 2016 BIBFRAME-listalla seuraavaa:

I am very pleased to announce that the Mellon Foundation has awarded a grant of $1.5 million to support a project called Linked Data for Production. Linked Data for Production (LD4P) is a collaboration between six institutions (Columbia, Cornell, Harvard, Library of Congress, Princeton, and Stanford University) to begin the transition of technical services production workflows to ones based in Linked Open Data (LOD). This first phase of the transition focuses on the development of the ability to produce metadata as LOD communally, the enhancement of the BIBFRAME ontology to encompass the multiple resource formats that academic libraries must process, and the engagement of the broader academic library community to ensure a sustainable and extensible environment. As its name implies, LD4P is focused on the immediate needs of metadata production such as ontology coverage and workflow transition.

On oltava iloinen siitä että BIBFRAME-kehitys saa tällä tavoin lisää vauhtia, koska ainakin näin etäältä katsottuna vaikuttaa siltä, ettei Kongressin kirjasto ole investoinut hankkeeseen järin merkittävästi henkilö- tai muita resursseja. Mutta toisaalta LD4P-hanke voi merkitä sitä, että formaattia ja yleisemminkin linkitetyn datan periaatteita kirjastosektorille kehitetään etupäässä suurten amerikkalaisten tieteellisten kirjastojen ehdoilla muiden kirjastojen jäädessä lehdelle soittelemaan. Tämän estämiseksi eurooppalaisten kirjastojen tulisi osallistua aktiivisesti BIBFRAME 2.0:n pilotointiin ja informoida Kongressin kirjastoa havaituista ongelmista sekä parannustoiveista. Mitä enemmän tässä voidaan tehdä yhteistyötä, sitä paremmat mahdollisuudet meillä on vaikuttaa formaatin jatkokehitykseen.

Emme voi tietää, onko BIBFRAME 2.0 se versio formaatista, joka aikanaan menee tuotantoon. Emme voi olla täysin varmoja siitäkään, että hanke ylipäätään onnistuu. Kokonaan uuden formaatin kehittäminen on vaativa hanke, joka ei ole ennenkään mennyt niin kuin Strömsössä – esimerkiksi MARC-formaatin ensimmäinen versio jossa oli kiinteämittaiset kentät ei soveltunut kirjastoaineistojen luettelointiin, ja vasta vaihtuvamittaiset kentät ja nimiön lanseerannut kakkosversio on perusratkaisujensa osalta se formaatti, jonka tunnemme. Muut MARC-formaatin kehittämishankkeessa mukana olleet kirjastot putosivat tässä vaiheessa kärryiltä ja Kongressin kirjasto joutui viemään projektin yksin loppuun. Tällä kertaa näin tuskin käy, onneksi.

Kongressin kirjasto onnistuu hankkeessaan sitä todennäköisemmin, mitä enemmän se saa tukea muualta. Onnistumisella tarkoitan sitä, että BIBFRAME aikanaan, mahdollisesti hyvinkin pitkän siirtymäkauden jälkeen, korvaa MARC-formaatin kirjastojen yleisenä vaihtoformaattina. Kirjastojärjestelmien sisäistä formaattia siitä ei tarvitse tulla, ainakaan samalla tapaa kuin MARC-formaatti on ollut. Tulevat kirjastojärjestelmät tulee rakentaa niin, että ne voivat tukea useita formaatteja rinnan. MARC 21:n ja BIBFRAME:n osalta tämän ei pitäisi olla vaikeaa, edellyttäen että formaatit ovat semanttisesti yhteismitallisia.

 

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto
PL 26 (Kaikukatu 4) 00014 HELSINGIN YLIOPISTO
sähköposti: juha.hakala [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Theme by Anders Norén