Kahdeksan vuotta eikä suotta? BIBFRAME-hankkeen nykytilanne

Hakala J (2019). Kahdeksan vuotta eikä suotta? BIBFRAME-hankkeen nykytilanne. Tietolinja, 2019(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019120445613

Vuonna 2016 kirjoitin Tietolinjaan tilannekatsauksen Kongressin kirjaston BIBFRAME-projektista otsikolla ”Viisi vuotta eikä suotta – BIBFRAME-hankkeen nykytilanne”. Kolme vuotta on kulunut, emmekä edelleenkään tiedä milloin formaatti valmistuu. Mutta tälläkin kertaa on myönteistäkin kerrottavaa.

Nojaan jatkossa 3. eurooppalaisessa BIBFRAME-workshopissa pidettyihin esitelmiin, jotka ovat kaikki haettavissa osoitteesta http://bit.ly/Presentations3rdBibframeEU.

Tietomallit

RDA-kuvailusäännöissä sovelletaan neliportaista FRBR-tietomallia. BIBFRAME oli tästä mallista alun perin varsin kaukana, koska formaatin versiossa 1.0 oli vain tasot teos ja instanssi, joka vastasi FRBR:n manifestaatiota. BIBFRAME-teokseen sisältyivät myös ekspressiot.

BIBFRAME 2.0:ssa otettiin askel FRBRn suuntaan lisäämällä tietomalliin nide. Mutta BIBFRAMEn käytöstä saatujen kokemusten perusteella sekä Casalini Libri että Kongressin kirjasto ovat päättäneet erottaa myös teokset ja ekspressiot. Terminologia vaihtelee, edellinen käyttää termejä SuperWork ja Work, Kongressin kirjasto termejä Hub (”keskiö”) ja Work. Nämä lisäykset malliin on tehty vuoden 2019 alussa ilman että niistä on käyty laajempaa keskustelua.

Tietomallin muutoksen tavoitteena on erottaa selkeämmin toisistaan alkuperäinen teos ja sen erilaiset variantit kuten käännökset. Hub ja SuperWork vastaavat FRBR-mallin teos-tasoa, Work FRBR-ekspressiota. Tässä vaiheessa lukija voi hämmästellä, miksi BIBFRAME-hankkeella meni kahdeksan vuotta FRBR-pyörän keksimiseen uudelleen. Asia ei kuitenkaan ole näin yksinkertainen. Mallien erot alkavat jo siitä, että BIBFRAME ja FRBR sekä sen seuraaja, IFLA Library Reference Model (IFLA-LRM) määrittelevät teoksen eri tavoin:

IFLA-LRM

Definition: “The intellectual or artistic content of a distinct creation”

Scope note: “A work is an abstract entity that permits the grouping of expressions that are considered functional equivalents or near equivalents. A work is a conceptual object, no single material object can be identified as the work. The essence of the work is the constellation of concepts and ideas that form the shared content of what we define to be expressions of the same work. A work is perceived through the identification of the commonality of content between and among various expressions.

BIBFRAME

“The highest level of abstraction, a Work, in the BIBFRAME context, reflects the conceptual essence of the cataloged resource: authors, languages, and what it is about (subjects).”

Ja jotta asia ei olisi liian yksinkertainen, myös Casalini Librin ja Kongressin kirjaston tietomalliratkaisut voivat olla keskenään erilaisia, ja niiden yhteismitallisuus on selvitettävä erikseen. Tiziana Possemato kertoi esitelmässä “Possible extensions of BIBFRAME in modelling data”:

“In January 2019 a new SuperWork class was introduced in Share VDE data. Shortly after, just prior to ALA Annual 2019 LC introduced the Hub to their data. While further analysis and refinement of practice for these parallel processes is needed, ultimately they both serve the same function in BIBFRAME…”

Tarpeen selvittää näiden tietomallien eroja ja niiden mahdollisia käytännön vaikutuksia tunnisti myös Ian Bigelow. Hän summasi BIBFRAME-workshopissa pitämässään esitelmässä ”Opus Ex Machina” seuraavasti:

The distinction between types of SuperWork and Hub and the relationship between the updated model to IFLA-LRM warrant further discussion within the International BIBFRAME Community and RDA.

Analyysiä ja keskustelua lienee siis luvassa näin jälkikäteen. Alkajaisiksi voi kysyä, miksi tarvitaan teoksen yläpuolelle asettuva taso, jos BIBFRAME-määritelmän mukaan teos on ”the highest level of abstraction”.

Onneksi kansainvälinen BIBFRAME-yhteisö mainitaan edes puheen tasolla, koska Casalini Libri ja Kongressin kirjasto eivät ole tiedottaneet tietomallin muutoksesta eivätkä juuri mistään muustakaan BIBFRAMEen liittyvästä asiasta. Kansainväliseksi viestintäkanavaksi perustettu BIBFRAME-lista on ollut jo pitkään lähes kuollut. Kongressin kirjasto tiedottaa hankkeesta American Library Associationin kokouksissa, mutta niiden välissä on kuukausien mittaisia hiljaisia kausia. Suomalaisten kirjastojen mahdollisuudet vaikuttaa BIBFRAMEn kehitykseen ovat perin vähäiset, jos emme tiedä mitä päätöksiä projekteissa tehdään.

Historia toistaa itseään, sillä myös MARC kehitettiin aikanaan Kongressin kirjaston ja muutamien suurten amerikkalaisten kirjastojen yhteishankkeena. Tuolloin Kongressin kirjasto muutti formaattia radikaalisti vielä ns. kalkkiviivoilla, luopumalla kiinteämittaisista kentistä ja lisäämällä vaihtomuotoiseen tietueeseen tämän muutoksen edellyttämän nimiön. En usko, että BIBFRAME-formaattia tarvitsee enää muokata yhtä rankalla kädellä. Mutta koska projekti on yhä kesken, 2.0 ei liene formaatin lopullinen versio.

BIBFRAME 2.0:sta ja sen konvertoimisesta

BIBFRAME 2.0 julkistettiin 2016. Se on MARC 21 -formaatin kanssa yhteensopiva siten, että MARC-tietue voidaan konvertoida BIBFRAMEn teos-, instanssi- ja nidetietueiksi. Konversiomääritystä on vuosien mittaan hiottu, viimeisin versio on tällä erää kesäkuulta 2019 (https://www.loc.gov/bibframe/mtbf/).

MARC 21:n ja BIBFRAMEn saumattoman yhteiselon takaamiseksi yhdensuuntainen konversio ei riitä. Tarvitaan rengasmatka (”round trip”), eli häviötön konversio MARC 21:stä BIBFRAMEen ja edelleen takaisin MARC 21:een. Jos konversiossa häviää metadataa, BIBFRAME- ja MARC 21 -pohjaisten kirjastojärjestelmien rinnakkaiselo ei onnistu. Siirtymäkausi MARC 21:stä BIBFRAMEen tulee olemaan pitkä, koska rinnakkaiselo kestää niin kauan kuin maailmassa on johonkin MARC-formaattiin (MARC 21, UNIMARC, InterMARC) perustuvia järjestelmiä.

Kongressin kirjasto ei ole täsmentänyt sitä, mitä rengasmatka käytännössä tarkoittaa. Oletan että yhteismitallisuuden vaatimus koskee semantiikkaa, eli formaattien tietoelementtejä. Tämäkin on haasteellista, jos formaateissa on rakenteellisia eroja. Bittitason yhteismitallisuutta, eli esimerkiksi kaikkien MARC 21 -välimerkkien säilyttämistä, on vaikea toteuttaa millään järkevällä tavalla. Näin sivusta katsoen toivoisi, että BIBFRAME-konversiota toteutettaessa myös MARC 21stä tai sen soveltamistapaa kehitettäisiin, esimerkiksi poistamalla välimerkit (jonka formaatti jo sallisi).

Häviöttömyystavoitteeseen voidaan toki päästä muutenkin kuin yhtenäistämällä MARC 21 ja BIBFRAME. MARC 21 ole pelkästään kuvailevan metadatan formaatti, koska siihen on lisätty paljon hallinnollisen metadatan elementtejä koskien muun muassa käyttöoikeuksia.  Konversiossa nämä tiedot olisi periaatteessa mahdollista tallentaa BIBFRAMEn asemesta Kongressin kirjaston ylläpitämiin hallinnollisen metadatan formaatteihin. Tällöin MARC 21 – BIBFRAME -konversion tuloksena syntyisi METS-tietopaketti, joka sisältäisi metadataa BIBFRAMEn ohella myös muissa metadataformaateissa.  Näiden metadatapakettien MARC 21 -konversiossa paketin sisältämistä metadatatietueista poimittaisiin MARC 21:n sisältämät kentät. Tämän lähestymistavan haasteena on se, etteivät MARC 21 ja hallinnollisen metadatan formaatit välttämättä ole semanttisesti riittävän yhteismitallisia. Esimerkiksi tiedostoja koskeva tekninen metadata luodaan yleensä ohjelmallisesti, mistä syystä se on yksityiskohtaisempaa kuin manuaalisesti tallennettu MARC 21 -metadata.

BIBFRAME-toteutuksista

Index Data -yrityksestä on BIBFRAME-projektin mittaan tullut Kongressin kirjaston hovihankkija. Yritys vastasi MARC 21 – BIBFRAME 2.0 -konversiosta ja rakentaa nyt sekä BIBFRAME-tallennusalustan uutta versiota että BIBFRAME 2.0 – MARC 21 -konversiota. Valitettavasti näistä keskeneräisistä hankkeesta ei ole saatavilla mitään julkista tietoa. Merkittävin puute on, ettei Kongressin kirjasto ole julkistanut BIBFRAME – MARC 21 -konversiomääritystä. Konversio-ohjelmahan on ainakin periaatteessa helppo laatia valmiin määrityksen pohjalta, mutta jos määritys on keskeneräinen, on mahdollista että jompaakumpaa tai molempia formaatteja on vielä muutettava ennen kuin rengasmatka toteutuu. Määrityksen mahdollinen keskeneräisyys aiheuttaa myös sen, että konversio-ohjelman kehittäjät ampuvat liikkuvaan maaliin.

Vaikka formaatti on keskeneräinen, BIBFRAMEen enemmän tai vähemmän väljästi perustuvaa luettelointia tehdään jo ainakin kahdessa tuotantojärjestelmässä. Ne ovat Casalini Librin Share VDE ja Kungliga biblioteket’in Libris XL, jotka pystyvät konvertoimaan tallennetut metatiedot MARC 21 -muotoon häviöttömästi. Tämä onnistuu paikallisten formaattimuunnosten ansiosta. Casalini Librin ratkaisun yksityiskohdat eivät ole julkisia, mutta Libris XLn BIBFRAME-versio kattaa kaikki Libris-kuvailussa käytettävät MARC 21n tietoelementit. Poikkeuksen muodostavat ne elementit, joita tarvitaan vain vaihtomuotoisessa (ISO 2709 –standardin mukaisessa) datassa. Ne voidaan lisätä tietueisiin konversion yhteydessä ohjelmallisesti.

Kun formaatit ovat semanttisesti yhteensopivia, konversiot niiden välillä ovat häviöttömiä ja toistensa peilikuvia. KBn ratkaisuun voi tutustua kirjaston MARCFrame-sivulla.

Libris XLn tallennusformaattia vastaava BIBFRAME 2.0 -laajennus ratkaisisi BIBFRAME – MARC 21 -konversion ongelmat. Näin helppoa ratkaisua ei liene BIBFRAMEn uusien versioiden myötä tulossa, koska MARC 21:n kanssa semanttisesti täysin yhteensopiva BIBFRAME olisi voitu tehdä jo kahdeksan vuotta sitten. Kongressin kirjasto on tietyllä tapaa seinän ja tapetin välissä: mitä enemmän BIBFRAME-kehitystyössä otetaan etäisyyttä MARC 21een, sitä hankalampaa on tehdä häviötön rengasmatka näiden formaattien välillä.

MARC 21 -tietueiden jakaminen teos- ja instanssitietueiksi (jota Libris XL -tietokannassa ei ole tehty) saattaa olla hankkeen isoin kompastuskivi. BIBFRAME-hankkeen pilottivaiheen loppuraportin mukaan ainakin vielä vuonna 2016 oltiin kaukana maalista:

The 13.5 million MARC records were split into Work and Instance records, producing 13.4 million Work records and 13.85 Instance records. The transformation was credible, but was always a work in progress. It was good enough to illustrate the Work/Instance separation, although this was not thoroughly tested in the Pilot. A difficult part of the transformation was the transfer of the title and name/title MARC Authority records into the BIBFRAME framework as BIBFRAME Work descriptions and then their merger with related MARC Bibliographic record data, requiring transfer of the subjects and classifications to the new Work description.

Tiedotuksen niukkuuden vuoksi emme tiedä, miten pitkälle konversion tuotantotasoisessa toteutuksessa on päästy.

Takautuva BIBFRAME-konversio saattaa siis olla pahin kanto kaskessa, koska luettelointia tehdään jo ainakin neljässä eri paikassa itsenäisesti. Kongressin kirjaston projekti ja suurten amerikkalaisten yliopistokirjastojen LD4P2-hanke (Linked Data for Production: Pathway to implementation) eroavat eurooppalaisista siinä, että ne käyttävät kuvailussa BIBFRAME 2.0 -formaattia sellaisenaan. Mutta koska BIBFRAME – MARC 21 -konversio ei ole vielä valmis, luetteloidaan aineistot ainakin Kongressin kirjastossa kahteen kertaan, ensin BIBFRAMElla ja sitten MARC 21:llä. Tämä ei ole tiettävästi herättänyt luetteloijissa suurempaa kapinamieltä, mutta pysyvää järjestelyä tuplaluetteloinnista ei tietenkään voi tulla.

LD4P2-hanke on kehittänyt oman Sinopia-luettelointisovelluksen, koska Kongressin kirjaston tallennusalusta ei täyttänyt projektin teknisiä vaatimuksia. Sinopiakaan ei ole valmis tuote, vaan

“a preliminary step, a sketch of what’s possible, on the way to a full-fledged linked data production environment”.

Esimerkiksi poimintaluettelointi on mahdollista vain Casalini Librin Share VDE -järjestelmästä tuotettuja RDF-muotoisia BIBFRAME-tietueita käyttäen.

MARC 21 – BIBFRAME -konversion tuloksiin voi perehtyä Kongressin kirjaston testipalvelussa, jossa voi katsella MARC- ja BIBFRAME-tietueita rinnan. Sivulle http://id.loc.gov/tools/bibframe/compare-id/full-ttl saa haluamansa julkaisun tiedot antamalla sen Bib ID -tunnuksen tai LCCN-numeron. Tietueiden syntaksit voi vaihtaa MARCista MARCXMLksi ja ja Turtlesta RDF XMLksi vaihtamalla esitysmuodon Turtlesta RDF XMLään.

BIBFRAME kirjastojärjestelmissä

Kaupalliset kirjastojärjestelmätoimittajat ovat sitoutuneet siihen, että heidän sovelluksensa voivat lukea ja tuottaa BIBFRAME-tietueita. Tämä lupaus on helppo täyttää Kongressin kirjaston konversio-ohjelmien avulla, varsinkin jos teos- ja instanssitasoa ei eroteta toisistaan.

Vain FOLIO-järjestelmässä on suunnitelma siitä, miten järjestelmän sisäiseksi formaatiksi voidaan saada BIBFRAME ja tukea samalla myös MARC 21 -käyttöä. Mitä tiukemmin perinteinen järjestelmä on rakennettu MARC-formaatin varaan, sitä työläämpää sen muuttaminen BIBFRAME-pohjaiseksi on. Varsinainen pullonkaula on kuitenkin formaatin keskeneräisyys: kirjastot voivat vaatia BIBFRAME-pohjaista järjestelmää vasta kun formaatti on valmis. Liikkuvaan maaliin ampuminen ei kannata.

Lopuksi

Kolme vuotta sitten kirjoittamassani Tietolinja-artikkelissa todetaan, että:

Emme voi tietää, onko BIBFRAME 2.0 se versio formaatista, joka aikanaan menee tuotantoon. Emme voi olla täysin varmoja siitäkään, että hanke ylipäätään onnistuu. Kokonaan uuden formaatin kehittäminen on vaativa hanke, joka ei ole ennenkään mennyt niin kuin Strömsössä.

Kaikki tämä pitää – valitettavasti – edelleen paikkansa. Projekti on edennyt tuskastuttavan hitaasti, merkittävää edistystä on kolmessa vuodessa saavutettu vain siltä osin, että BIBFRAME-luettelointia tekeviä tahoja on tullut lisää, ja Libris XL:ssä ja Casalini Librin Share VDE -järjestelmässä on paikallinen muunnos BIBFRAMEsta luettelointi- ja sisäisenä tallennusformaattina.

Jos ja kun hanke edelleen venyy, näitä paikallisia BIBFRAME-versioita voi tulla lisää, eikä se ole pelkästään myönteinen asia. Tässäkin historia on toistamassa itseään: MARC-formaatistakin tehtiin useita kansallisia versioita ja UNIMARC, kun Kongressin kirjaston LCMARC ja USMARC eivät kelvanneet muille. Näitä kansallisia formaatteja käytettiin vuosikymmeniä, viimeisin – DANMARC2 – menettää kansallisen statuksensa vasta vuonna 2020.

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1) 00014 Helsingin yliopisto
sähköposti: juha.hakala [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.