Standardisoinnin vuosikatsaus 2014

Lainausta kaukaa, säilytystä pitkään ja vähän uusista formaateistakin

Juha Hakala
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe2014120552175

 

Standardoinnin vastuuhenkilön kannalta kuluva vuosi on ollut ristiriitainen kokemus. Onnistumisten lisäksi on nähty mahalaskuja ja perin hitaasti eteneviä standardisointihankkeita. Yleiskuva on kuitenkin positiivinen.

Tässä artikkelissa kuvataan ensi sijassa ISO:n toimia; Kongressin kirjaston BIBFRAME-hankkeesta kerrotaan lyhyesti, ja URN-standardoinnista on erillinen artikkeli. Muitakin merkittäviä standardointihankkeita olisi ollut; tutustumisen arvoisia ovat esimerkiksi Herbert Van de Sompelin ja hänen kollegoidensa loppuvuodesta 2013 valmistunut Memento-standardi (https://tools.ietf.org/html/rfc7089) ja siihen perustuvat kehittämishankkeet.

ISO TC 46

ISO:ssa tietohuollon standardeista vastaa tekninen komitea 46 (Information and documentation). Sillä on perinteisesti ollut tiivistä yhteistyötä ISO:n muiden komiteoiden kanssa. Esimerkiksi kielikoodistandardia (ISO 639) kehitetään yhdessä TC 37:n (Terminology and other language and content resources) kanssa. Viime aikoina yhteistyö myös muiden standardointijärjestöjen kuten IETF:n ja OASIS:in kanssa on lisääntynyt.

Suomi on hoitanut ISO TC 46:n alakomitean SC 4 (Information and documentation – technical interoperability) puheenjohtaja- ja sihteeristövastuita vuoden 2012 alusta. Komitean puheenjohtaja on allekirjoittanut, sihteeristönä toimii SFS. Hieman yllättäen tämä on ensimmäinen kerta, kun SFS on ISO:n alakomitean sihteeristö. Eikä Suomella tiettävästi ole aiemmin ollut myöskään puheenjohtajavastuita ISO:n alakomiteoissa.

SC 4 on vastuullinen työsarka, sillä sen toimenkuvaan kuuluvat muun muassa metadatastandardit sekä protokollat, kuten tiedonhaku- ja kaukopalvelustandardit.  Erityishaasteena alakomitealla on se, että monia merkittäviä standardeja, kuten OAI-PMH ja tiedonhakustandardi SRU on kehitetty ja hyväksytty muissa standardijärjestöissä. ”Eksyneet lampaat” pitäisi tuoda ISO:n sateenvarjon alle, jotta voitaisiin vahvistaa näiden standardien statusta ja varmistaa niiden ylläpito myös jatkossa. Siitäkään ei olisi haittaa, että kaikki keskeiset standardit löytyvät yhdestä paikasta.

Uusi kaukopalvelustandardi

Heinäkuussa 2014 valmistui ensimmäinen standardi, jonka laadinta aloitettiin Suomen puheenjohtajakaudella.  Uutta kaukopalvelustandardia (Interlibrary Loan Transactions, ISO 18626) onkin kaivattu kuin kuuta nousevaa, sillä sen edeltäjä (Interlibrary Loan Application Service Definition, ISO 10160:1997 ja sitä vastaava protokollan määrittely, ISO 10161) oli jo pahoin ajan hampaan syömä. Viisitoista vuotta voi riittää siihen, että ajanmukaisesta standardista tulee rasite.

Vanhasta kaukopalvelustandardista rupsahtivat sekä sisältö että tekniikka. Standardissa määritelty toimintamalli perustui siihen, miten suuret tieteelliset kirjastot hoitivat kaukopalvelua 80-luvulla, ja noista ajoista prosesseja on yksinkertaistettu. Toisaalta ISO 10161 ei soveltanut XML:ää viestirakenteissa, vaan koneriippumattomana koodaustapana oli ISO:n OSI-mallissa määritelty ASN.1/BER (http://en.wikipedia.org/wiki/Abstract_Syntax_Notation_One).

Näiden ongelmien ratkaisemiseksi vanha kaukopalvelustandardi olisi pitänyt uudistaa perin pohjin, minkä vuoksi myös vanhat ILL-sovellukset olisi joka tapauksessa pitänyt kirjoittaa uusiksi. Helpompi ratkaisu oli jättää vanha standardi toistaiseksi voimaan nykymuodossaan, mutta laatia sen rinnalle uusi standardi, joka siirtymäkauden (ja luultavasti melko pitkän sellaisen) jälkeen korvaa edeltäjänsä.

Uudessa kaukopalvelustandardissa on muutakin modernia kuin tekniikka ja toimintamalli. Standardi määrittelee kaukopalveluun liittyvät viestit ja niiden tietoelementit. Jotkut tietoelementit ovat koodeja, ja sallittujen koodien lista voi olla avoin tai suljettu. Suljetut koodit ovat standardin soveltamisen kannalta keskeisiä ja normatiivinen osa itse standardia. Näitä koodeja ovat esimerkiksi RequestType (New, Retry, Reminder) ja ServiceType (Copy, Loan, CopyOrLoan). Uuden pyyntötyypin tai palvelutyypin lisääminen edellyttää koko standardin päivittämistä – ja merkittäviä muutoksia ohjelmistoihin.

Avoimien koodien alustava lista on määritelty standardin liitteessä B, mutta näiden koodien ajantasaista listaa ylläpidetään verkossa (http://illtransactions.org/).  Esimerkiksi BillingMethod-koodit ovat Account, FreeOfCharge, Invoice, Other ja ReciprocityAgreement, mutta uusia koodeja voidaan tarvittaessa lisätä helposti. Muutoksen vaikutus sovelluksiin on pieni, toisin kuin suljetun koodin lisäämisellä.

Uudesta ILL-standardista ei ole vielä olemassa yhtään käytännön toteutusta, mutta näillä näkymin ensimmäiset ohjelmistot valmistuvat jo 2015. Uuden standardin haluttiin olevan edeltäjäänsä merkittävästi helpommin implementoitavissa, ja uskon että tähän tavoitteeseen on päästy.

Tunnisteet

ISO TC 46/SC 9 (Identification and description) uudistaa parhaillaan ISBN- ja ISRC-standardeja.  Molemmissa tavoitteet olivat kunnianhimoisia, mutta niistä joudutaan lähes varmasti tinkimään.

ISBN:n osalta työryhmä keskusteli edellisen modernisointikerran tapaan siitä, säilytetäänkö ISBN:n rakenne nykyisellään, vai tehdäänkö siitä ISSN:n kaltainen ”tyhmä” tunniste. Kustantajat olivat jälkimmäisen vaihtoehdon kannalla, mutta kirjastojen ja muun kirja-alan äänin ISBN:n rakenne säilyy. Näillä näkymin merkittävin muutos on ISBN-A (actionable ISBN) eli ISBN-tunnus joka toimii linkkinä Internetissä. Uusi standardi antanee erillisessä liitteessä käytännön esimerkit DOI:n ja URN:n soveltamisesta tähän tarkoitukseen.

Jos esimerkiksi ISBN on 978-952-10-9981-6, vastaava URN-tunnukseen perustuva ISBN-A on on URN:NBN: 978-952-10-9981-6, resoluutiopalvelun osoitteen lisäämisen jälkeen  http://urn.fi/URN:ISBN:978-952-10-9981-6. DOI-tunnuksen muodostaminen ei ole yhtä suoraviivaista, koska DOI prefix muodostetaan kustantajan tunnisteesta. DOI-pohjainen ISBN-A edellä olevasta ISBN-tunnuksesta on 10.978.952.10/9981-6, resoluutiopalvelun osoitteessa rikastettuna http://doi.org/10.978.952.10/9981-6. Mutta tätä DOI:ta ei voi muodostaa ennen kuin Helsingin yliopisto (jonka väitöskirjasta tässä on kyse) rekisteröi itselleen DOI prefixin.

ISBN-tunnuksista on esimerkiksi Suomessa tehty URN-pohjaisia hyperlinkkejä jo vuosien ajan, joten käytännössä standardin uudistamisella ei ole suurta vaikutusta. Mutta ISBN on ensimmäinen ISO-standardi, joka ”virallistaa” pysyvien tunnisteiden soveltamisen. Vastaavaa kannanottoa – ja URN-nimialueiden rekisteröintiä – sopii vaatia muiltakin ISO:n standarditunnisteilta.

ISRC on äänitteen standarditunnus (International Standard Record Code). Sen jakelu on Suomessa hajautettu siten, että tuottajat antavat äänitteille koodit, ja Musiikkituottajat IFPI Finland puolestaan hallinnoi tuottajatunnuksia (http://www.ifpi.fi/info/palvelut/kayttoohjeet). Vastaavia järjestelyjä sovelletaan muissakin tunnusta soveltavissa maissa.

ISRC-tunnus rakentuu maakoodista, kolmen merkin pituisesta tuottajatunnuksesta, 2-numeroisesta vuosiluvusta ja viiden numeron mittaisesta tallenteen tunnuksesta. Esimerkiksi Syksyn sävel –kappaleen rautalankaversion ISRC on Violan mukaan FIFFD8100021.

ISRC-standardin uudistamisen tärkein tavoite on luoda keskitetty ISRC-tietokanta, jonka avulla olisi mahdollista paitsi löytää tietyn äänitteen ISRC, myös mahdollista eliminoida virheelliset ISRC:t ja selvittää tilanteita, joissa samalle äänitteelle on annettu kaksi tai useampia tunnuksia. Jotkut tahot ovat olleet sitä mieltä että globaalin ISRC-tietokannan rakentaminen on liian suuri urakka, koska käytettävissä olevan metatiedon laatu vaihtelee paljon. Tätä kirjoitettaessa (marraskuu 2014) ei ole vielä varmaa, saadaanko tietokantaa edes standardiin – mikä ei vielä takaa sitä, että tietokanta rakennetaan.

Tietokannan avulla oli alun perin tarkoitus myös keskittää tunnusjakelua, mutta loikka täysin hajautetusta täysin keskitettyyn jakeluorganisaatioon osoittautui liian pitkäksi.  Äänitetuottajien kärsivällisyys joutuisi koetukselle, jos heidän pitäisi ensin itse kuvailla äänitteensä standardin edellyttämällä tavalla, lähettää sitten tiedot kv. tietokantaan (tai organisaatiolle, joka toimittaa tiedot tarkistuksen jälkeen eteenpäin) ja odottaa lopuksi että kansainvälinen ISRC-keskus luo pyydetyt tunnukset.

On todennäköistä että nykyisen kaltainen hajautettu ISRC-jakelu säilyy, mutta Suomen ja muiden maiden pitää varautua siihen, että äänitteiden tiedot on jatkossa toimitettava kv. ISRC-keskukselle. ISRC-uudistusta varten perustettu kansallinen ISRC-työryhmä, jossa ovat mukana Musiikkituottajat IFPI Finland ry, GRAMEX Finland, Yleisradio ja Kansalliskirjasto, pohtii muiden tehtäviensä ohella myös keinoja kansallisen ääniteluettelointiyhteistyön kehittämiseen.

 

Pitkäaikaissäilytyksen standardit

Uutena haasteena ISO:lla on elektronisen aineiston pitkäaikaissäilytyksen edellyttämien standardien luonti. Varsinaisen standardointityön ohella on sovittava teknisten komiteoiden kesken siitä, miten vastuuta jaetaan. ISO:lla ei ole teknistä komiteaa joka ”omistaisi” pitkäaikaissäilytyksen, vaan useat tekniset komiteat – mukaan lukien TC 46 – tarkastelevat asiaa omasta näkökulmastaan.

Esimerkkejä nykyisistä ISO:n PAS-standardeista ovat PDF/A (Electronic document file format for long term preservation, ISO 19005), josta vastaa TC 171 (Document management applications), sekä OAIS (Open Archival Information System, ISO 14721:2012), jonka taustaorganisaatio on TC 20/SC 13 (Space data and information transfer systems). TC 20:n vastuualue on Aircraft and space vehicles, joka ei varsinaisesti liity e-aineistojen pitkäaikaissäilytykseen. TC 20/SC 13 on kuitenkin julkaissut enemmän pitkäaikaissäilytykseen suoraan liittyviä standardeja kuin yksikään toinen ISO:n alakomitea. Tämä on komitean PAS-asioissa aktiivisen ”hovihankkijan”, Consultative Committee for Space Data Systems’in (CCSDS, http://public.ccsds.org/default.aspx) ansiota.

TC 20/SC 13 ei kuitenkaan ole kehittämässä esimerkiksi pitkäaikaissäilytyksen metatietojen standardia. Eikä tähän ole tarvettakaan: Kongressin kirjaston vastuulla olevaa PREMIS-formaattia käytetään alan hankkeissa laajalti. Ja jos PREMIS standardoidaan ISO:ssa, on sekä organisatorisesti että toiminnallisesti järkevää hoitaa asia TC 46/SC 4:ssä.

SC 4:n standardeista pitkäaikaissäilytykseen liittyy suoraan vain verkkoarkistoinnissa käytetty WARC (Web Archive Format, ISO 28500:2009). Sen avulla haravoiduista tiedostoista luodaan ”paketteja”, joihin tallennetaan myös tiedot siitä, mistä ja milloin tiedostot on kerätty.

WARC on PREMIS:in tavoin omalla alallaan ylivoimainen ”markkinajohtaja”. Standardin julkaisemisesta on kulunut viisi vuotta, ja ISO:n normaalin viisivuotistarkistuksen tulos oli että päivitys on tarpeen. Mitään suurta revisiota ei tarvita, mutta standardin ahkera käyttö on paljastanut pieniä puutteita joiden pitäisi olla helpohkosti korjattavissa.

KDK-hankkeessa käytetään aineistojen paketointiin WARC:in ohella METS:iä (Metadata Encoding and Transmisson Standard, http://www.loc.gov/standards/mets/), jonka vastuutaho on Kongressin kirjasto. METS-standardia sovelletaan hyvin monissa PAS-hankkeissa, ja se onkin OAIS:n ohella kenties merkittävin pitkäaikaissäilytyksen standardi. METSin avulla kaikki dokumentin käyttöön asettamiseen ja säilyttämiseen tarvittava kuvaileva, hallinnollinen ja rakenteellinen metatieto voidaan esittää yhtenä kokonaisuutena, joka voidaan paketoida yhteen itse dokumentin kanssa.

METS:in ISO-standardoinnista ei ole tehty päätöstä, mutta se parantaisi mm. standardin tunnettuutta. Standardia kehittää METS Editorial Board (http://www.loc.gov/standards/mets/mets-board.html), ja etenkin jos standardointi tehdään ISO:n Fast track -menettelynä vastuu jäisi Boardille jatkossakin.

MEDONA

Seuraava pitkäaikaissäilytykseen liittyvä SC 4:n hanke on protokolla, joka määrittelee pitkäaikaissäilytys- eli PAS-sovelluksen ja taustajärjestelmien välisen rajapinnan. Ranskan kansallinen standardisointijärjestö AFNOR valmistelee kansallisen MEDONA-standardin pohjalta New Work Item Proposal –esitystä, joka toimitettaneen SC 4:n sihteeristölle vielä vuoden 2014 aikana.

MEDONA (Modélisation des échanges de données pour l’archivage, NF Z44-022) julkaistiin tammikuussa 2014. Sen avulla taustajärjestelmästä voidaan lähettää PAS-sovellukseen uusia dokumentteja, päivittää PAS-sovelluksessa jo olevaa aineistoa, tai pyytää poistettavaksi PAS-järjestelmässä jo olevia dokumentteja.

KDK-hankkeen standardisalkussa ei toistaiseksi ole MEDONAa vastaavaa standardia. KDK.n PAS-hanke on määritellyt tarkoin sen, millaisia siirtopaketteja taustajärjestelmistä tulee lähettää PAS-sovellukseen, mutta käyttämämme METS-standardi määrittelee vain pakettien rakenteen, eikä sen avulla voida lähettää PAS-sovellukseen tietoa ko. paketin käsittelystä.  Toisaalta MEDONA ei määrittele siirtopakettien rakennetta.  Vaikuttaakin siltä, että METS ja MEDONA:n pohjalta rakennettava uusi ISO-standardi voivat täydentää hyvin toisiaan.

MEDONA kehitettiin alun perin arkistoille, mutta sitä voidaan soveltaa myös kirjastoissa. Nykyisin käyttämämme OAI-PMH:n tai OAI-ORE:n kaltaiset standardit eivät toiminnallisesti vastaa MEDONA:a, muun muassa koska niistä puuttuu pitkäaikaissäilytyksen näkökulma. MEDONA:n lähin vastine on CCSCD:n (The Consultative Committee for Space Data Systems) kehittämä PAIS (Producer-Archive Interface Specification, http://public.ccsds.org/sites/cwe/rids/Lists/CCSDS%206511R1/Attachments/651x1r1.pdf). CCSDS on TC 20/SC 13:n “hovihankkija”, ja on mahdollista että myös PAIS päätyy ISO-standardiksi. SC 4:n on sen vuoksi tarpeen varmistaa selusta TC 20/SC 13:n suuntaan.

EPUB 3

KDK-hanke on määritellyt joukon tiedostoformaatteja pitkäaikaissäilytykseen soveltuviksi (http://kdk.fi/images/tiedostot/KDK-PAS-tiedostomuodot-v1.3.pdf). Teknisten meriittien ohella formaateista on arvioitu muillakin kriteereillä, joista keskeisiä ovat ohjelmisto- ja laitteistoriippumattomuus sekä se, onko tiedostomuoto avoin standardi.

KDK:n mukaan edellä mainitun PDF/A:n ohella pitkäaikaissäilytyskelpoinen on myös elektronisten kirjojen standardiformaatti EPUB. Sen versio 3 on myös tuore ISO-standardi (ISO/IEC TS 30135-1 – 30135-7). ISO:ssa EPUB-standardoinnista – eli käytännössä International Digital Publishing Forumin laatiman dokumentin ISO-standardointiprosessista – vastasi ISO/IEC JTC 1/SC 34 (Document description and processing languages), jonka ansiolistalla on muitakin keskeisiä dokumenttiformaatteja, kuten OOXML, ODF ja SGML.

JTC 1/SC 34:llä ei ole syvällistä PAS-osaamista. Sen vuoksi SC 34 ja TC 46/SC 4 ovat perustaneet yhteistyöryhmän, jonka tavoitteena on luoda EPUB 3:lle pitkäaikaissäilytykseen soveltuva METS-profiili. Tavoitteena on, että sen avulla EPUB-kirjat voidaan paketoida siten, että kokonaisuus on sellaisenaan valmis pitkäaikaissäilytettäväksi. Koska pitkäaikaissäilytysjärjestelmät yleensä odottavat saavansa aineiston METS-paketissa, tarvittavia ominaisuuksia ei kannata määritellä suoraan EPUB 3:een.

Ideaalitapauksessa kustantajat voisivat itse luoda EPUB 3 -–kirjoilleen tulevan määrityksen mukaiset METS-säiliöt. Käytännössä tämän vastuun siirtäminen kaupallisille kustantajille voi viedä paljon aikaa. Mutta esimerkiksi väitöskirjojen paketointi tähän tapaan voisi edetä nopeastikin, koska elektroniset väitöskirjat on kyettävä säilyttämään pitkään.

 

Kongressin kirjasto

Kongressin kirjasto vastaa monista kirjastojen (ja joissakin tapauksissa monien muidenkin tahojen) kannalta keskeisistä standardeista.  METS:iin ja PREMIS:iin on edellä jo viitattu, mutta lisäksi kirjasto ylläpitää teknisen metatiedon formaatteja, kuten still-kuvien MIX:iä (http://www.loc.gov/standards/mix/) ja tekstitiedostojen textMD:tä (http://www.loc.gov/standards/textMD/). Ne ovat tärkeitä esimerkiksi digitointihankkeissa, joissa on tarpeen dokumentoida esimerkiksi se, millaisella skannerilla ja skannerin säädöillä kuvat on tuotettu.

Koko kirjastoverkon kannalta tärkein Kongressin kirjaston hanke on kuitenkin BIBFRAME (Bibliographic Framework Initiative, http://www.loc.gov/bibframe/),), joka kehittää MARC 21 -formaatille seuraajaa.

Olisi mukava kertoa, että hanke etenee suunnitelmien mukaan. Mutta jos näin olisi tapahtunut, uusi formaatti olisi jo valmis. Projektin kotisivulla mainostetaan tätä kirjoitettaessa (marraskuussa 2014) uusina dokumentteja, jotka julkistettiin vuoden 2014 keväällä. ”MARC mapping” oli Internet Archiven varastoimien sivujen mukaan ”Coming soon” jo ainakin kesäkuussa 2014, ja niin se on edelleen. Satunnainen kävijä saa helposti sen käsityksen, ettei viimeisen puolen vuoden aikana ole tapahtunut mitään.

Näin huonosti asiat eivät ole, mutta edelleenkin on vaikea sanoa, miten paljon työtä on vielä tekemättä. Myönteisin merkki on se, että BIBFRAMEa testataan (ks. http://www.loc.gov/bibframe/implementation/index.html), mutta näistä demoista on vielä pitkä matka siihen, että uusi formaatti syrjäyttää edeltäjänsä tai on sille edes jollakin tavalla varteenotettava vaihtoehto.

MARC-formaatin seuraajan kehittäminen on vaikea projekti. Kaikki nykyinen metatieto pitäisi saada siirretyksi uuteen formaattiin, mutta samaan aikaan BIBFRAME:n on tuettava myös avointa linkitettyä dataa ja olla muutenkin kaikin tavoin Web-yhteensopiva. Kun uuden formaatin tavoitteena on

provide a foundation for the future of bibliographic description, both on the web, and in the broader networked world.

on odotettavissa haasteita, jotka Kongressin kirjasto ja muut hankkeessa mukana olevat toivon mukaan pystyvät ratkaisemaan. Sitä odotellessa…

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Sähköposti: juha.hakala[at]helsinki.fi

 

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.