URN:NBN ja muut toiminnalliset tunnistejärjestelmät

Hakala J (2018). URN:NBN ja muut toiminnalliset tunnistejärjestelmät. Tietolinja, 2018(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2018093036991

Kirja-ala ja kirjastot ovat käyttäneet standarditunnisteita jo yli 50 vuotta. International Standard Book Number eli ISBN (ISO 2108), julkaistiin 1970, mutta sitä edeltäneen Standard book numbering -tunnuksen kehitti irlantilainen tilastotieteen professori ja matemaatikko Gordon Foster jo 1966. SBN-tunnus oli vain yhdeksän merkin mittainen koska siinä ei ollut maa- tai kieliryhmätunnusta; kun se lisättiin, tuloksena oli perinteinen 10-merkkinen ISBN.

Kansainvälinen standardisointijärjestö ISO ylläpitää ja kehittää tätä kirjoitettaessa 12 kirja-alan tunnistejärjestelmää. Vastuutaho on vuonna 1987 perustettu Tekninen komitea 46:n (Information and documentation) Alakomitea 9 (Identification and description), ISO-slangilla ISO/TC 46/SC 9. Alakomiteassa on 28 P- eli äänestysoikeuden omaavaa jäsentä, mukaan lukien Suomi.

Ensimmäinen ISBN:n seuraaja oli 1975 julkaistu International Standard Serial Number, ISSN. Sitä ovat seuranneet mm. joukko teosten tunnistestandardeja ja kokoelmien International standard collection identifier, ISCI. Viimeisin komitean aikaansaannoksista on 2018 ilmestynyt niteiden standarditunniste, International library item identifier (ILII), joka kehitettiin Japanin aloitteesta.

Vaikka monet TC 46/SC 9:n standardeista ovat laajalti käytössä, joidenkin tulevaisuus on vaakalaudalla käytön vähäisyyden vuoksi. Suosittujen tunnusjärjestelmien ongelmana on niiden joko tahallinen tai esimerkiksi tietämättömyydestä johtuva virheellinen käyttö. Kansallisilla keskuksilla kuten Suomen ISBN-keskuksella on merkittävä rooli sen takaamisessa, että tunnusjärjestelmiä käytetään mahdollisimman laadukkaasti.

Kansalliskirjastojen NBN-tunnukset

Kaikki ISO:n standardoimat tunnistejärjestelmät ovat nuoria verrattuna kansalliskirjastojen kotitekoisiin tunnusjärjestelmiin, jotka tunnetaan yleisnimellä National Bibliography Number eli Kansallisbibliografian kontrollinumero, tuttavallisemmin NBN, josta on sittemmin rakennettu myös pysyvä toiminnallinen eli Internetissä linkkinä toimiva tunnus, URN:NBN.

Todennäköisesti vanhin NBN-numeroista on Kongressin kirjaston Library of Congress Control Number (LCCN) joka täyttää 2018 120 vuotta; sen käyttö alkoi 1898. Alun perin se oli Library of Congress Card Number, kirjaston korttiluettelon korttien tunnus. Hieman vastaava rooli sillä on vieläkin – LCCN-numeroiden avulla on jo 10 vuoden ajan muodostettu cool URI -linkkejä kirjaston näyttöluetteloin tietueisiin. Esimerkiksi linkistä https://lccn.loc.gov/49009278 saa Orwellin Vuonna 1984 –teoksen amerikkalaisen ensipainoksen tiedot.

NBN-tunnukset täyttävät standarditunnuksien jättämiä aukkoja. Niiden avulla kansalliskirjastot voivat identifioida pysyvästi vanhan aineiston sekä sellaisen uuden materiaalin, jolle ei voi antaa standarditunnusta. Sellaisiahan ovat esimerkiksi pienpainatteet tai artikkelit tai muut osakohteet, joitten identifioinnista on digitoinnin seurauksena tullut tärkeää.

Suomessa ISBN-jakelu alkoi 1972, joten kaikilla ennen vuotta 1972 ilmestyneillä suomalaisilla kirjoilla on vain NBN, ellei niistä ole otettu uusintapainoksia. Uusille kirjoille Suomessa annetaan NBN vain jos niillä ei ole kustantajan antamaa ISBN:ää tai mahdollisesti muuta standarditunnusta. Mutta esimerkiksi Saksassa jokainen kirja saa NBN-tunnuksen, koska Saksan kansalliskirjasto haluaa varmistaa sen, että jokaisella kirjalla on varmasti uniikki tunnus. ISBN-tunnuksiin ei luoteta, koska kustantajat tekevät virheitä niitä jakaessaan.

NBN toimi hienosti korttiluetteloiden ja vielä näyttöluetteloidenkin kaudella. Mutta elektronisten aineistojen ja Internetin myötä ei enää riittänyt, että NBN-tunnukset ovat uniikkeja kunkin kirjaston omassa järjestelmässä. Tunnusten pitää olla globaalisti ainutkertaisia, eikä esimerkiksi Kongressin kirjaston Orwellin mestariteokselle antama LCCN 49009278 täytä tätä ehtoa. Se on voitu antaa jossakin muussa kansalliskirjastossa jollekin toiselle kirjalle, tai ylipäätään jossakin jollekin – Internetissä kirjastojen soveltamat tunnukset ovat sulassa sovussa muiden käyttämien tunnusten kanssa.

Toinen vaikeus on se, että linkitetty data edellyttää toiminnallisia tunnuksia ja niihin perustuvia vakaita linkkejä. Kongressin kirjaston LCCN-pohjainen cool URI mahdollistaa hyperlinkin, joka toimii vuosia ja mahdollisesti vuosikymmeniä. Mutta todennäköisesti ei vuosisatoja, koska se on riippuvainen HTTPS-protokollan tarjoamasta toiminnallisuudesta ja sitä myötä verkkotekniikasta. Kansalliskirjastojen toiminnan aikajänteen ja Internet-tekniikoiden jatkuvan muutoksen yhteensovittaminen tarjoaa mielenkiintoisia haasteita tuleville kirjastonhoitajasukupolville.

Ratkaisu näihin ongelmiin oli periaatteessa yksinkertainen: tehdään NBN:stä toiminnallinen URN-tunnus. Tämä edellytti NBN-nimialueen rekisteröintiä URN-järjestelmään.

URN-järjestelmä

IETF standardoi Uniform Resource Name – eli URN-tunnuksen rakenteen vuonna 1997.  RFC 2141 (https://www.ietf.org/rfc/rfc2141.txt) määrittelee tunnuksen rakenteen seuraavasti:

<URN> ::= "urn:" <NID> ":" <NSS>

NID on namespace identifier eli nimialueen tunnus, ja NSS on namespace specific string eli varsinainen tunnus. Kun ISBN-tunnukselle on rekisteröity nimialueen tunnus ”ISBN”, ISBN-tunnukset voidaan esittää URN-tunnuksina muodossa urn:isbn:<isbn-tunnus> eli esim. URN:ISBN:978-951-51-4040-1.

Käytännössä URN-tunnukset esitetään yleensä toiminnallisina, eli yllä olevasta URN:stä tulee HTTP URI http://urn.fi/URN:ISBN:978-951-51-4040-1. Periaatteessa tunnukseen lisätty resolverin osoite on poistettavissa, kunhan Internetin nimipalveluun lisätään tieto siitä, mistä resolverit löytyvät. URN voidaan siis saada täysin teknologiariippumattomaksi, toisin kuin esimerkiksi Handle ja DOI. Niistä ei resolverin osoitteen – DOI:n tapauksessa se on nykyisin https://doi.org, aiemmin http://dx.doi.org – poistamisen jälkeen enää pysty päättelemään, onko kyseessä DOI vai jokin muu merkkijono. DOI on vain yksi monista merkeillä ”10.” alkavista ja kenoviivan sisältävistä merkkijonoista Internetissä.

URN:n erikoisuus ovat nimialueet, joita ei muilla toiminnallisilla tunnisteilla ole. Nimialueiden avulla varmistetaan, että perinteisten tunnistejärjestelmien soveltaminen jatkuu entiseen tapaan myös URN-sateenvarjon alla. URN-tunnuksen syntaksi on tarkoin määritelty, mutta ei ole mitään yleisiä sääntöjä siitä, mitä URN-tunnuksilla voi ylipäätään identifioida ja kuka niitä saa jakaa. Kaikki tämä ratkaistaan nimialuekohtaisesti – ISBN-tunnuksen nimialueella toimitaan ISBN-sääntöjen mukaan, ISSN-nimialueella ISSN-sääntöjen pohjalta, ja niin edelleen. URN-standardin mukaan tunnusten ei tarvitse edes olla toiminnallisia eikä niillä identifioitujen resurssien tarvitse olla pysyviä.

DOI-standardin mukaan sitä ei saa antaa aineistoille, joille on jo olemassa jokin toinen ISO:n standarditunnus kuten ISBN tai ISSN. Tästä huolimatta DOI-tunnuksia on annettu monografioille ja kausijulkaisuille. Muissa toiminnallisissa tunnistejärjestelmissä (persistent identifiers, PID) ei ole asetettu rajoja sille, mille aineistoille kyseisen tunnuksen voi antaa, ja DOInkin osalta standardin asettamat rajoitukset eivät ole käytännössä toimineet. Niitä voidaan kiertää esimerkiksi sanomalla että DOI ei identifioi itse kausijulkaisua vaan vain sen kotisivun, tai että kirjalle annettu DOI identifioi vain kirjan metatiedot. Mutta esimerkiksi useimmat kirjastojen käyttäjät voivat silti tulkita asian niin, että DOI on itse julkaisun tunnus.

Perinteisistä tunnusjärjestelmistä ensimmäisenä ehätti oman nimialueen rekisteröimään ISSN. RFC 3044 (https://tools.ietf.org/html/rfc3044) julkaistiin tammikuussa 2001. ISBN- ja NBN-nimialueiden rekisteröinnit julkistettiin lokakuussa 2001 RFC-julkaisuissa 3187 (https://tools.ietf.org/rfc/rfc3187.txt) ja 3188 (https://tools.ietf.org/html/rfc3188). Näitä nimialueita käytetään laajasti, ja ISSN:n osalta kansainvälisen ISSN-keskuksen tavoitteena on aloittaa URN:ISSN-tunnusten resolvointi lähitulevaisuudessa.

ISSN- ja ISBN-nimialuerekisteröinnit on päivitetty 2017 uudistetun URN-syntaksin (https://tools.ietf.org/rfc/rfc8141.txt) tasalle, NBN:n osalta prosessi on tätä kirjoitettaessa lähes valmis. Allekirjoittaneella on ollut ilo olla mukana sekä kaikkien näiden nimialueiden alkuperäisissä rekisteröinneissä että niiden uudistushankkeissa.

Kaikki URN-nimialuerekisteröinnit löytyvät osoitteesta https://www.iana.org/assignments/urn-namespaces/. URN-syntaksin päivityksen jälkeen uusia rekisteröintejä on tullut useita, mikä kertoo URN-järjestelmän olevan voimissaan. Kansalliskirjastojen ohella sitä käyttää laajasti esimerkiksi elokuvateollisuus, joka soveltaa useita URN-nimialueita eri tarkoituksiin, kuten itse elokuvien tai niitä kuvaavien metatietojen identifiointiin.

URN:NBN

Ajatus URN:NBN-nimialueen rekisteröimisestä keksittiin tapaamisessa Lundin yliopiston kirjaston NetLab-yksikön asiantuntijoiden kanssa. NetLab[1] oli uraauurtava kirjaston ja Lundin yliopiston tietojenkäsittelytieteen laitoksen yhteishanke. 1992 perustetun yksikön taustahahmot ja ensimmäiset työntekijät olivat Traugott Koch ja Anders Ardö; edellinen edusti kirjastoa, jälkimmäinen atk-asiantuntemusta. NetLab oli monin tavoin samankaltainen yksikkö kuin Bathin yliopistoon sijoitettu UKOLN, United Kingdom Office of Library Networking[2]. Ne perustettiin samana vuonna, kummallakin oli lyhyt loistokausi monine projekteineen, ja molemmat on lakkautettu.

Lähes 20 vuoden jälkeen en ole asiasta varma, mutta oletan, että URN:NBN-nimialueen rekisteröintiä ehdotti alun perin Traugott Koch, joka tätä kirjoittaessa viettää jo hyvin ansaittuja eläkepäiviä. Idean muuntaminen Internet-standardiksi jä kuitenkin minun vastuulleni. Ensimmäinen version rekisteröintidokumentista kirjoitin jo ruotsinlaivalla matkalla Lundista Helsinkiin, kun mielikuva toteutuksesta oli kirkkaana mielessä. Mitäpä sitä muutakaan ruotsinlaivalla iltaisin tekisi kuin kirjoittaisi standardia! Monipolvisen editoinnin jälkeen RFC 3188 saatiin julki lokakuussa 2001, ja URN:NBN-tunnusten generointi saattoi alkaa. Vajaan 20 vuoden aikana niitä on luotu vähintään kymmeniä miljoonia.

NBN-nimialuerekisteröinnin piti taata tunnuksen globaali ainutkertaisuus. Periaatteessa tämän on helppoa, koska URN:NBN-nimialuetta hallinnoivat kansalliskirjastot. Tunnisteavaruuden jako kirjastojen kesken toteutettiin lisäämällä alkuperäiseen NBN-tunnukseen maakoodi (ja jos maassa on useita kansalliskirjastoja, maakoodiin pitää vielä lisätä kirjaston koodi). Jokaisella kansalliskirjastolla on oma ”tonttinsa”, jonka ne voivat edelleen jakaa pienempiin osiin haluamallaan tavalla. Tämä mahdollistaa kansallisen tason URN:NBN-yhteistyön muiden organisaatioiden kanssa. Esimerkiksi Suomen Kansalliskirjastolla on useita yhteistyökumppaneita, jotka hyödyntävät kirjaston tarjoamaa URN-palvelua.

Suomen Kansalliskirjasto on luonut vuosien mittaan miljoonia URN:NBN-tunnuksia aineistoilleen. Esimerkkeinä käytetyistä nimiavaruuksista mainittakoon Elektra-palvelun urn:nbn:fi:ELE- (esim. http://urn.fi/URN:NBN:fi:ELE-2482579), digitoitujen aineistojen urn:nbn:fi:fd (esim. http://urn.fi/URN:NBN:fi-fd2016-00010039) ja yhteisöauktoriteettien urn:nbn:fi:au:cn: (esim. http://urn.fi/URN:NBN:fi:au:cn:63141A).

Suomen lisäksi URN:NBN-tunnuksia käyttävät useat muutkin eurooppalaiset kansalliskirjastot. Esimerkiksi Ruotsin ja Saksan käytänteistä saa lisätietoa osoitteissa https://www.kb.se/om-oss/identifikatorer-och-utgivning/urnnbn.html ja  http://www.dnb.de/EN/urnservice. Nimialuerekisteröinnin uudistamisessa on otettu huomioon sekä URN:NBN-tunnuksen tähänastinen käyttö että kehittämistarpeet. Niiden vaikutuksesta esimerkiksi tunnuksen soveltamisalan kuvausta nimialuerekisteröinnissä on laajennettu merkittävästi.

Uusi rekisteröinti on tätä kirjoitettaessa (elokuu 2018) käytännössä valmis, ja sen muutamia viikkoja kestävä toimituksellinen tarkistus on alkanut. Tekstin luonnoksen voi noutaa osoitteesta https://datatracker.ietf.org/doc/draft-hakala-urn-nbn-rfc3188bis/. Tältä sivulta pääsee aikanaan myös valmiiseen määritykseen. Toisin kuin muut uusimuotoiset nimialuerekisteröinnit, URN:NBN-rekisteröinti julkistetaan edelleen Internet-standardina eli niin sanottuna RFC:nä sen vuoksi, että se on ainoa virallinen NBN-tunnuskokonaisuuden kuvaus. Toistaiseksi ei ole mitään suunnitelmia NBN-järjestelmien standardoimiseksi.

URN:NBN-nimialue oli aluksi teoriassa sidottu kansallisbibliografiaan ja aineistoihin, joilla ei ole muuta standarditunnusta, mutta käytännössä tästä rajauksesta ei ole enää aikoihin pidetty kiinni. Uusi nimialuerekisteröinti sallii periaatteessa minkä tahansa hallinnoidun tunnusjakelun kansalliskirjaston tai sen yhteistyökumppaneiden kokoelmille ja / tai niihin liittyville aineistoille, kuten bibliografisille tai auktoriteettitietueille.

Muista kansalliskirjastojen käyttämistä pysyvistä tunnuksista

Conference of European National Librarians (CENL) teki 2000-luvun alussa periaatepäätöksen URN-tunnusten soveltamisesta. Tämä linjaus jäi kuolleeksi kirjaimeksi – eurooppalaiset kansalliskirjastot käyttävät kaikkia olemassa olevia PID-tunnisteita. Yhteistä linjausta ei siis ole, eikä myöskään yhteisiä kehittämis- ja koordinointimahdollisuuksia. Itse tunnistejakelun kannalta mikä tahansa hyvin hallinnoitu ja ylläpidetty tunnistejärjestelmä on hyväksyttävä, mutta PID-tunnisteet eivät ole tässä suhteessa tasavertaisia.

Euroopan suurista kansalliskirjastoista Ranskan ja Iso-Britannian kansalliskirjastot ovat valinneet tunnistejärjestelmäkseen John Kunzen kehittämän Archival Resource Key eli ARK-tunnuksen. Erityisesti Ranskassa sen käyttö on Bibliothèque nationale de Francen esimerkin innoittamana yleistynyt (ks. http://www.bnf.fr/en/faq_ark_en/a.faq_ark_en.html). BnF soveltaa ARK-tunnuksia muun muassa dokumenttien ja niiden metatietojen identifiointiin (katso esim. http://catalogue.bnf.fr/ark:/12148/cb31009475p ja https://gallica.bnf.fr/ark:/12148/bpt6k107371t. British Libraryn tunnistepolitiikka on monimuotoisempi, DataCiten jäsenenä kirjasto käyttää ARKin lisäksi myös DOI-tunnisteita, ja EU:n FREYA-hankkeessa (https://www.project-freya.eu/en) sen vastuulla on pysyvien tunnisteiden käytön edistäminen yleensä.

ARK-järjestelmän standardointi IETF:ssä on jäissä. Ensimmäinen ARK-järjestelmän kuvaava Internet draft laadittiin jo 2001. Viimeisin versio, joka on jo yhdeksästoista, on vuodelta 2013[3].  Sitä arvioidessa on muistettava, että Internet drafteja voi kirjoittaa kuka tahansa mistä tahansa aiheesta. Ne eivät ole Internet-standardeja eikä niistä aina sellaisia myöskään tule. Näin tulee todennäköisesti käymään myös ARK-määritykselle, koska useimmat standardeiksi hyväksyttävät valmistelee IETF:n nimeämä työryhmä. Ulkopuolisten yksityishenkilöiden laatimista määrityksistä tulee IETF:n standardeja yleensä vain silloin, kun teksti laaditaan ns. tilaustyönä. Toisaalta IETF ei yleensä hyväksy päällekkäisiä standardeja, eli URN:n rinnalle tuskin standardoidaan enää muita pysyviä tunnisteita.

Taustan lisäksi ARKin standardointia hankaloittaa myös sisältö. ARK-määritys on lukuisista päivityksistä huolimatta teknisesti vanhentunut, sillä se ei kata kaikkia URI Generic Syntax (RFC 3986, https://www.ietf.org/rfc/rfc3986.txt) –määrityksen ominaisuuksia, ja käyttää URI queryä sangen omintakeisesti. Siksi IETF tuskin julkaisisi ARK-määritystä nykymuodossaan edes Handlen tapaan Informational–statuksella eli IETF:n RFC-julkaisuna, joka ei ole standardi.

ARKin onneksi tunnistejärjestelmiä valittaessa standardoinnin aste ei ole ollut keskeinen kriteeri. ARK-järjestelmän vahvuus on tekninen toimivuus ja valmis resolveriohjelmisto. Sama etu on DOI- ja Handle-tunnuksilla, jotka käyttävät samaa teknistä infrastruktuuria. Mutta toisin kuin DOI:lla, Handle-järjestelmällä ei ole keskitettyä hallinnointia. Siksi kukaan ei tiedä Handle-käyttäjien tai Handle-tunnusten määrää. Toinen merkittävä ero on se, että DOI on ISO-standardi, Handlen standardiperustan koostuessa Informational RFC –julkaisuista RFC 3650-3652, joihin lisätyssä Internet Engineering Steering Groupin huomautuksessa sanotaan seuraavaa:

Several groups within the IETF and IRTF have discussed the Handle System and its relationship to existing systems of identifiers.  The IESG wishes to point out that these discussions have not resulted in IETF consensus on the described Handle System, nor on how it might fit into the IETF architecture for identifiers[4].

Vain vähän liioitellen voi sanoa, että IETF julkaisi Handle-määritykset ”nenäänsä pidellen”, kuuden vuoden yrittämisen ja 12 luonnosversion jälkeen. Ongelma oli periaatteellinen: Handle nähtiin, ja sitä markkinoitiin kehittäjiensä taholta, korvaajana Internetin nimipalvelulle. Handlen käyttäjäkuntaan tämän taustan ei tietenkään tarvitse vaikuttaa millään tavoin.

Handlen käyttöä on edistänyt se, että se on rakennettu sisään moniin sovelluksiin. Esimerkiksi yliopistoissa laajasti käytetty DSpace-ohjelmisto mahdollistaa Handlen käytön järjestelmän sisäisenä tunnuksena. Tosin DSpacen käyttöliittymän  Handle-tunnuksia muistuttavat kirjain- ja numerorimssut ovat oikeita, uniikkeja, resolvoituvia Handleja vain, jos arkiston ylläpitäjä on rekisteröinyt itselleen oman Handle-prefiksin ja huolehtii siitä, että tarvittavat tiedot toimitetaan keskitetylle Handle-resolverille (hdl.handle.net). Suomessa ainoa Handlea käyttävä DSpace-julkaisuarkiston ylläpitäjä lienee tällä hetkellä Helsingin yliopiston kirjasto. Kansalliskirjasto hankki aikanaan Doria-palvelulleen oman Handle-prefiksin, mutta tätä nykyä sovellamme vain URN-tunnuksia, jotka olivat alun perinkin kaikkien Doria-aineistojen ensisijaisia tunnisteita, Handlen toimiessa vain DSpacen sisäisenä tunnisteena.

DOI-tunnusta sovelletaan laajasti muun muassa tieteellisten julkaisujen ja tutkimusdatan identifioinnissa. Keskitetyn hallinnon ja resolverisovelluksen lisäksi sen vahvuutena ovat DOI-pohjaiset palvelut, joilla on yhä keskeisempi rooli monissa tieteellisen julkaisemisen infrastruktuureissa. DOI-yhteisön haasteena on se, että palvelujen kehittäminen voi edellyttää itse tunnusstandardiin kajoamista. Esimerkiksi Saksan tekninen kansalliskirjasto (Technische Informationsbibliothek) soveltaa URI-fragmentteja videotallenteiden identifioinnissa mahdollistaakseen DOI-pohjaisella linkillä suoran pääsyn tiettyyn kohtaan tai jaksoon tallenteessa. Teknisesti tämä on ongelmatonta – WWW-selaimet eivät edes lähetä URI-fragmenttia palvelimelle – mutta DOI-standardi ei salli URI-fragmentin käyttöä. Tämän takia saksalaisten DOI Handbookiin lisäämä osuus URI-fragmenttien soveltamisesta poistettiin oppaasta.

URN-tunnukseen URI-fragmentin voi uuden URN-syntaksin mukaan lisätä, mutta toisin kuin RFC 3986 linjaa, URN-tunnuksissa fragmentti (ja query) eivät identifioi mitään. Sen vuoksi niistä käytetään URN-yhteydessä nimitystä f-koodi ja q-koodi.

Handle- ja DOI-järjestelmien sovellettavuutta parantaa se, että Handle servicen avulla yksittäinen PID-tunnus voidaan linkittää useisiin URL-osoitteisiin, eli esimerkiksi identifioituun dokumenttiin tai sen kuvailu- ja sijaintitietoihin. Toistaiseksi DOI:n ja Handlenkin avulla tarjotaan vain linkitystä tunnisteesta identifioidun objektin kannalta relevantteihin osoitteisiin.

DOI-järjestelmän ISO-standardointia vastustettiin aikanaan siksi, että sen käytön pelättiin laajenevan perinteisten tunnistejärjestelmien tonteille. Merkkejä tästä on jo nähtävillä – DOI-tunnuksia annetaan sekä kirjoille että kausijulkaisuille. Muodollisesti voi olla kyse kausijulkaisun tai kirjan metatietojen tunnuksesta, mutta käytännössä tilanne on sama kuin jos julkaisulle itselleen olisi annettu DOI. Jos elektronisella kirjalla on sekä ISBN että DOI, jälkimmäinen on ”vahvoilla” sen vuoksi, että hyperlinkki kirjaan muodostetaan DOI:n eikä ISBN:n avulla. ISBN-standardiin sisältyvä ISBN-A eli ”actionable ISBN” on ISBN:stä muodostettu DOI[5], mutta sen menekkin on jäänyt vähäiseksi. Kustantajille on helpompaa luoda kirjalle kokonaan uusi DOI-tunnus.

Portugalin kansalliskirjasto soveltaa kenties ainoana eurooppalaisena kansalliskirjastona OCLC:n kehittämää Persistent URL (PURL) -tunnusta, jonka ylläpitäjä on nykyisin Internet Archive. Yhdysvalloissa PURL-tunnuksia on käytetty vuodesta 1998 ja niitä on luotu satoja tuhansia. Ne ovat olleet jatkuvasti toiminnallisia, mutta PURL-järjestelmän hallintaliittymä oli vuonna 2016 useita kuukausia epäkunnossa. Palvelu päivitettiin toimintakuntoiseksi samalla kun Internet Archive otti PURL-vastuun virallisesti kantaakseen syyskuussa 2016[6]. Toivottavasti tämä vastuun siirto takaa PURL-järjestelmän tulevaisuuden toivottavasti pitkäksi aikaa. Kaikista laajasti käytetyistä PID-tunnisteista PURLilla lienee kuitenkin edelleen huterin hallinnollinen asema.

Jokainen PID-resolveri ja muut resoluutiossa tarvittavat ohjelmistot on pidettävä teknisesti ajan tasalla, ja niitä käyttävillä organisaatioilla on oltava tähän tarvittavat resurssit ja osaaminen, ellei sovelleta yhteistä ohjelmistoa. Jos sovelletaan, siihen on perehdyttävä riittävän hyvin palvelun laadun takaamiseksi.

Yksittäiset PID-tunnukset eivät pysy toiminnallisina ellei niitä hallinnoida, ja sama pätee myös PID-tunnistejärjestelmiin. Niiden standardien ja muun dokumentaation ajantasaisuus tulisi tarkistaa säännöllisesti. Tässä suhteessa oikeastaan vain URN saa puhtaat paperit. Esimerkiksi Handlen määrittelydokumentit ovat 2000-luvun alusta, ja niiden merkkivalikoimia koskevat linjaukset ovat vanhentuneita ja osin virheellisiä tai ainakin arveluttavia.

PID-tunnistejärjestelmien luotettavuuden arviointiin ei ole yhteisesti sovittua menetelmää, mutta esimerkiksi ylläpito-organisaation vahvuus ja sitoutuneisuus, standardoinnin aste ja tunnistejärjestelmän käyttäjien määrä ovat mahdollisia mittareita. Niiden nojalla esimerkiksi DOI ja URN, jotka ovat standardoituja ja laajasti hyödynnettyjä järjestelmiä, ovat vahvoilla. DOI:n erityisetuja ovat vahva ylläpito-organisaatio ja keskitetysti ylläpidetty resolverisovellus sen varaan rakennettuine palveluineen. URN on maksuton, teknisesti ajan tasalla ja sallii perinteisten tunnusjärjestelmien soveltamisen ilman muutoksia tunnuksen rakenteeseen tai käyttöehtoihin.  URN-tunnuksen merkittävin ongelma on keskitetysti ylläpidetyn resolverisovelluksen puuttuminen.

Cool URIt ja PID-tunnukset

Cool URI on tunnisteeksi tarkoitettu URL, joka ei saisi kärsiä linkkimädästä (HTTP 404-virhe) eikä sisältönyrjähdyksestä, jolloin linkin takaa löytyvä dokumentti on jotain ihan muuta kuin pitäisi. Cool URI -tunnukset näyttävät samalta kuin ne URIt, joita ei ole tarkoitettukaan cooleiksi, ja niitähän lienee valtaosa kaikista URL-osoitteista.

Cool URIt ja PID-tunnistejärjestelmät erottaa se, että jälkimmäiset tarvitsevat erillisen ohjelman (resoluutiopalvelimen eli resolverin), joka tehtävänä on tuottaa PID-tunnukseen liittyviä palveluita. Resolveri voi esimerkiksi linkittää PID-tunnuksen yhteen tai useampaan URL-osoitteeseen tai tarjota vaikkapa identifioitun aineistoon liittyviä käyttöoikeus- tai muita metatietoja. Palvelutarjonta perustuu resolverin sisältämiin metatietoihin. Resolverin tarjoamat linkit eivät välttämättä kerro halutun resurssin sijaintia verkossa – resoluutiossa saatu URL voidaan uudelleenohjata resurssin uuteen verkko-osoitteeseen. Resoluutiopalvelimet eivät siis ole verkon HTTP-protokollan korvike tai kilpailija.

PID-tunnusten edellyttämä resoluutio voidaan nähdä joko tarpeettomana lisävaivana tai keinona tarjota identifioituihin resursseihin liittyviä palveluja ja varmistaa, että linkit toimivat vielä vuosikymmenien tai vuosisatojenkin kuluttua. PID-tunnistejärjestelmiä käyttävät ensi sijassa tahot joille aineistojen pitkäaikainen säilyttäminen on tärkeää ja joilla on siitä kokemusta. Tällaisia ovat esimerkiksi tieteelliset kustantajat, kansalliskirjastot ja kansallisarkistot. Cool URI –lähestymistapaa ajavat tyypillisesti esimerkiksi henkilöt, joilla on tietotekninen tausta. Joissakin kirjastoissa he ovat tehneet kuvailuun vaikuttavia tunnistelinjauksia konsultoimatta kirjastoammatillista henkilökuntaa. On myös kirjastoja, joissa eri osastot ovat päätyneet erilaisiin ratkaisuihin, minkä vuoksi kirjaston on ylläpidettävä esimerkiksi cool URI -tunnuksiin sekä yhteen tai useampaan PID-tunnistejärjestelmään liittyviä ohjelmistoja ja osaamista.

On ymmärrettävää, että cool URI -tunnuksien käyttö houkuttelee. Niiden soveltaminen on helppoa, koska mitään erillistä resoluutiopalvelua, sopimuksia tunnuksen soveltamisesta tai käyttömaksuja ei tarvita, ja hallinnointi on suoraviivaista, jos palvelimet ovat kirjaston omia. Ja vaikka cool URI:t määrittelevä standardi URI Generic Syntax (RFC 3986, https://www.ietf.org/rfc/rfc3986.txt) on epämääräinen tunnisteiden jakelun ohjenuoraksi, organisaatio voi halutessaan luoda oman cool URI -jakelupolitiikan.

Ilman säätelyä RFC 3986 on tunnistejärjestelmäksi liian liberaali, koska URI-tunnuksia voi antaa kuka tahansa koska tahansa mille tahansa, ilman kontrollia. Pitkään ISO:n tunnistestandardien kehittämiseen osallistuneena olen varma, ettei komitea hyväksyisi URI Generic Syntax -määritystä ISO-standardiksi, muun muassa koska cool URI:t eivät ole ainutkertaisia eivätkä pysyviä. Ne eivät toisin sanoen täytä kunnon tunnisteelle asetettavia perusvaatimuksia. Jos dokumentista on verkossa 10 kopiota eri osoitteissa, sillä on myös 10 tasa-arvoista tunnistetta. Vanhan URIn uudelleenohjautuessa uusi URI on resurssin tunniste siinä missä alkuperäinenkin.  Kun tietyllä URI-tunnuksella löytyvä dokumentti muuttuu, URI identifioi uuden dokumentin kuten edeltäjänsäkin.

IETF erotti alun perin URL-sijainnin ja URN-tunnisteen toisistaan, ja määritteli URN:n toiminnalliset vaatimukset RFC 1737:ssa[7]. URN-tunnusten tuli olla pysyviä ja teknologiariippumattomia, URL-osoitteiden ei tarvinnut olla kumpaakaan. URI hämärtää URL-osoitteiden ja URN-tunnusten välisen eron väittämällä, että verkossa URL-osoite ei itse asiassa ole osoite, vaan (pysyvä) tunnus, joka voidaan uudelleenohjata kulloiseenkin osoitteeseen. Tämä linjaus loi joukon ongelmia, joiden kanssa painiskeltiin esimerkiksi URN-standardia uudistettaessa. On sanottu, oikein tai väärin, ettei IETF olisi koskaan hyväksynyt URI-standardia, ellei sen tekijä olisi ollut Tim Berners-Lee. Hän nimittäin olisi IETF:ltä pakit saatuaan standardoinut URI:n W3C:ssä, missä hänelle ei olisi sanottu ei.

RFC 3986 sallii myös kelvottomia tunnuksia. Esimerkiksi henkilöt voidaan sen mukaan identifioida sähköpostiosoitteen tai puhelinnumeron avulla. Käytännössä näin ei koskaan tehdä, vaan henkilöiden ja heidän julkisten identiteettiensä tunnistamiseen käytetään henkilötunnuksia tai esimerkiksi ISNI- ja ORCID-tunnuksia. Niistä tosin voidaan rakentaa cool URI:t, mutta ei ainakaan toistaiseksi PID-tunnuksia. Tim Berners-Leen ohje on ”Go ahead and give yourself a URI. You deserve it”![8], mutta esimerkiksi FOAF-määritys[9] ei mahdollista URI:n tallentamista henkilölle.

RFC 3986 ei määrittele URI-osoitteiden suunnittelun periaatteita ”cooliuden” kannalta huonojen ratkaisujen välttämiseksi. Jos RFC 3986 olisi selkeä standardi, näitä ohjeita ei edes tarvittaisi. Mutta koska se ei ole, URI-tunnuksiin liittyvää ohjeistusta on annettu jo Tim Berners-Leen Cool URIs don’t change –artikkelista[10] lähtien.

Berners-Lee väittää, että URI-osoitteet voivat säilyä yhtä kauan kuin ne antanut organisaatio, kunhan Webmaster suunnittelee osoitteiden rakenteen huolellisesti. Mutta URI-osoitteita ei aina voida määritellä ja antaa paikallisesti. Maallikkokin ymmärtää, että esimerkiksi Uuden Seelannin kansallisbibliografiassa olevan tietueen URI

http://natlib-primo.hosted.exlibrisgroup.com/NLNZ:NLNZ:NLNZ_ALMA11286268380002836

ei liene Uuden Seelannin kansalliskirjaston antama eikä erityisen cool, vaikka kansallisbibliografiatietueeseen johtavien linkkien pitäisi olla sellaisia. Kun Uudessa Seelannissa siirrytään Almasta seuraavaan kirjastojärjestelmään, yllä oleva URI lakannee toimimasta. Näin käynee ainakin silloin, kun ohjelmistotoimittaja vaihtuu. Onko syy linkin toimimattomuuteen silloin vanhan järjestelmätoimittajan, joka on tämän pilvipalvelussa olevaan tietokantaan vievän syvälinkin luonut, vaiko kirjaston itsensä? Kirjastohan olisi voinut vaatia tietueisiinsa esimerkiksi NBN-tunnuksiin perustuvaa linkkejä a’la Kongressin kirjasto. Kysymykseen vastaaminen edellyttäisi sen tietämistä, onko Almassa mahdollista käyttää linkkeinä kirjaston itsensä määrittelemiä URI-tunnuksia.

Cool URIen pitkäikäisyyden kannalta keskeinen ongelma on, että Internetin domain-nimiä ei voi omistaa, vaan vain vuokrata määräajaksi joltakin palveluntarjoajalta. Kun toimija – esimerkiksi projekti – lopettaa toimintansa, sen vanhalle domainille voi vuokra-ajan päätyttyä tulla uusi omistaja, joka ei pysty eikä yleensä edes halua uudelleenohjata vanhoja osoitteita verkkoarkistoon tai muuhun paikkaan, josta edesmenneen domainin aineistot voisivat löytyä.  Tuloksena on 100-prosenttinen linkkimätä – osa domainin vanhoista URI-osoitteista toimii edelleen, mutta sisältö on aivan muuta kuin ennen. Monet suuretkin viime vuosikymmenen EU-hankkeet ja muut projektit ovat päätyneet tähän tilaan, ja näin on käynyt myös omalle KDK-projektillemme. Sen kotisivun asemesta osoitteessa http://www.kdk2011.fi/ on vedonlyöntisivu.

Organisaatioiden yhdistymiset ja nimien muutokset aiheuttavat toisenlaisia vaikeuksia. Esimerkiksi TKK:n kirjastoa kuvanneessa vanhassa artikkelissa voi olla linkki kirjaston silloiselle kotisivulle. Tätä lukiessa se uudelleenohjautuu TKK:n kirjaston manttelinperijän eli Aalto-yliopiston Oppimiskeskuksen kotisivulle, mikä on ongelma, jos asiakas olisi halunnut vanhan TKK:n kirjaston kotisivun. Mutta jos uudelleenohjausta ei ole, uusi kotisivu on haettava 404-virheen jälkeen esimerkiksi Googlen avulla. Sitä käyttäen löytyy helposti Kansallisen digitaalisen kirjaston hankkeen uusi kotisivu (http://www.kdk.fi/fi/), mutta palvelimelta puuttuu tieto siitä, että pitkäaikaissäilytykseen liittyvät määritykset löytyvät nyt hankkeen päättymisen jälkeen osoitteesta http://www.digitalpreservation.fi/specifications. Domainin vaihdos on muuttanut näiden dokumenttien cool URI –tunnisteet, jotka eivät siis olleet kovinkaan cooleja.

Cool URI:t ja PID-tunnistejärjestelmät pyrkivät ratkaisemaan saman ongelman, dokumenttien identifioinnin ja luotettavan linkityksen tietoverkoissa, mahdollisimman tehokkaasti. Muistiorganisaatioiden näkökulmasta sekä URIen pitkäikäisyydestä saatujen käytännön kokemusten valossa vaikuttaa siltä, että cool URI:t ovat riittämätön ratkaisu silloin, kun aineistojen pitää säilyä käytettävissä vuosikymmeniä tai pidempään, ja kun aineistomäärät ovat suuria.

Yksittäisellä palvelimella osoitteet voidaan varsin pitkään pitää muuttumattomina, jos domainin omistus ei muutu. Koko verkon tasolla URL-osoitteiden keskimääräinen elinkaari on kuitenkin kovin lyhyt. Tavalliselle käyttäjälle tämä on satunnainen kiusa, mutta semanttiselle Webille jo merkittävä haaste. Ja tieteellisille viittauskäytännöille julkaisujen lähteenä käytettyjen elektronisten aineistojen osoitteiden epäluotettavuus on vakava ongelma, johon on kehitettävä ratkaisuja paitsi pysyvien tunnisteiden, myös esimerkiksi verkkoarkistojen avulla.

Lähdeviitteet

[1] http://www.ariadne.ac.uk/issue32/netlab-conference

[2] http://www.ukoln.ac.uk/

[3] https://tools.ietf.org/html/draft-kunze-ark-18

[4] https://www.ietf.org/rfc/rfc3650.txt

[5] https://www.doi.org/factsheets/ISBN-A.html

[6] https://blog.archive.org/2016/09/27/persistent-url-service-purl-org-now-run-by-the-internet-archive/

[7] https://www.ietf.org/rfc/rfc1737.txt

[8] https://www.w3.org/TR/cooluris/

[9] http://xmlns.com/foaf/spec/

[10] https://www.w3.org/Provider/Style/URI

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4) 00014 Helsingin yliopisto
sähköposti: juha.hakala [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.