Tukevasti kasvu-uralla : Kansalliskirjaston julkaisuarkistopalvelut vuonna 2012

Jyrki Ilva
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://www.urn.fi/URN:NBN:fi-fe201206055754

 

Kansalliskirjasto on tarjonnut avoimen lähdekoodin DSpace-ohjelmistoon perustuvia julkaisuarkistopalveluita vuodesta 2006 lähtien. Palveluiden asiakasmäärä on kasvanut vähitellen, ja tällä hetkellä asiakasorganisaatioita on jo 37. Kasvu tuo kuitenkin mukanaan myös haasteita.

Digitaalisten objektien hallintaa DSpace-ohjelmistolla

Kansalliskirjaston julkaisuarkistopalvelujen juuret yltävät miltei kymmenen vuoden taakse. Vuonna 2003 esitellyssä triangelimallissa yksi kirjastojen tietojärjestelmille kaavailtua kokonaisarkkitehtuuria kuvanneen kolmion kulmista oli digitaalisten objektien hallintajärjestelmä eli DOMS (ks. DOMS : digitaalisten aineistojen hallinta yliopistokirjastoissa, Tietolinja 2/2003). Kului muutama vuosi, kunnes yrityksen ja erehdyksen kautta edenneessä DOMS-projektissa päädyttiin avoimeen lähdekoodiin perustuvan DSpace-ohjelmiston käyttöönottoon. Vaikka tässä vaiheessa puhuttiin jo julkaisuarkistoista, DOMS:ille kaavaillut tehtävät periytyivät kuitenkin myös tälle uudelle järjestelmälle: julkaisuarkistojen ydintehtäväksi ajatellun tieteellisten julkaisujen tallentamisen lisäksi järjestelmään oli alusta lähtien tarkoitus tallentaa monenlaisia muitakin aineistoja.

Kuusi vuotta sitten käynnistyneen DSpace-projektin tavoitteena oli alusta lähtien digitaalisten aineistojen hallintaan soveltuvan järjestelmän rakentaminen koko kirjastoverkolle (ks. Kansalliskirjaston DSpace-projekti etenee, Tietolinja 2/2006). Kansalliskirjaston asiakasorganisaatioille tarjoama palvelumalli perustui jo tuolloin työnjakoon, jossa Kansalliskirjasto vastaa palvelun teknisestä ylläpidosta ja kukin organisaatio vastaa omista kokoelmistaan ja aineistoistaan. Tältä osin julkaisuarkistopalveluiden konseptissa ei ole tapahtunut muutoksia.

Ihan kaikki asiat eivät kuitenkaan ole menneet alkuperäisen suunnitelman ennakoimalla tavalla. Vielä DSpace-pohjaista Doria-palvelua suunniteltaessa oletuksena oli, että kaikki aineistot kannattaa pääsääntöisesti keskittää yhteen suureen DSpace-instanssiin. Tältä osin kehitys on viime aikoina lähtenyt etenemään toiseen suuntaan, useista eri syistä johtuen.

Suunnanmuutokseen ovat tietysti suurelta osin vaikuttaneet asiakasorganisaatioiden toiveet, mutta sen ajoituksen taustalla on ollut myös teknisiin ratkaisuihin liittyviä syitä. Uusien DSpace-instanssien rakentaminen ja ylläpito on näet helpottunut oleellisesti Kansalliskirjaston vuonna 2010 käyttöönottaman uuden palvelininfrastruktuurin ja DSpace-koodin ylläpidossa hyödynnetyn SVN-versionhallinnan ansiosta. DSpace-instansseja varten voidaan nykyään luoda vaivattomasti ominaisuuksiltaan standardoituja virtuaalipalvelimia, ja niiden koodia voidaan hallita keskitetysti, mikä vähentää rinnakkaisten instanssien ylläpidon aiheuttamaa työmäärää.

Kansalliskirjaston ylläpitämien palveluiden lisäksi Suomessa on myös puolen tusinaa yliopistojen itsenäisesti kehittämää julkaisuarkistopalvelua (ks. Julkaisuarkistojen infrastruktuuri -hankkeen loppuraportti, 13.5.2011). Vaikka avoimen lähdekoodin ohjelmistot ovat kirjastojärjestelmien ja tiedonhakukäyttöliittymien puolella lyömässä itseään läpi vasta nyt, julkaisuarkistopalveluissa niillä on ollut vankka valta-asema jo pitkään. Suomessa DSpace on ollut selkeästi yleisin valinta: Oulun yliopisto otti tosin viime vuonna käyttöön Fedora-pohjaisen julkaisuarkiston, jonka käyttöliittymä on toteutettu VUFindilla (http://jultika.oulu.fi), mutta muuten kaikki viime vuosikymmenen puolivälin jälkeen avatut uudet julkaisuarkistot ovat perustuneet nimenomaan DSpace-ohjelmistoon.

Theseus kasvaa kohisten

Suomalaisten julkaisuarkistojen näyttävin menestystarina on tällä hetkellä ammattikorkeakoulujen yhteinen Theseus-julkaisuarkisto (http://publications.theseus.fi), jonka omistaja on Ammattikoulujen rehtorien neuvosto (ARENE) ja jonka teknisestä toteutuksesta on vastannut Kansalliskirjasto. Vapaassa käytössä olevien kokotekstijulkaisujen määrällä mitattuna Theseus on nyt selkeästi Suomen suurin julkaisuarkisto.

theseus

Theseuksen suunnittelu alkoi vuonna 2008 (ks. Theseus – ammattikorkeakoulujen yhteinen julkaisuarkisto, Tietolinja 2/2008), ja se saatiin tuotantokäyttöön kaikissa ammattikorkeakouluissa vuoden 2010 loppuun mennessä. Tämän jälkeen palvelu on kasvanut hyvin nopeasti, ja kesäkuun alussa 2012 siihen oli tallennettu jo yli 42.000 kokotekstijulkaisua, joista ylivoimainen enemmistö oli opinnäytteitä. Käytännössä palvelu onkin muutamassa vuodessa mullistanut amk-opinnäytteiden käsittelyn ja tuonut tämän aiemmin hyvin rajatussa käytössä olleen aineiston laajan yleisön saataville.

Kansalliskirjasto vastaa palvelun teknisestä ylläpidosta ja kehittämisestä, mutta valtaosa työstä tehdään kuitenkin paikallisesti ammattikorkeakouluissa: kaikkiaan prosessissa on mukana yli 200 virkailijaa ammattikorkeakoulujen kirjastoista ja opintohallinnosta. Eri ammattikorkeakouluista on koottu pieni ”Theseus-rukkaseksi” kutsuttu ryhmä, joka huolehtii mm. toiminnan ohjeistamisesta koko palvelun tasolla, asiakaspalautteeseen vastaamisesta ja juoksevien käytännön asioiden hoitamisesta. Theseukselle on ominaista se, että kaikki ammattikorkeakoulut käyttävät tietojen tallennukseen samanlaisia prosesseja ja työkaluja, ja organisaatiokohtaisen räätälöinnin määrä on muutenkin pyritty pitämään minimissä. Niinpä 25 organisaation yhteisen palvelun tekninen ylläpito on mahdollista suhteellisen vähäisillä resursseilla.

Opinnäytteiden tallennuksesta Theseukseen huolehtivat opiskelijat. Opinnäytteiden tallentaminen keskittyy hyvin voimakkaasti sesonkiaikoihin lukukausien lopussa: esim. toukokuussa 2012 Theseukseen tallennettiin enimmillään lähes 300 työtä päivässä. Tällaisen julkaisumäärän käsittely aiheuttaa luonnollisesti runsaasti työtä virkailijoille, ja erilaisia ongelmiakin tulee ylläpidon ratkaistavaksi aika ajoin. Palvelun suureen volyymiin nähden näitä ongelmatapauksia on kuitenkin ollut jopa yllättävän vähän.

Theseuksen sisältämän aineiston määrän kasvu on näkynyt voimakkaasti myös palvelun käyttöluvuissa: vuonna 2011 Theseuksen julkaisuja ladattiin yhteensä yli 6,3 miljoonaa kertaa, ja tahti on vain kiihtynyt vuoden 2012 puolella: vuoden viiden ensimmäisen kuukauden aikana Theseus ylsi lähes 3,7 miljoonaan latauskertaan. Palvelun näkyvyydestä kertoo sekin, että Theseuksen julkaisuja tulee yhä useammin vastaan myös Googlen hakutuloksissa.

Theseuksen nopea kasvu on jossain määrin jopa jättänyt Doriaa varjoonsa, mutta kasvua on toki tapahtunut myös Dorian puolella. Doriaankin on tullut uusia asiakkaita, sillä ELY-keskusten ja Maanpuolustuskorkeakoulun aineistot ovat tulleet saataville alkuvuoden 2012 aikana. ELY-keskusten kokoelmat sisältävät erilaisia sarjajulkaisuja, Maanpuolustuskorkeakoulun kokoelmat taas sekä opinnäytteitä, julkaisuja että jonkin verran myös kulttuuriperintöaineistoja. Maanpuolustuskorkeakoulua varten on myös rakennettu työkalua, jolla julkaisujen tietoja voidaan saman prosessin puitteissa tallentaa sekä julkaisuarkistoon että Lindaan.

mpkk

Julkari ja muut uudet julkaisuarkistoinstanssit

Kansalliskirjaston tarjoaman infrastruktuurin ansiosta Dorian ja Theseuksen rinnalle on syntymässä vähitellen muitakin keskitettyyn tekniseen ylläpitoon perustuvia julkaisuarkistopalveluita. Oman DSpace-instanssin aiheuttamat lisäkustannukset ovat nykyään suhteellisen vähäiset, sillä eri instanssien ylläpidossa voidaan hyödyntää samaa koodipohjaa. Oma instanssi onkin harkinnan arvoinen ratkaisu etenkin silloin kun aineistoja ja rajapintoja muihin järjestelmiin on erityisen paljon tai organisaatio haluaa itselleen enemmän ylläpito-oikeuksia.

Toukokuussa 2012 julkiseen käyttöön avattu Julkari (http://www.julkari.fi) sisältää alkuvaiheessa Terveyden ja hyvinvoinnin laitoksen ja sen edeltäjien (KTL ja Stakes) julkaisuja, mutta palvelu on suunniteltu alusta lähtien siten, että sitä on mahdollista laajentaa myös muiden sosiaali- ja terveysministeriön alaisten laitosten käyttöön. THL:ää varten tehtynä räätälöintinä Julkarin yhteyteen on rakennettu rajapinta, jonka kautta THL:n omien julkaisujen metatiedot ja tiedostot saadaan importoitua sinne suoraan Anygraafin Neo-järjestelmästä, jota THL käyttää omien julkaisujensa tuotantoprosessin hallintaan. Integraatioita muihin järjestelmiin tarvitaan vielä lisää, kun Julkariin aletaan vähitellen tallentaa myös artikkeliaineistoja.

julkari

Julkarin lisäksi omia DSpace-instansseja on lähitulevaisuudessa tulossa ainakin Tampereen yliopistolle (TamPub) ja MTT:lle. Nämä projektit ovat toistaiseksi vielä kesken.

Kansalliskirjaston omat aineistot ja palvelut

Ulkoisille asiakkaille tuotettavien palveluiden lisäksi Kansalliskirjasto käyttää DSpacea myös monien omien aineistojensa tallennusympäristönä. Vaikka Kansalliskirjaston Mikkelissä toimivan digitointikeskuksen digitoimat sanomalehdet, aikakauslehdet ja pienpainatteet sijaitsevat erillisessä, suurelta osin omin voimin kehitetyssä palvelussa (http://digi.kansalliskirjasto.fi), Doriaan on tallennettu runsaasti muita Kansalliskirjaston kokoelmista digitoituja kulttuuriperintöaineistoja, mm. monografioita, äänitteitä ja karttoja.

Toistaiseksi aineistoja on tullut Mikkelistä Doriaan eräajoina vähän kerrallaan, mutta METS-paketteina tulevan aineiston konversioita ja tallennusprosessia pyritään vähitellen automatisoimaan. Europena Travel -aineistoa varten kirjastoverkkopalveluissa kehitettiin viime vuonna myös oma digitoitujen aineistojen selailuun tarkoitettu sovellus (ks. Uusi käyttöliittymä julkaisuarkistojen digitaalisiin aineistoihin, Tietolinja 1/2011), jota hyödynnetään jo muutamissa muissakin kokoelmissa.

Viime aikoina saataville on tullut mm. Nordenskiöld-kokoelmasta digitoituja historiallisia karttoja, toista sataa vuotta sitten ilmestyneen Program-blad-ohjelmalehdykän numeroita ja Raita-kokoelmaan lisää tekijänoikeudesta vapaata musiikkiaineistoa. Myöhemmin tarjolle lienee tulossa mm. merkittävä kokoelma tekijänoikeudesta vapaata kotimaista kaunokirjallisuutta ja lisää historiallisia karttoja. Myös Turun akatemian väitöskirjojen digitointia on tarkoitus jatkaa Ilkka ja Ulla Paateron rahaston tuella, mutta tämän projektin tuloksia saadaan vielä odotella jonkin verran. Tähänastisen väitöskirjakokoelman tekijöiden tiedot linkitettiin kuitenkin jo alkuvuodesta Yrjö Kotivuoren kokoamaan Ylioppilasmatrikkeli 1640-1852 -palveluun (http://www.helsinki.fi/ylioppilasmatrikkeli/).

Kansalliskirjaston digitoima laaja keskiaikaisten pergamenttien kokoelma Fragmenta Membranea poikkeaa kuvailutiedoiltaan ja käyttötavoiltaan merkittävästi useimmista muista DSpace-ympäristöön tallennetuista aineistoista, joten se päätettiin tallentaa erilliseen DSpace-instanssiin (http://fragmenta.kansalliskirjasto.fi). Palvelun teknisiä ratkaisuja kehittänyt Juho Vuori muokkasi pergamentteihin liittyneeseen tutkimusprojektiin osallistuneiden tutkijoiden toiveiden pohjalta merkittävästi DSpacen peruskäyttöliittymää.

fragmenta

Historiallisten kokoelmien lisäksi Kansalliskirjasto on perustanut Doriaan myös oman organisaatiokohtaisen julkaisuarkistonsa, johon tallennetaan Kansalliskirjaston johtoryhmän hyväksymän open access -politiikan linjausten mukaisesti mm. konferenssi- ja seminaariesityksiä, raportteja ja selvityksiä sekä rinnakkaistallennettuja julkaisuja. Open access -politiikkaan liittyvän käytännön toimenpideohjelman valmistelu on vielä kesken, mutta tavoitteena on joka tapauksessa koota nämä aineistot keskitetysti yhteen paikkaan siten, että niihin voidaan viitata pysyvillä URN-osoitteilla.

Varia ja elektroniset vapaakappaleet

Verkon kautta nähtävillä olevien DSpace-instanssien lisäksi Kansalliskirjasto hyödyntää ohjelmistoa myös elektronisten vapaakappaleiden käyttöympäristönä. Kansalliskirjasto on jo muutaman vuoden ajan kerännyt digitaalisia julkaisuja talteen kustantajilta saatavina luovutuksina. Tällä hetkellä luovutetut aineistot päätyvät Varia-nimiseen DSpace-instanssiin, joka muistuttaa nimensä lisäksi myös ulkonäöltään kovasti Doriaa. Variaa ei kuitenkaan löydy Googlella ja sen käyttäjäksi pääseminen vaatii muutenkin viitseliäisyyttä, sillä se on käytettävissä ainoastaan vapaakappalekirjastoissa vapaakappaleaineistoille varatuilta työasemilta.

Tämän kevään aikana Kansalliskirjasto on ryhtynyt haravoimaan pitkäaikaissäilytystä varten järjestelmällisesti talteen myös kotimaisten julkaisuarkistojen sisältöä. Julkaisuarkistoista haravoidaan talteen sekä julkaisujen kokotekstitiedostot että niiden metadata, jotka tallennetaan Variaan.

Haasteena resurssit

Toisin kuin monilla muilla Kansalliskirjaston kirjastoverkolle tarjoamilla palveluilla, julkaisuarkistoilla ei ole ollut tukenaan keskitettyä rahoitusta. Palveluiden kehittäminen on saanut OKM:ltä pariin otteeseen projektirahoitusta (OA-JES, 2006-2007 ja Julkaisuarkistojen infrastruktuuri, 2009-2010), mutta muuten palvelun ylläpidon ja kehittämisen kustannukset on katettu asiakasorganisaatioilta (ml. Kansalliskirjasto) saadulla rahoituksella. Kansalliskirjaston näkökulmasta muille organisaatioille tarjottavat julkaisuarkistopalvelut ovat siis maksullista palvelutoimintaa. Tällä hetkellä ulkoisille asiakkaille tuotettavia palveluita varten on käytettävissä kokopäiväisesti kaksi tietojärjestelmäasiantuntijaa (Samu Viita ja Päivi Rosenström), minkä lisäksi konversioihin, rajapintojen kehittämiseen ym. kertaluontoisiin projekteihin on voitu tarvittaessa lainata muitakin työntekijöitä.

Vaikka olemme kenties onnistuneet osoittamaan, että kansallisten palveluiden tuottaminen menestyksekkäästi on mahdollista myös näistä lähtökohdista, on pakko myöntää, että niiden kehittäminen on vaatinut monissa kohdin työntekijöiltämme huomattavaa venymistä. Tällä hetkellä haasteita aiheuttaa asiakaskunnan nopea kasvu ja eri asiakkaille tuotettavat räätälöidyt palvelut: käyttöönottoprojektien keskellä kun pitäisi löytää resursseja myös palveluiden perustoimintojen pitkäjänteiseen kehittämiseen. Lisäksi haasteita liittyy mm. julkaisuarkistojen kansallisen yhteistyön ja metadataformaattien kehittämiseen ja ylläpitoon, jotka kuuluisivat luontevasti Kansalliskirjaston perinteiseen tehtäväkenttään, mutta joihin ei tällä hetkellä ole osoitettavissa resursseja.

Kansallisen tason yhteistyön lisäksi olisi tietysti hyödyllistä olla laajemmin mukana julkaisuarkisto-ohjelmistojen kansainvälisen kehittäjäyhteisön yhteistyössä. Parin aivan projektimme alkuvaiheessa tehdyn kontribuution jälkeen roolimme on kuitenkin toistaiseksi ollut tällä tasolla perin vaatimaton ja rajoittunut lähinnä alan johtavaan kansainväliseen tapahtumaan eli vuosittaisiin Open repositories -konferensseihin osallistumiseen. Tältä osin on tosin lähitulevaisuudessa luvassa merkittävää profiilinkorotusta – mutta tästä voimme uutisoida vasta vähän myöhemmin…

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: jyrki.ilva(at)helsinki.fi