DSpace-yhteisö kokoontui Göteborgissa

Jyrki Ilva
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/urn:nbn:fi-fe200912152426

 

Kansalliskirjasto on kehittänyt DSpace-ohjelmistoon perustuvia julkaisuarkistopalveluita jo vuodesta 2006 lähtien. DSpace on avoimen lähdekoodin ohjelmisto, jolla on tukenaan maailmanlaajuinen kehittäjäyhteisö. Tietolinjan agentti kävi kuulostelemassa tuoreimpia DSpace-uutisia syksyllä järjestetyssä DSpace-käyttäjien tapaamisessa.

DSpace-käyttäjät Göteborgissa

DSUG 09 eli DSpace User Group Meeting 2009 (http://dsug09.ub.gu.se/) järjestettiin lokakuussa aurinkoisessa Göteborgissa. Paikalla oli yhdeksänkymmentä osallistujaa 20 eri maasta, pääosin Euroopasta. Kokouspaikan läheisen sijainnin ansiosta Suomesta oli tällä kertaa mukana peräti kahdeksan edustajaa. Kansalliskirjaston nelimiehisen joukkueen (Jyrki Ilva, Janne Pietarila, Wouter van Hemel, Samu Viita) lisäksi paikalla olivat Joonas Kesäniemi Jyväskylän yliopistosta, Tapani Lehtilä Tampereen teknillisestä yliopistosta sekä Timo Aalto ja Eija Airio Helsingin yliopiston kirjastopalveluiden koordinointiyksiköstä.

Merkittävimmät julkaisuarkistojen tekniikkaan liittyvät uutiset on yleensä ollut tapana ajoittaa vuosittaisen, teemoiltaan DSUG:ia laajemman Open repositories –konferenssi yhteyteen. Open repositories 2009 järjestettiin tällä kertaa toukokuussa Atlantassa (lue Samu Viidan ja Karo Salmisen raportti Digitaalinen kirjasto -blogista). Vaikka DSUG on jossain määrin matalamman profiilin tapahtuma, silläkin on puolensa: konferenssin pienemmän koon ansiosta tunnelma on välitön ja myös DSpace-ohjelmiston pääkehittäjien kanssa pääsee juttelemaan ilman jonotusnumeroa.

DuraSpace

Kuten jo keväällä Atlantassa uutisoitiin, DSpace- ja Fedora-ohjelmistojen taustayhteisöt ovat päättäneet yhdistää voimansa. Prosessi on käytännössä edennyt siten, että DSpace Federation pisti lapun luukulle ja siirsi toimintansa Fedora Commonsille, joka puolestaan vaihtoi nimekseen DuraSpace (Lisätietoja Duraspacesta ks. http://duraspace.org/).

DSpacen ja Fedoran etsivät liittoutumisella synergiaetuja: tulevaisuudessa ohjelmistojen uusia ominai­suuksia ja teknisiä moduleita kehitetään yhteistyössä, ja jollain aikataululla ohjelmistojen kehityslinjat on tarkoitus yhdistää. Vaikka DSpace ja Fedora ovat molemmat tulleet tunnetuiksi nimenomaan julkaisuarkistokäyttöön tarkoitettuina open source –ohjelmistoina, niiden profiilit ovat kuitenkin olleet varsin erilaisia. Siinä missä DSpace on ollut helposti käyttöönotettava, valmis ohjelmistopaketti, Fedora on pikemminkin tarjonnut vain rakennuspalikoita itsenäiselle kehitystyölle. Toisaalta Fedora on DSpaceen verrattuna joustavampi ja teknisesti kunnianhimoisempi ohjelmistokokonaisuus. Käytännössä DSpacella on toistaiseksi ollut selkeästi enemmän käyttäjiä kuin Fedoralla, mutta nykyisen ohjelmiston tekniset rajat tulisivat kuitenkin väistämättä vastaan ilman uusia avauksia.

Göteborgissa Fedora pysyi kuitenkin vielä taka-alalla, ja yhteisöllisyyttä pyrittiin edelleen rakentamaan nimenomaan DSpacen ympärille (esim. DSpace ambassador –ohjelma). Yleisökysymyksessä nostettiin esiin myös kilpailuasetelma suhteessa EPrintsiin, joka on DSpacen ohella käytetyin julkaisuarkisto-ohjelmisto ja jonka vahvuuksiin DSpacen tavoin kuuluu alhainen käyttöönottokynnys.

DuraCloud

DuraSpace ei aio keskittyä pelkästään julkaisuarkisto-ohjelmistojen kehittämiseen, vaan se on jo käynnistänyt toisenlaisen hankkeen, jossa pyritään luomaan teknistä arkkitehtuuria ja rajapintoja ”pilvipalveluiden” (cloud computing) hyödyntämiseen. DuraSpace kehittää ohjelmistoratkaisuja ja palvelumallia (DuraCloud), joiden avulla esim. julkaisuarkistopalveluita ja suurten datamassojen varmuuskopiointia voidaan siirtää paikallisten palvelinten sijasta suurten palveluntarjoajien palvelinkapasiteettia hyödyntävään ”pilveen”. Työkalujen lisäksi DuraSpace laajentaa toimintaansa tarjoamalla itsekin useilta kaupallisilta palveluntarjoajilta (mm. Sun, Rackspace, jne) hankittua palvelinkapasiteettia kiinnostuneille asiakkaille.

DuraCloudiin liittyviä visioita esitelleen DuraSpacen teknologiapäällikön Brad McLeanin mukaan (ks. videoitu esitys) palvelun beta-version on tarkoitus olla käytössä keväällä 2010, jolloin mietitään myös palvelun hinnoittelumalleja. Yhteistyökumppaneina ovat alkuvaiheessa ainakin New York Public Library ja Biodiversity Heritage Library, joiden aineistoja käytetään testimateriaalina.

Yleisökysymyksissä pohdittiin sitä, miten järkevää on ulkoistaa pääosin julkisilla varoilla tuotettuja palveluita kaupallisten palveluntarjoajien tarjoamaan ympäristöön. Vaikka palvelut olisivat teknisesti toimivia ja hinnaltaan edullisia, asiaan liittyy kuitenkin myös poliittisia kysymyksiä etenkin siinä vaiheessa kun aletaan puhua esim. pitkäaikaissäilytyksestä.

DSpace 1.6

DSpace-ohjelmiston osalta DSUG 09:n merkittävin ajankohtainen uutisaihe oli DSpace-versio 1.6, jonka kehitystyö oli loppusuoralla. Version kehitystyötä koordinoinut Stuart Lewis (University of Auckland Library) esitteli ylpeänä (ks. videoitu esitys) sen uusia ominaisuuksia, joita on peräti 91 kappaletta.

Keväällä 2009 oli järjestetty äänestys kolmesta eniten toivotusta parannuksesta, joita olivat tilastointi, metadatan massaeditointi ja embargo-toiminto. Tilastoinnin osalta ratkaisu saatiin DSpace-palveluita kehittävältä belgialaiselta @mire-firmalta, csv-tiedostoihin perustuva massaeditointiominaisuus kehitettiin Uudessa Seelannissa ja embargo-toiminnon tekivät puolestaan MIT ja Harvard. Näiden lisäksi uudessa versiossa on luvassa monia muitakin uusia ominaisuuksia, joista kiinnostavimpiin kuuluu Texas A&M –yliopistossa kehitetty mahdollisuus sisällyttää tavanomaisten DSpace-kokoelmien rinnalle automaattisesti OAI-PMH- ja OAI-ORE-protokollien avulla ulkopuolisesta lähteestä haravoituvia kokoelmia. Kirjastoihmisten kannalta mielenkiintoa lienee myös uusilla auktoriteettien hallintaa parantavilla ominaisuuksilla.

Kahvitaukokeskusteluissa uusi versio sai positiivisen vastaanoton. Yleisökommenteissa kiinnitettiin tosin huomiota siihen, että järjestelmään tehdyt parannukset oli suunnattu lähinnä managereille, eikä niillä ole käyttäjien kannalta kovin näkyvää merkitystä. Lisäksi myös managerinäkökulmasta toivottiin nykyistä enemmän huomiota rajapintoihin, joiden avulla DSpace voitaisiin paremmin integroida muihin järjestelmiin ja palveluihin.

DSpace. Next Generation

Vaikka DSpace-versiossa 1.6 on paljon uutta, suunnitteilla olevaan versioon 2.0 kohdistuu huomat­tavasti suurempia odotuksia. Uuden version myötä koko DSpacen tekninen arkkitehtuuri on tarkoitus uudistaa, mikä tarkoittaa mm. nykyisenkaltaisesta yhteisö- ja kokoelmarakenteesta luopumista.

Keväällä Atlantassa uutta versiota lupailtiin alustavasti jo alkuvuodesta 2010, mutta puolen vuoden aikana tilanne oli muuttunut sen verran, että 2.0 nähtiin enemmän päämääränä jota kohti pyritään kuin minään ihan lähiaikoina tulossa olevana ohjelmistopakettina. Brad McLeanin ”DSpace Roadmap 2009-2010”-esityksessä mainitsemat aikataulut olivat yhä varsin epämääräisiä: seuraavan 1.6:n jälkeisen DSpace-version ennakoitiin olevan tulossa aikaisintaan syksyllä 2010, mutta sekin jäi vielä avoimeksi olisiko kyseessä todella 2.0 vai mahdollisesti vielä uusi 1.x-sukupolven ohjelmistoversio.

Osittain varovaisuutta varmaan selittävät Fedoraan liittyvät kuviot: odotuksena on, että DSpace ja Fedora jossain vaiheessa yhdistyvät, mutta on vielä epäselvää tapahtuisiko tämä versiossa 2.0, puhumattakaan siitä mitä tämä käytännössä tarkoittaisi. Näyttää siis siltä, että versiota 2.0 joudutaan vielä odottamaan, kenties aika pitkäänkin. Tämä ei kuitenkaan tarkoita sitä, että kehitystyö olisi jumissa, sillä 2.0:aa varten kehitettyjä ratkaisuja voidaan monilta osin hyödyntää jo 1.x-sukupolven DSpacessa, mistä on jonkin verran esimerkkejä jo 1.6:ssakin.

Göteborgissa keskusteltiin myös jonkin verran DSpacen käyttöliittymien tulevaisuudesta. DSpacella on tällä hetkellä käytössä kaksi eri tekniikkoihin perustuvaa käyttöliittymää, mikä aiheuttaa runsaasti ylimääräistä työtä ohjelmiston kehittäjille. Vaikka perinteinen jsp-pohjainen käyttöliittymä on edelleen käyttäjien keskuudessa suositumpi suurelta osin varmaan tottumuksen voimalla, uudempaan xml-pohjaiseen Manakin-käyttöliittymään panostaminen vaikuttaa kuitenkin tulevaisuuden kannalta järkevämmältä vaihtoehdolta.

Sovelluksia ja rajapintoja

Järjestelmien välinen integraatio tuntui olevan päivän sana. Konferenssin esityksissä ja postereissa esiteltiin ratkaisuja, joissa DSpace yhdistettiin erilaisiin sisällönhallintajärjestelmiin. Muutamassa tapauksessa DSpace oli myös kytketty osaksi laajempia organisaation julkaisujen hallintaan tarkoitettuja prosesseja. Osa näistä tuli kaupallisilta palveluntarjoajilta, osa taas oli puhtaasti yhteisöllisesti tuotettuja avoimen lähdekoodin ratkaisuja.

Brittiläisen Sympletic-firman (http://www.symplectic.co.uk/) tarjoamassa ratkaisussa oli kehitetty DSpacen Sword-rajapintaa, mutta koodi ei kuitenkaan kilpailusyistä ollut ”ihan vielä” vapaasti saatavilla. Yhteisöllisenä projektina kehitetty BibApp-sovellus (http://bibapp.org) puolestaan vaikutti enemmän kirjastojen näkökulmasta ja tarpeista lähtien suunnitellulta versiolta esim. Helsingin yliopiston uuden Tuhat-järjestelmän kaltaisista tutkimuksenhallintaohjelmistoista.

Ulkomaan ihmeiden lisäksi myös Joonas Kesäniemen Jyväskylän yliopiston gradujulkaisujärjestelmää esittelevän posterin ympärillä oli melkoisesti kuhinaa. Joonaksen kehittelemä ratkaisu perustuu Plone-sisällönhallintajärjestelmän, DSpace-julkaisuarkiston ja kirjastojärjestelmän yhteispeliin. Ensi vuonna meillä on toivon mukaan esiteltävää Kansalliskirjastonkin puolesta, kunhan oma syöttöjärjestelmäprojektimme (SYLI) valmistuu.

Muuta mieleenjäänyttä

Teknisten asioiden lisäksi konferenssissa esiteltiin mm. EU:n rahoittamaa Driver II -hanketta ja Driver-mallin pohjalle rakennettua globaaliksi julkaisuarkistoyhteistyön foorumiksi suunniteltua COAR-organisaatiota (Confederation of Open Access Repositories, http://www.driver-repository.eu/DRIVER-COAR.html). Göttingenissä majaansa pitävä organisaatio käynnisti toimintansa lokakuussa, mutta ensi vuosi vasta näyttää toden teolla millaisen roolin se pystyy ottamaan.

Paikallisia järjestelmiä koskeneista esityksistä jäi mieleen mm. Norjassa omaksuttu toimintamalli, jossa organisaatiokohtaisista arkistoista haravoidaan julkaisujen viitetiedot kansalliseen NORA-palveluun (http://www.ub.uio.no/nora/noaister/search.html). Ideana on se, että NORA:n kaltainen iso palvelu tarjoaa julkaisuille enemmän näkyvyyttä kuin pienet paikalliset palvelut. Tavoitteena on myös se, että norjalaisten julkaisujen viitetiedot haravoidaan kansainvälisiin palveluihin NORA:n kautta, jolloin palveluiden ylläpitäjien ei tarvitse käydä erikseen läpi kaikkia norjalaisia palveluita.

Nykyään Googlella työskentelevä, DSpacen (ja EPrintsin) alkuperäisiin kehittäjiin kuulunut Robert Tansley esitti avajaispuheenvuorossaan (ks. powerpointit) useita hauskoja maksiimeja, joista etenkin seuraava on palannut useasti mieleen myös matkan jälkeen: Metadata. If it’s not boring, you’re not doing it right. Tansley muistutti siitä, miten houkuttelevaa on kehitellä mutkikkaita metadataskeemoja, joista suurimpaan osaan ei kuitenkaan koskaan tallenneta juuri lainkaan dataa. Ehkä DSpacen tarjoamat välillä kovin rajallisiksi koetut mahdollisuudet erilaisten kunnianhimoisten metadataskeemojen hyödyntämiseen eivät sittenkään ole ihan pelkkä heikkous?

Taas kotimaan kamaralla

Vaikkei mitään aivan totaalisen mullistavaa ehkä kuultukaan, DSUG09 oli kuitenkin antoisa kokemus. Ainakin näin ensikertalaisen näkökulmasta tapahtuma antoi puhtaasti teknologiaan liittyvän informaation lisäksi myös paremman käsityksen DSpacen taustalla olevan kehittäjäyhteisön dynamiikasta. Göteborgin kuulumisia käytiin läpi myös marraskuun alussa Helsingissä järjestetyssä kansallisen DSpace-käyttäjäryhmän tapaamisessa, jossa olivat mukana lähes kaikkien suomalaisten DSpace-julkaisuarkistojen ylläpitäjät.

OPM:n rahoittaman julkaisuarkiston infrastruktuuri -hankkeen (ks. Tietolinja 2/2008 ja hankkeen wiki) tavoitteita suunnitellessamme olimme ajatelleet DSpace 2.0:een siirtymisen olevan yksi hankekauden keskeisistä haasteista. Göteborgissa kuullun perusteella päädyimme kuitenkin siihen, ettemme ainakaan Kansalliskirjaston ylläpitämien palveluiden osalta ryhdy enää odottamaan kakkosversiota, vaan siirrämme Dorian ja Theseuksen ensiksi 1.6:een alkuvuoden 2010 aikana.

Kirjoittajan yhteystiedot

Jyrki Ilva, sovellussuunnittelija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: jyrki.ilva(at)helsinki.fi