Open Repositories 2018 – kestävää avoimuutta

Ilva J (2018). Open Repositories 2018 – kestävää avoimuutta. Tietolinja, 2018(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2018093036990

Tämänvuotinen Open Repositories -konferenssi järjestettiin kesäkuun alussa Bozemanissa, Montanassa. Meitä kansalliskirjastolaisia oli tällä kertaa paikalla kaksi, Esa-Pekka Keskitalo ja minä.

Villin lännen tarinoistakin tuttu Bozeman on nykyään vähän yli 40.000 asukkaan vehreä ja suurelta osin aivan viihtyisä yliopistokaupunki Kalliovuorten kupeessa. Lumihuippuisia huippuja näkyi joka suunnassa kaupungin ympärillä, ja Yellowstonen kansallispuisto olisi ollut vain parin tunnin ajomatkan päässä. Sinne en kuitenkaan tällä kertaa ennättänyt, ja paikallisten nähtävyyksien ihastelu rajoittui Bozemanin ja sitä ympäröivien maisemien ohella lähinnä vain kaupungissa sijaitsevan Kalliovuorten museon dinosauruksiin.

Bozeman on amerikkalaisnäkökulmastakin syrjäseutua – joku itärannikolta tullut osallistuja valitti minulle lentojen kalleutta. Toisaalta naapuriosavaltiosta Idahosta paikalle tullut paikallisen yliopiston julkaisuarkiston manageri oli tyytyväinen, kun oman alan kansainvälinen konferenssi oli kerrankin tarjolla automatkan päässä siten, että myös hän pääsi mukaan.

Kuva: Vuoret ympäröivät Bozemania lähes joka suunnalta.

Kuva: Näkymä Bozemanin pääkadulta.

Kuva: Montanan valtionyliopiston kampuksen kupeessa oli idyllinen omakotitaloalue.

Edellisestä USA:n matkastani oli kolme vuotta, mutta vaikka nyt elettiin Donald Trumpin aikaa ja oltiin periaatteessa hänen tukialueellaan, kovin suuria muutoksia aiempaan en paikan päällä havainnut. Voi olla, että kaupungissa sijaitseva sen kokoon nähden iso yliopisto (Montana State University) vaikuttaa koko paikkakunnan ilmapiiriin. Toisaalta politiikka näkyi katukuvassa aivan toisella tavalla kuin koto-Suomessa – tulossa olleisiin paikallisiin vaaleihin liittyen yhden jos toisenkin omakotitalon pihamaalla oli USA:n lippujen lisäksi myös kylttejä, joissa kerrottiin mitä ehdokasta tontin asukkaat kannattivat. Isäntiemme mukaan nämä mainoskyltit ovat paikallisille usein tärkein tietolähde siitä millaisia ehdokkaita vaaleissa ylipäätään on tarjolla.

Kuva: Vaalimainontaa Amerikan malliin.

Osallistujista ja ohjelmistoista

Konferenssin osallistujamäärä oli tällä kertaa vähän yli 350, mikä on ollut melko tyypillinen lukema Pohjois-Amerikassa järjestetyissä OR-konferensseissa (Euroopassa osallistujia on aina ollut enemmän). Osallistujille tehdyn kyselyn perusteella liki puolet vastanneista oli mukana ensimmäistä kertaa, eli oma vaikutelmani siitä miten paljon tuttuja ihmisiä taas kerran oli paikalla ei ole ainoa oikea totuus.

Kuva: Paikallinen motelli toivotti konferenssivieraat tervetulleiksi.

Tänä vuonna osallistujamäärään vaikutti Bozemanin sijainnin ohella ehkä sekin, että Uudella mantereella laajassa käytössä olevilla Fedoraan pohjautuvilla Samveralla (ent. Hydra) ja Islandoralla on nykyään omat vuosittaiset tapahtumansa, joista on tullut varsin suosittuja. Suuri osa ainakin teknisemmin suuntautuneista näihin ohjelmistoihin liittyvistä esityksistä pidetään nykyään niissä. Etenkin Islandora-yhteisö oli Bozemanissa lähes näkymätön. Kehitystä on saattanut jouduttaa sekin, että OR-konferensseissa on luovuttu kokonaan aiemmista ohjelmistokohtaisista (DSpace, EPrints, Fedora, Invenio) käyttäjäryhmistä, vaikka samaa ohjelmistoa koskevia esityksiä on toki edelleen ryhmitelty jossain määrin samoihin sessioihin. Lisäksi ensikertalaisille ja vähän pidempäänkin mukana olleille oli aiempien vuosien tapaan tarjolla Repository Rodeo -sessio (ks. esityskalvot ja videotallenne), jossa esiteltiin vuorollaan kaikki keskeiset avoimen lähdekoodin julkaisuarkisto-ohjelmistot.

Käyttäjäryhmistä luopumisen positiivisia seurauksia oli se, että tänä vuonna mukana oli silmiinpistävän paljon muiden kuin avoimen lähdekoodin julkaisuarkisto-ohjelmistojen käyttäjiä, jotka ehkä tunsivat olonsa aiempaa enemmän tervetulleiksi. Pääsyy ilmiöön oli ilmeisesti kuitenkin se, että Elsevier osti jokin aika sitten BePressin (Berkeley Electronic Press), jolla oli ollut noin 30 %:n markkinaosuus USA:n julkaisuarkistomarkkinoista. BePressin tarjoaman keskitetysti ylläpidetyn palvelun asiakkaina on ollut etenkin pienempiä yliopistoja, joilla ei ole ollut resursseja tai osaamista paikallisesti ylläpidetyn palvelun pystyttämiseen. Vaikka BePressin asiakkaat ovat ymmärtääkseni tähän asti olleet pääosin melko tyytyväisiä saamaansa palveluun, omistajanmuutos on saanut monet niistä pohtimaan muita vaihtoehtoja.

Kestävää avoimuutta

Konferenssin pääteemana oli tänä vuonna ”Sustaining Open”. Toisin kuin jotkut aiemmat enemmän komiteatyön tuloksilta maistuneet teemat tämänvuotinen teema näkyi luontevasti myös konferenssin ohjelmassa ja esitysten aiheissa. Palveluiden ja aineistojen pitkän aikavälin ylläpitoon liittyvät kysymykset nousivat esille sekä esityksissä että postereissa.

Jo perinteiseen tapaan keynote-puhujat oli valittu julkaisuarkistoyhteisön ulkopuolelta, ja yhtä lailla perinteiseen tapaan heidän puheenvuoronsa jakoivat osallistujien mielipiteitä. Itse tykkäsin vallan tavattomasti konferenssin avanneesta Casey Fieslerin (University of Colorado Boulder) esityksestä (ks. videotallenne), jonka aiheena oli Archive of Our Own, fanifiktiolle omistettu laaja verkkopalvelu, joka on luotu ja jota ylläpidetään suurelta osin naispuolisista faneista koostuvan yhteisön voimin. Vaikka aihe saattaa äkkiseltään tuntua julkaisuarkistojen näkökulmasta etäiseltä, minusta se soitti kutakuinkin kaikkia oikeita kelloja ja antoi paljon ajattelemisen aihetta.

Kuva: Casey Fieslerin esittelemä Archive of Our Own sisältää mm. kymmeniä tuhansia Tähtien sodan universumiin sijoittuvia tarinoita.

Konferenssin päätössession keynote-puhuja oli Asaf Bartov (Wikimedia Foundation), jonka konferenssin ensimmäisenä päivänä pitämä Wikidata-työpaja oli saanut osallistujilta paljon kiitosta. Valitettavasti tunnelma alkoi olla tässä vaiheessa neljän intensiivisen päivän jälkeen jo sen verran väsähtänyt, että Bartovin hieman ylipitkäksi venähtänyt esitys ( ”Free Culture in the Periphery. A personal perspective”, ks. videotallenne) meni mielenkiintoisesta aiheesta huolimatta ainakin minun osaltani suurelta osin harakoille. Bartovin pääteesi joka tapauksessa oli se, että avoimen kulttuurin toimijat ja perinteiset muistiorganisaatiot ovat luonnollisia kumppaneita toisilleen.

Konferenssin ohjelmassa oli tällä kertaa neljä samanaikaista rinnakkaissessiota, ja mielenkiintoista kuunneltavaa olisi ollut suuren osan aikaa useammassa salissa.  Valintojen tekeminen oli välillä vaikeaa, ja joskus juoksin kesken sessioiden salista toiseen kuuntelemaan yksittäisiä omalta kannaltani kiinnostavalta vaikuttaneita esityksiä. Tässä runsaudessa on sekä hyvät ja huonot puolensa: toisaalta voi suunnitella itselleen omien mieltymistensä mukaisen ohjelman, toisaalta oman mukavuusalueen ulkopuolelle jäävät teemat saattavat mennä kokonaan ohitse. Konferenssin jälkeen australialaistuttavan blogi-kirjoitusta lukiessani huomasin, että hän oli koko konferenssin ajan osallistunut aina johonkin muuhun sessioon kuin minä. Eipä siis ihme, etten tainnut nähdä häntä muuten kuin satunnaisesti kahvitauoilla.

Yksi Open Repositories -konferenssien pitkän aikavälin trendeistä on ollut aihevalikoiman ja näköalojen vähittäinen monipuolistuminen.  Vaikka ytimessä ovat edelleen julkaisuarkistokäyttöön kehitetyt avoimen lähdekoodin ohjelmistot, mm. käsitykset julkaisuarkistoihin tallennettavista aineistoista, julkaisuarkistojen ympärille rakennetuista prosesseista ja kytkennöistä muihin järjestelmäinfrastruktuureihin ovat muuttuneet vuosien varrella. Erityisen silmiinpistävää on ollut tutkimusdataan ja data-arkistoihin liittyvien aiheiden yleistyminen. Tämä heijastelee tietysti yleisempää avointa tiedettä koskevan keskustelun muutosta, jossa dataan liittyvät kysymykset ovat nousseet julkaisujen rinnalle ja kenties jo niiden ohikin.

Kuva: Esa-Pekka Keskitalo esittelee tutkimusdatan kuvailuun tarkoitettua QVAIN-työkalua OR2018:n posterisessiossa.

Konferenssin teema huomioiden ei ollut yllättävää, että pitkäaikaissäilytykseen liittyvät kysymykset olivat esillä monessa sessiossa.  Esityksiä seuratessa muistui tosin nopeasti mieleen, että Suomi on tältä osin jossain määrin poikkeustapaus, koska täällä on satsattu kansallisella tasolla toteutettuun kulttuuri- ja tutkimusaineistojen pitkäaikaissäilytysjärjestelmään.  Monessa muussa maassa yksittäiset organisaatiot joutuvat sen sijaan pohtimaan itse aineistojensa pitkäaikaissäilytykseen liittyviä ratkaisuja. Joskus tuntuu siltä, että pääsemme livahtamaan pitkäaikaissäilytykseen liittyvissä hankalissa kysymyksissä kuin koira veräjästä, kun voimme yksinkertaisesti viitata CSC:n tarjoamiin kansallisiin PAS-palveluihin.

Avointa tiedettä tukevien kansainvälisten infrastruktuurien toimintaedellysten turvaaminen on herättänyt viime aikoina paljon aiheellista keskustelua (ks. mm. Tietolinjan 2/2017 pääkirjoitus). Yksi keskeinen infrastruktuuri ovat avoimen tieteen palveluiden tueksi kehitetyt avoimen lähdekoodin ohjelmistot. Bozemanissa aihepiiriä sivuttiin mm. John Willinskyn (Public Knowledge Project) ja Kathleen Shearerin (Coalition of Open Access Repositories) yhdessä vetämässä esityksessä “The Prospects of Greater Community Coordination for Open Scholarly Communication Infrastructure”. Tunnin mittainen yleisön aktivointiin tähdännyt esitys oli viihdyttävä, muttei sisältönsä puolesta ehkä sittenkään kovin ikimuistoinen. Vaikka Willinsky ja Shearer ovat molemmat kanadalaisia, tämä oli kuulemma ensimmäinen kerta kun he esiintyivät yhdessä. Oli joka tapauksessa mukava nähdä, että sekä Open Journal Systems -julkaisujärjestelmän että julkaisuarkistojen taustayhteisöjen johtohenkilöt olivat näin hyvin samalla aaltopituudella ja yhtä mieltä yhteistyön tarpeellisuudesta.

Kuva: John Willinsky kuuntelee yleisön kommentteja.

Yksi mielenkiintoisimmista Sustaining Open -teemaan liittyneistä esityksistä käsitteli Irlannin kansallista Digital Repository of Ireland -palvelua, joka muistutti kooltaan kooltaan ja ambitiotasoltaan jossain määrin kotoista KDK-hanketta, vaikka rakentuikin toisenlaisten järjestelmäratkaisujen ympärille. Hankkeessa oli kehitetty Samvera-ohjelmistoon perustuvaa kansallista (julkaisu)arkistopalvelua etenkin kulttuuriperintöaineistojen ja humanistis-yhteiskuntatieteellisen tutkimuksen tarpeisiin. Isoimmillaan hankkeessa oli ollut peräti 30 työntekijää ja näiden lisäksi myös kymmenkunta tutkijaa, mutta se oli rahoituksen vähentyessä pienentynyt hallitusti kuuden työntekijän ja parin tutkijan kokoiseksi palveluksi, jonka toiminnan tueksi pyritään keräämään rahoitusta mukana olevilta organisaatioilta. Paradoksaalista kyllä, hanketta esitelleet Dermot Frost ja Nathalie Harrower totesivat, että hankkeen aiempi suuri koko mahdollisti sen, että palvelun oli nyt mahdollista jatkaa elämäänsä näinkin pienillä resursseilla.

Kuva: Digital Repository of Irelandin etusivu.

Kohti keskittyjä ratkaisuja?

Parissa konferenssin sessiossa kommentoitiin parin viime vuoden aikana OA-piireissä huomiota saanutta ”julkaisuarkistot ovat epäonnistuneet”-narratiivia. Open Repositories -konferenssin kontekstissa tällaiset argumentit saattavat tuntua jossain määrin hassuilta, kun ympärillä on niin paljon todisteita julkaisuarkistojen elinvoimaisuudesta. Mutta toisaalta on kyllä totta, etteivät ihan kaikki asiat ole aina menneet niin kuin Strömsössä.

Keskustelun yhtenä taustana on ollut joidenkin pitkän linjan OA-aktivistien kärsimättömyys sen suhteen, miten hitaasti tieteellisten artikkelien rinnakkaistallentaminen on maailmanlaajuisesti edennyt. Tähän on usein sisältynyt voimakas näkemys siitä, että nimenomaan tämä on julkaisuarkistojen päätehtävä, jopa niin, että muiden aineistotyyppien (esim. opinnäytteet) kanssa saavutetut menestykset on saatettu nähdä haitallisina sivupolkuina. Open Repositories -konferenssien vakio-osallistujien keskuudessa julkaisuarkistojen rooli nähdään yleensä huomattavasti tätä laajempana.

Bozemanissa esiin nousikin enemmän toinen säännöllisesti esitetty huoli, joka liittyy  julkaisuarkistojen muodostaman infrastruktuurin hajanaisuuteen ja sekavuuteen. Kenning Arlitschin (Montana State University) ja Carl Grantin (University of Oklahoma) aiemmin julkaisemaan artikkeliin ”Why So Many Repositories? Examining the Limitations and Possibilities of the Institutional Repositories Landscape” perustunut esitys ihmetteli julkaisuarkistojen suurta määrää ja analysoi sen seurauksia. Vaikka suuri osa julkaisuarkistoista on tällä hetkellä heikosti ylläpidettyjä ja on usein jäänyt jumiin suorastaan ikivanhoihin ohjelmistoversioihin, paikallisesta kontrollista luopuminen on kuitenkin keskitettyjen (pilvi)palveluiden tarjoamista eduista huolimatta vaikeaa.

Vaikka Arlitschin ja Grantin artikkeliaan varten tekemä selvitys ohjelmistoversioista on sinänsä oikeilla jäljillä, on ehkä hyvä kuitenkin tarkentaa, että se antaa tilanteesta liiankin lohduttoman kuvan. Versiotietojen päivittäminen artikkelin käyttämiin tietolähteisiin (mm. DuraSpacen ylläpitämä DSpace- ja Fedora-arkistojen rekisteri) ei ole julkaisuarkistojen ylläpitäjien prioriteettilistoilla aivan kärkipäätä, eli tiedot ovat monen arkiston kohdalla auttamattomasti vanhentuneita.

Torsten Reimerin (British Library) provosoivasti otsikoitu esitys “For repositories to succeed they have to end. Reflections on (not just) the UK repository scene” oli suurelta osin samoilla jäljillä. Myös Reimer kiinnitti huomiota siihen, että paikallisesti ylläpidetyt julkaisuarkistot ovat usein yksinään liian heikkoja, eikä niiden kehittämiseen ole käytettävissä riittäviä resursseja. Niinpä Reimer ehdotti nykyisten organisaatiokohtaisten palveluiden korvaamista keskitetyillä palveluilla, joilla olisi tukenaan isompi kriittinen massa.

Kuten saattoi arvata, Reimerin esitys kytkeytyi British Libraryn äskettäin tekemään päätökseen ryhtyä rakentamaan julkaisuarkistopalvelua, jota se tarjoaa myös muiden brittiorganisaatioiden käyttöön. Konferenssin jälkeen uutisoitiin, että kirjasto oli tehnyt palvelun kilpailuttamisen jälkeen sopimuksen Samvera-pohjaiseen Hyku-ohjelmistoon perustuvaa julkaisuarkistopalvelua tarjoavan Ubiquity Pressin kanssa. Alkuvaiheessa British Libraryn tarjoamaan palveluun on lähdössä mukaan lähinnä muita muistiorganisaatioita.

DSpace 7:n kehitystyö etenee

Alkuperäisten suunnitelmien mukaan seuraavan DSpace-version eli DSpace 7:n olisi pitänyt ilmestyä jo aikoja sitten. Uuteen Angular2-teknologiaan perustuvan käyttöliittymän rakentaminen ja kaikki sen edellyttämät taustatyöt (mm. uusittu REST-rajapinta) ovat kuitenkin vaatineet odotettua enemmän aikaa, etenkin kun resursseja on ollut käytettävissä vähemmän kuin olisi voinut toivoa. Osasyynä resurssien vähäisyyteen on ollut sekin, että pari vuotta sitten ilmestynyt DSpace 6 on vaatinut odotettua enemmän huomiota myös julkaisemisen jälkeen. Tänä vuonna työmäärää on lisännyt myös se, että keväällä päätettiin tehdä pitkään toivottuja uudistuksia myös DSpace 7:n tietomalliin, vaikka välillä oltiin jo kallistumassa sille kannalle, että ne jätettäisiin seuraaviin versioihin. Tämänhetkisen käsityksen mukaan DSpace 7:n pitäisi tulla saataville alkuvuodesta 2019.

DSpacen kehitystyö on versio versiolta jäänyt yhä enemmän kahden keskeisen kaupallisen palveluntarjoajan, Atmiren ja 4Sciencen, varaan. Kumpikin firma on panostanut avoimen DSpace-koodin kehitystyöhön kiitettävästi, mutta ne ovat kuitenkin toistensa pahimpia kilpailijoita, mikä aiheuttaa aika ajoin jännitteitä. DSpace 7:n osalta Atmire on koordinoinut uuden käyttöliittymän kehitystyötä, kun taas 4Science on tehnyt enemmän töitä REST-rajapinnan kanssa.

Olen ollut parin vuoden ajan Kansalliskirjaston edustajana mukana DSpacen ohjausryhmässä, joten olin jo valmiiksi kohtuullisen hyvin perillä siitä, missä DSpace 7:n kehitystyössä mennään.  Tästä huolimatta oli mielenkiintoista nähdä käytännön demoja siitä, mitä konferenssiin mennessä oli saatu aikaan. DSpacen technical leadin Tim Donohuen esitys DSpace 7:stä ja siihen sisältynyt demo uudistetusta syöttöprosessista oli innostava, vaikka se samalla herätti pohdintaa siitä, miten paljon työtä esim. meillä on edessämme olemassaolevien palveluiden siirtämässä uuteen ympäristöön. Uuteen versioon on tulossa paljon muitakin uusia ominaisuuksia (mm. tuki OAI-PMH:n korvaajaksi tarkoitetulle ResourceSync-protokollalle ja metadatan verkkonäkyvyyttä parantavalle signpostingille), ja vaikka tietomallin osalta kehitystyön ennakoidaan jatkuvan myös DSpace 7:ää seuraavissa versioissa, se tarjoaa jo tähän versioon suunnitellussa muodossaan aiempaa joustavampia mahdollisuuksia erityyppisten entiteettien kuvailuun ja linkittämiseen toisiinsa. Käytännön sovelluksista voi mainita esim. aiempaa paremman tuen lehtimuotoisten aineistojen esittämiseen.

Kuva: Tim Donohue käy läpi DSpace 7:n kehitystyön vaiheita.

Kävin uteliaisuudesta kuuntelemassa vastaavaa Fedoran kehitystyön kuulumisia esitellyttä sessiota. Myös sillä puolella on tapahtumassa paljon – jos Fedora- ja DSpace-yhteisöjen toimintaa pitäisi jotenkin vertailla, ehkä asian voisi ilmaista siten, että DSpacen yhteydessä kehityssuunnitelmat ovat tyypillisesti käytännönläheisiä, kun taas Fedoran osalta ne ovat ainakin teknisestä näkökulmasta katsottuna selkeästi kunnianhimoisempia mutta myös abstraktimpia. Tämä ero selittyy varmasti suurelta osin sillä, että Fedoran puolella yhteys käytännön tarpeisiin toteutuu Fedoran päälle rakennettujen erillisten ohjelmistokokonaisuuksien (Samvera ja Islandora) kautta.

Toisaalta Ruby on Rails -ohjelmointikieleen ja Blacklight-ohjelmistoon perustuvan Samveran varaan on myös rakennettu useita erillisiä sovelluksia (mm. Hyrax ja Hyku). Vaikka Fedoralla, Samveralla ja Islandoralla on isojen amerikkalaisyliopistojen resurssit takanaan, väistämättä tulee mieleen, riittääkö edes niiden muodostama kriittinen massa pidemmällä tähtäimellä näiden kaikkien alati laajenevien rönsyjen ylläpitoon ja kehittämiseen.

Lopuksi

Lentojen viivästymiset tekivät paluumatkastani jo tavanomaiseksi käyneen jännitysnäytelmän. Tein varmaan Chicagon O’Hare-lentokentän kolmosterminaalin läpi pinkoessani oman 400 metrin ennätykseni, mutta ehdin kuin ehdinkin viimeisenä matkustajana jatkolennolleni, vaikkei sen oikeastaan olisi kellon mukaan pitänyt enää olla mahdollista.

Vaikka pitkät matka-ajat ja aikaero olivat odotetusti vähemmän mukavia kokemuksia, matka oli kokonaisuutena kuitenkin antoisa. Tämä oli minulle peräti jo seitsemäs Open Repositories -konferenssi, ja vaikka osa ohjelmasta oli ehkä turhankin tutun oloista, mukana oli myös paljon uutta ja kiinnostavaa, osin innostavaakin sisältöä. Samalla konferenssi oli tietysti erinomainen tilaisuus sekä tavata vanhoja tuttuja että tutustua uusiin oman alani ihmisiin.

Konferenssin virallisen ohjelman ohella osallistuin Bozemanissa Open Repositories -konferenssien ohjausryhmän kokoontumisiin. GDPR-kuvioita ei päässyt karkuun täälläkään. Seuraava konferenssi järjestetään parin vuoden tauon jälkeen Euroopassa, 10.-13.6.2019 Hampurissa, jonne on toivottavasti taas enemmän tulijoita myös Suomesta. Konferenssin Call for Proposals julkaistaan näillä näkymin lokakuun 2018 puolivälin jälkeen.

Kuva: Koulubusseja odottamassa työpäivän päättymistä,

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
jyrki.ilva [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.