Open Repositories 2016 Dublinissa

Ilva J (2016). Open Repositories 2016 Dublinissa. Tietolinja, 2016(3). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2016100724916

Open Repositories 2016 järjestettiin 13.-16.6. Dublinissa, keskellä kaupunkia sijaitsevalla Trinity Collegen kampuksella ja sen lähiympäristössä.  Osallistujia oli suurin piirtein saman verran kuin kaksi vuotta sitten Helsingissä, noin 480, ja ohjelma oli edellisten konferenssien tapaan runsas ja monipuolinen.

Kuva: Trinity Collegen kampusta,

Kuva: Trinity Collegen kampusta

Kansalliskirjasto oli tällä kertaa mukana viisihenkisellä joukkueella, johon kuuluivat minun ohellani Anis Moubarik, Päivi Rosenström, Tanja Vienonen ja Samu Viita. Meidän lisäksemme Suomea edustamassa oli ainoastaan Mikko Vatanen CSC:ltä, jolla oli kansallista pitkäaikaissäilytysjärjestelmää käsittelevä esitys viimeisen konferenssipäivän Big Data -sessiossa. Meillä oli Kansalliskirjaston puolesta tällä kertaa vain posteri, jossa esiteltiin valtioneuvoston kanslian uutta Valto-julkaisuarkistoa.

Konferenssin ohjelma

Helsingin konferenssin tapaan Dublinissa oli varsinaisen pääkonferenssin rinnalla myös neljän avoimen lähdekoodin julkaisuarkisto-ohjelmiston, DSpacen, EPrintsin, Fedoran ja Invenion, käyttäjäryhmien vuosittaiset kokoontumiset. Helsingistä ja viimevuotisesta Indianapolisin konferenssista poiketen käyttäjäryhmät oli nyt integroitu osaksi pääkonferenssin ohjelmaa siten, että ohjelmassa oli samaan aikaan sekaisin sekä yleisiä että käyttäjäryhmiin kuuluvia sessioita. Viime vuoden tapaan mukana oli myös erillinen Developer Track, jossa oli kehittäjille suunnattua enemmän teknologiapainotteisia ohjelmaa – tämä osoittautui niin suosituiksi, että sessioita jouduttiin siirtämään isompiin tiloihin.

Kuva: Konferenssin posterisessiossa oli ahdasta,

Kuva: Konferenssin posterisessiossa oli ahdasta

Koska koko ohjelma oli esikonferensseineen päivineen tiivistetty neljään päivään (Helsingissä päiviä oli vielä viisi), samanaikaisia rinnakkaissessioita oli enimmillään kuusi, ja monessa kohdassa kiinnostavia esityksiä olisi ollut tarjolla samaan aikaan monessa eri paikassa. Vaikka aikataulu oli hektinen ja monenlaista jäi sen takia väistämättä väliin, sekä oman kokemukseni että palautekyselyn perusteella konferenssin tämänvuotista ohjelmaa pidettiin sekä järjestyksen että sisällön puolesta antoisana ja onnistuneena.

Konferenssin molemmat keynote-puheenvuorot olivat yllättävänkin poliittisia, mikä sopi hyvin konferenssin pääteemaan (”Illuminating the World”). Konferenssin avaussessiossa puhunut Laura Czerniewicz (University of Cape Town) käsitteli tieteellisen julkaisutoiminnan näkyvyyttä (tai pikemminkin näkymättömyyttä) etenkin kehitysmaiden näkökulmasta. Päätössession keynoten pitänyt Open Knowledge Foundationin perustaja Rufus Pollock puolestaan kannusti konferenssin osallistujia aktiiviseen toimintaan – jos emme tee mitään, elämme pian dystopiassa (”Dystopia is the default”).

Minua tämä suuntautuminen poliittisen tason kysymyksiin ei haitannut, mutta konferenssin jälkeen kerätyn osallistujapalautteen perusteella keynote-puheenvuorot – etenkin Pollock – jakoivat kuitenkin kovasti mielipiteitä.

Aurinko paistaa jälleen DSpace-maailmassa

Helsingin konferenssin aikaan DSpace-leirin tunnelmat olivat alamaissa, mutta vuosi sitten Indianapolisissa tilanteeseen oli selkeästi tartuttu ja ohjelmiston tulevaisuutta hahmoteltiin tiekartan muodossa pari versiopäivitystä eteenpäin. Vaikkei taivas ihan pilvetön ole vieläkään, Dublinissa DSpace-sessioissa oli pitkästä aikaa havaittavissa lievää innostusta.

dspace6b

Kuva: DSpace-kehittäjiä, Tim Donohue, Bram Luyten, Ivan Masár

Alun perin jo viime vuodenvaihteeksi lupaillun DSpace 6.0:n valmistuminen on viivästynyt pahemman kerran, mutta se ei tuntunut kuitenkin suuremmin kehittäjäyhteisöä ahdistavan. Ajatukset tuntuivat olevan jo seuraavassa versiossa eli DSpace 7:ssä, jonka on tarkoitus olla ensimmäinen uuden sukupolven versio. DSpace 7:ää on lupailtu jo ensi vuoden loppupuolelle, mutta edellisen version viivästyminen huomioiden 2018 saattaa lopulta osoittautua realistisemmaksi arvioksi.

DSpace 7:n merkittävin uudistus on uusi käyttöliittymä (ks. Tim Donohuen esitys), joka korvaa aiemmat JSP- ja XML-pohjaiset käyttöliittymät. Aika ajanut kummankin ohi, ja vaikka kokonaan uusi käyttöliitymä on tietysti hyppäys tuntemattomaan, se tarjoaa samalla mahdollisuuden kahtiajakautuneen DSpace-yhteisön yhdistämiseen.

Uuden käyttöliittymän teknologiaksi valikoitui syksyn ja talven aikana järjestetyn suunnittelukilpailun tuloksena JavaScript-pohjainen Angular2, joka on uusi ja erittäin moderni ratkaisu. Ideana on se, että palvelimelta ladatun ensimmäisen sivun jälkeen DSpace-arkiston sivujen ulkoasu generoidaan palvelinpuolen sijasta JavaScriptin avulla käyttäjän selaimessa. DSpace-kehittäjät ovat keskustelleet uudesta käyttöliittymästä myös Google Scholarin vetäjän Anurag Acharyan kanssa varmistaakseen, ettei se heikennä arkistojen hakukonenäkyvyyttä.

Dublinissa käyttöliittymä oli vielä lähinnä proof-of-concept-tasolla, mutta näköpiirissä oli jo mahdollisuuksia kehittää mm. syöttölomakkeiden luomista huomattavasti nykyistä joustavammaksi. Uuden käyttöliittymän kehitystyötä on esitelty myös YouTubessa julkaistuilla videoilla.

Käyttöliittymän ohella myös DSpacen tietomalliin lienee tulossa merkittäviä uudistuksia. DSpace-CRIS-modulin kehittäjiin kuuluva Andrea Bollini esitteli asian DSpacen kehittäjä- ja käyttäjäryhmän kokouksessa. Taustalla ovat DSpace-CRIS:in tarpeet – jos halutaan, ettei se irtaannu kokonaan DSpacen kehityslinjasta omaksi haarakseen, DSpacen tietomallia täytyy päivittää siten, että se tukee julkaisujen kuvailun lisäksi myös muun tyyppisten entiteettien kuvailua. DSpace-CRIS:issä kuvailtavia asioita ovat henkilöt, projektit ja organisaatiorakenteet (ks. DSpace-CRIS:in tietomallin esittely), mutta ainakin Dublinissa tavoitteeksi asetettiin geneerinen tietomalli, joka tukisi myös muun tyyppisten entiteettien kuvailua.

DSpacen tämänhetkinen tietomalli on jo aiemmin koettu käyttäjäyhteisön piirissä rajoittavana, eli ei ehkä ollut yllätys, että idea sai kokouksessa järjestetyssä äänestyksessä laajan kannatuksen, ainakin abstraktilla tasolla. Ajatuksena on se, että DSpace-CRIS säilyy edelleen erillisenä modulina, jonka voi ottaa halutessaan käyttöön. On kuitenkin todennäköistä, että sen käyttö yleistyy uuden käyttöliittymän myötä: tähän asti haasteena on ollut se, että DSpace-CRIS on ollut tarjolla vain JSP-käyttöliittymän käyttäjille (esim. Suomessa kaikilla DSpace-arkistoilla on XML-käyttöliittymä).

Tosin taivaalla on myös pilviä…

DSpace on viime vuosina laajentanut käyttäjäkuntaansa etenkin kolmannen maailman maissa, tosin esim. Kiinassa ohjelmiston kehitys on irtautunut ainakin tilapäisesti DSpacen päälinjasta omille teilleen (”CSpace”) DSpace-version 1.4. jälkeen.  Samalla käyttäjäkunnan painopiste on muutenkin siirtynyt yhä voimakkaammin USA:n ulkopuolelle, etenkin kun USA:n isoissa yliopistoissa on tapahtunut siirtymää DSpacesta Fedoran suuntaan.

Kuva: DSpace-ohjausryhmä vastasi osallistujien kysymyksiin

Kuva: DSpace-ohjausryhmä vastasi osallistujien kysymyksiin

Kansainvälistymiskehityksestä huolimatta DSpace-ohjelmistoa ja sen kehitystyötä hallinnoiva DuraSpace-organisaatio toimii USA:ssa ja sen toiminta on väistämättä ollut jossain määrin USA-keskeistä. Tilannetta on pyritty tasapainottamaan uudella ohjausrakenteella, jossa USA:n ulkopuolisilla toimijoilla on aiempaa laajempi edustus (Kansalliskirjastokin on ollut tästä syksystä alkaen – allekirjoittaneen voimin – mukana DSpace-ohjausryhmässä). Tämä ei ole ainakaan toistaiseksi tuonut helpotusta DSpacea vaivaavaan taloudelliseen haasteeseen: pääosa DuraSpacen tekemän koordinointityön rahoituksesta on tullut jäsenmaksuina USA:sta, kun taas Euroopan ja muun maailman osuus on ollut vähäinen (ks. lista DSpace-jäsenistä). Esim. Suomessa Kansalliskirjasto on ollut ainoa organisaatio, joka on tukenut DSpacen kehitystyötä rahallisesti. Niinpä DSpacella on ollut suuria vaikeuksia saada kokoon edes suhteellisen vaatimatonta 280.000 dollarin vuosittaista keräystavoitetta.

Valitettavasti tulojen määrä näkyy suoraan resursseissa, joita DuraSpace pystyy käyttämään ohjelmiston kehittäjäyhteisön tukemiseen. Vaikka Fedoran käyttäjä- ja kehittäjäyhteisö on pienempi, sillä on takanaan useita varakkaita amerikkalaisyliopistoja, joiden antaman taloudellisen tuen ansiosta sillä on käytännössä kaksinkertaiset resurssit (ks. lista Fedora-jäsenistä). Eurooppalaisten tutkimuskirjastojen keskuudessa olisi epäilemättä tarvetta käydä vakavaa keskustelua siitä, aikovatko ne jättäytyä avoimen lähdekoodin maailmassa pelkiksi vapaamatkustajiksi vai olisiko niiden omienkin intressien mukaista tukea avoimen lähdekoodin ohjelmistojen kaltaisten kaikkia hyödyttävien jaettujen työkalujen kehitystyötä. Kyse kun ei oikeastaan edes ole kovin suurista rahasummista.

Vaikka rahoitustilanne haittaa DSpace-kehitystyön koordinointia, sen yhteyteen kehitellään uusia teknisiä ratkaisuja eri puolilla maailmaa. Missasin itse varsinaisen esityksen, mutta espanjalaisten DSpacen yhteyteen kehittämä vertaisarviointimoduli herätti konferenssin aikana paljon mielenkiintoa. Oma vaikutelmani on, että vertaisarvioinnin tekninen toteutus on vasta yksi askel, jonka lisäksi tarvittaisiin myös keskustelua konseptista, ts. mikä oikeastaan julkaisuarkiston rooli ja millainen on sen ja tieteellisten julkaisukanavien välinen työnjako.

Maailmanvalloitussuunnitelmia

Muista julkaisuarkisto-ohjelmistoista eniten aktiivisuutta tuntui edellisvuosien tapaan olevan Fedoran ympärillä.  Fedoralla on ollut innokkaita käyttäjiä etenkin isoissa amerikkalaisissa yliopistoissa, mutta maailmanlaajuisesti sen käyttäjäkunta ei ole ollut kovin laaja. Historiallisesti tämä on johtunut siitä, että Fedoran käyttöönotto on ollut varsin korkean kynnyksen takana ja vaatinut kehittäjäresursseja, kun taas esim. DSpace ja EPrints ovat olleet enemmän avaimet käteen -tyyppisiä valmisohjelmistoja. Toisaalta Fedora on kuitenkin venynyt paremmin erilaisiin käyttötarpeisiin, mikä on ollut merkittävä kriteeri suurille amerikkalaisille yliopistokirjastoille, joilla on usein laajoja kulttuuriperintöaineistojen kokoelmia.

Fedora-yhteisö on jakautunut eri leireihin käyttöliittymien suhteen: suosituimmat käyttöliittymät ovat olleet Drupaliin perustuva Islandora ja Blacklightin/Ruby-on-Railsin varaan rakennettu Hydra. Islandora ei ollut Dublinissa kovin paljon esillä, Hydra sen sijaan jo perinteiseen tapaan sitäkin enemmän.

Konferenssissa esiteltiin ensimmäisiä näytteitä rakenteilla olevasta Hydra-in-a-Box-sovelluksesta, joka on suunniteltu DSpacen kaltaiseksi helposti käyttöönotettavaksi julkaisuarkisto-ohjelmistoksi. Kehitystyötä tehdään projektirahoituksella kolmen USA:laisen toimijan, Stanfordin yliopiston, DuraSpacen ja Digital Public Library of American (DPLA) yhteistyönä. Hydra-yhteisön piiristä kuultiin etenkin käytäväkeskusteluissa hyvin voimakkaita odotuksia maailmanvalloituksesta, tai ainakin Fedoran ja Hydran nostamisesta johtavaksi julkaisuarkisto-ohjelmistoksi. Dublinissa esiteltiin mm. kehitystyön tueksi tehtyä markkinaselvitystä, jota varten oli haastateltu muiden julkaisuarkisto-ohjelmistojen (etenkin DSpace) käyttäjiä ja pyritty selvittämään millä argumenteilla näitä voitaisiin käännyttää Hydra-käyttäjiksi.

Kuva: Hydra-in-a-Boxin suunniteltuja ominaisuuksia

Kuva: Hydra-in-a-Boxin suunniteltuja ominaisuuksia

Hydra-in-a-Boxin kehitystyö on vielä kesken (ja tuotteen lopullinen nimi vielä mietinnässä), joten sen oletetusta ylivertaisuudesta ei ollut vielä mahdollista muodostaa käsitystä. Itseäni totta puhuen hieman häiritsee se, että tavoitteeksi on asetettu nimenomaan uuden DSpacea vastaavat toiminnallisuudet tarjoavan julkaisuarkisto-ohjelmiston rakentaminen – eikö saman tien olisi voinut pyrkiä vielä rohkeammin kokonaan uuden konseptin luomiseen?

Käyttötilastoinnin haasteita

Julkaisuarkistojen käyttötilastointiin liittyvät kysymykset olivat konferenssissa esillä useammassa sessiossa, joista yksi on katsottavissa myös videona (alkaa kohdasta 2:08:50).  Keskustelun lähtöpisteenä oli Joseph W. Greenen University College Dublinissa tekemä tutkimus, jonka mukaan jopa 85% julkaisuarkistoon tallennettujen tiedostojen latauksista oli robottien tekemiä. ”Syyllisiä” ovat pääasiassa hakukoneiden robotit, joiden tekemiä latauksia on toki pyritty vaihtelevalla menestyksellä suodattamaan julkaisuarkistojen tilastoista jo aiemmin.

Robottien ja muiden häiriötekijöiden automaattisessa tunnistamisessa on kuitenkin haasteita, minkä vuoksi julkaisuarkistojen – ja useimpien muiden verkkopalveluiden – käyttötilastoihin on ollut syytä suhtautua varovaisesti. Numerot, etenkin kun ne ovat suuria, vievät helposti mennessään, etenkin jos ei tiedä mitä kaikkia tekijöitä niitä tulkitessaan täytyy ottaa huomioon.

Rightsstatements.org esittelyssä

Varsinaisen julkaisuarkistosisällön lisäksi konferenssin ohjelmassa oli myös muita kiinnostavia aiheita. DPLA:n ja Europeanan yhteistä rightsstatements.org-hanketta esiteltiin DPLA:n sisällöstä vastaavan johtajan Emily Goren vetämässä sessiossa, joka oli erittäin mielenkiintoinen. DPLA:n ja Europeanan kaltaisten aggregaattorien näkökulmasta aineistojen käyttöoikeustietoihin on liittynyt suuria haasteita, sillä aineistojen esillepanosta vastaavat organisaatiot ovat asettaneet käytölle monenlaisia ehtoja, jotka on esitetty aineistojen metadatassa hyvin vaihtelevilla tavoilla. Goren mukaan käyttöoikeustietoja sisältävissä kentissä on ollut yhteensä enemmän tekstiä kuin missään muussa sen keräämään aineistoon sisältyvässä metadatakentässä.

Rightsstatements.orgin ideana on pyrkiä siihen, että käyttöoikeustiedot liitettäisiin metadataan selkeällä, standardoidulla ja koneluettavalla tavalla, joka perustuu suurelta osin Creative Commons -lisensseihin. Eri maiden lainsäädäntöjen eroavaisuuksista johtuen täydelliseen globaaliin ratkaisuun pääseminen on vaikeaa, mutta rightsstatement.orgin kehittelemät ratkaisut ovat joka tapauksessa ainakin kulttuuriperintöaineistojen näkökulmasta lupaavia. Goren ja kumppaneiden esitys on katsottavissa videona (sessio alkaa kohdasta 7:09:00).

Kolme iitä ja äffä

Konferenssin avauspäivänä olisi ollut International Image Interoperability Frameworkia (IIIF) käsittelevä työpaja, mutta se minulta jäi valitettavasti väliin. Kuuntelin kuitenkin myöhemmin konferenssin aikana lyhyen esityksen hankkeen nykytilasta, ja täytyy myöntää, että olin vaikuttunut. Pienestä piiristä lähtenyt hanke on kasvanut muutamassa vuodessa laajaksi globaaliksi konsortioksi, jossa on mukana suuri osa keskeisistä toimijoista eri sektoreilta, ml. monen maan kansalliskirjastot. Suomessa IIIF näyttää kuitenkin toistaiseksi jääneen tuntemattomaksi, tai ainakaan konsortion jäsenten joukossa ei ole mukana yhtään suomalaista organisaatiota.

Kuva: Rob Sanderson esittelee IIIF:ää

Kuva: Rob Sanderson esittelee IIIF:ää

IIIF:n tavoitteena on luoda yhteisiä standardeja, ohjelmistoja ja rajapintoja kuvien ja niihin liittyvän informaation välittämiseen yhdenmukaisessa, rikkaassa formaatissa järjestelmästä toiseen ja samalla myös tutkijoiden käyttöön. Tavoite on koettu tärkeäksi etenkin digitoitujen kulttuuriaineistojen kanssa työskentelevissä organisaatioissa, sillä tähän asti aineistot ovat usein olleet esillä paikallisesti kehitetyissä käyttöliittymissä, jotka eivät ole kyenneet välittämään kuvatiedostoja ja kuvailutietoja standardoidussa muodossa muihin järjestelmiin. Konsortion verkkosivuilla on jo käytännön toimintaohjeita ja apuvälineitä yhteistyöstä kiinnostuneille organisaatioille.

Ensi vuonna Australiaan

Seuraava Open Repositories -konferenssi järjestetään 26.-30.6.2017 Brisbanessa Australiassa (ks. konferenssin verkkosivut). Tästä on konferenssin järjestäjien keskuudessa puhuttu ”paluuna” Australiaan, sillä kaikkien aikojen ensimmäinen Open Repositories järjestettiin Sydneyssä vuonna 2006.

Konferenssin järjestelyt ovat nyt hyvässä vauhdissa, ja myös Call for Proposals on jo saatavilla. Ehdotusten deadline on tällä kertaa pari kuukautta aiempia vuosia aikaisemmin, koska konferenssin järjestäjät ovat halunneet varmistaa, että osallistujat pääsevät tekemään matkavarauksiaan ajoissa.  Suomen näkökulmasta Brisbane on kaukana, muttei ehkei kuitenkaan niin kaukana, etteikö täältäkin päästäisi paikalle.

Kuva: Samu Viita ja Anis Moubarik (keskellä) lounastamassa konferenssin aikana

Kuva: Samu Viita ja Anis Moubarik (keskellä) lounastamassa konferenssin aikana

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
jyrki.ilva [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.