Suomalaiset julkaisuarkistot vuonna 2017: menestystä ja haasteita

Ilva J (2017). Suomalaiset julkaisuarkistot: menestystä ja haasteita. Tietolinja, 2017(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201702151611

Avoimia julkaisuarkistoja on Suomessa rakennettu pääosin matalalla profiililla. Tästä huolimatta ne ovat tuoneet korkeakouluissa ja muuallakin julkisella sektorilla tuotettua informaatiota ennennäkemättömässä laajuudessa sekä tiedeyhteisön että suuren yleisön saataville. Tämä artikkeli kartoittaa suomalaisten julkaisuarkistojen tämänhetkistä tilannetta ja niihin liittyviä lähitulevaisuuden haasteita, mm. julkaisuarkistojen suhdetta tutkimustietojärjestelmiin.

Suomalaiset julkaisuarkistot

Vaikka opinnäytteiden ja sarjajulkaisujen verkkojulkaisemisen historia ulottuu Suomessa 1990-luvun lopulle saakka, nykymuotoisten julkaisuarkistojen rakentaminen lähti toden teolla liikkeelle kymmenkunta vuotta sitten. Julkaisuarkistokäyttöön suunnitellut avoimen lähdekoodin ohjelmistot olivat tässä vaiheessa kehittyneet niin pitkälle, että niistä oli tullut varteenotettava vaihtoehto myös digitaalisten aineistojen hallintaan soveltuvaa työkalua etsivien suomalaiskirjastojen näkökulmasta. Tällä hetkellä lähes kaikilla suomalaisilla korkeakouluilla ja useimmilla tutkimuslaitoksilla on käytössään julkaisuarkisto, minkä lisäksi niitä on käytössä myös ministeriöillä, virastoilla ja tieteellisillä seuroilla.

Suomalaisten julkaisuarkistojen tilannetta on viimeksi kartoitettu laajemmin pari vuotta sitten Avoin tiede ja tutkimus -hankkeen Julkaisujen avoimen saatavuuden edistäminen -työryhmän raportissa (s. 33-45). Monien muiden maiden tapaan julkaisuarkistot ovat Suomessa hajautettu infrastruktuuri. Osalla tutkimusorganisaatioista on oma julkaisuarkistoinstanssi, osa taas on mukana usean organisaation yhteisessä julkaisuarkistossa. Osa julkaisuarkistoista hyödyntää Kansalliskirjaston tarjoamaa keskitettyä teknistä infrastruktuuria, osa yliopistoista taas ylläpitää omaa paikallista infrastruktuuriaan.

Kaikkiaan Suomessa on tällä hetkellä toistakymmentä erillistä julkaisuarkistoa, tarkka määrä riippuu jossain määrin käytetystä julkaisuarkiston määritelmästä. Oulun yliopistoa lukuunottamatta palvelut perustuvat DSpace-ohjelmistoon:

Aaltodoc – Aalto-yliopisto
Doria* – 10 organisaatiota
Helda – Helsingin yliopisto ja 10 muuta organisaatiota
Jukuri* – Luonnonvarakeskus
Julkari* – 6 pääasiassa sosiaali- ja terveysministeriön alaista organisaatiota
Jultika– Oulun yliopisto [perustuu Fedoraan ja VuFindiin]
JyX – Jyväskylän yliopisto
Lauda* – Lapin yliopisto
Tampub* – Tampereen yliopisto
Theseus* – 26 ammattikorkeakoulua
Tut DPub – Tampereen teknillinen yliopisto
UEF Electronic Publications – Itä-Suomen yliopisto [uusi DSpace-pohjainen arkisto on tulossa tuotantokäyttöön lähiaikoina]
Valto* – Valtioneuvosto

Listauksessa on mainittu julkaisuarkiston nimen jälkeen sitä ylläpitävän organisaation nimi, tai jos kyseessä on usean organisaation jaettu arkisto, mukana olevien organisaatioiden määrä. Tähdellä (*) merkityt arkistot sijaitsevat Kansalliskirjaston ylläpitämässä keskitetyssä infrastruktuurissa.

Kuva: Antti Laurila esittelee Itä-Suomen yliopiston uutta julkaisuarkistoa Suomi rinnakkaistallennuksen mallimaaksi -hankkeen päätösseminaarissa 24.2.2017.

Kuusi yliopistoa ylläpitää siis omaa palveluaan itsenäisesti. Kansalliskirjasto puolestaan toimii palveluntarjoajana yli neljällekymmenelle muulle organisaatiolle, minkä lisäksi Helsingin yliopiston kirjaston ylläpitämässä Helda-julkaisuarkistossa on Helsingin yliopiston lisäksi mukana muitakin organisaatioita. Vaikka kenttä on jossain määrin hajanainen, julkaisuarkistojen välinen kansallisen tason yhteistyö on kuitenkin yleisesti koettu hyödylliseksi. Merkittävin este yhteistyön kehittymiselle onkin ollut sitä tukevien resurssien puute, sillä toiminnan koordinointi ei ole tällä hetkellä oikein selkeästi minkään organisaation vastuulla. Toisaalta esim. TAJUA-hankkeen puitteissa tehty julkaisuarkistojen yhteisen metadatasuosituksen luominen eteni projektirahoituksen turvin hyvää vauhtia (ks. metadatasuositusta koskeva uutinen).

Kansalliskirjaston tarjoamia julkaisuarkistopalveluita esiteltiin Tietolinjassa viimeksi viisi vuotta sitten. Toiminnan volyymi on tämän jälkeen kasvanut, sekä aineistojen, asiakkaiden että DSpace-instanssien määrällä mitattuna (ks. myös viime syksynä julkaistu Samu Viidan haastattelu DuraSpacen verkkosivuilla). Muille organisaatioille tarjottava julkaisuarkistopalvelu on edelleen kokonaan maksullista palvelutoimintaa, eli sillä ei ole lainkaan keskitettyä rahoitusta. Käytännössä tämä näkyy mm. siinä, että pääosa resursseista kuluu ylläpitoon ja yksittäisille asiakkaille tuotettaviin palveluihin, mistä syystä voimavaroja koko infrastruktuuria koskevaan pidemmän aikavälin kehitystyöhön on jossain määrin rajallisesti.

Kuva: Lapin yliopiston Lauda-julkaisuarkisto sijaitsee Kansalliskirjaston ylläpitämässä teknisessä infrastruktuurissa.

DSpace – luotettava työjuhta

DSpace on koko maailman tasolla edelleen ylivoimaisesti laajimmin käytetty julkaisuarkisto-ohjelmisto. Se on avoimen lähdekoodin ohjelmisto, eli sen voi ottaa käyttöön aivan vapaasti ilman sopimuksia tai maksuja. DSpacen tavoin myös muut keskeiset julkaisuarkisto-ohjelmistot (EPrints, Fedora ja Invenio) ovat avointa lähdekoodia.

Avoin lähdekoodikaan ei synny itsestään tai ilman resursseja. DSpacen tapauksessa ohjelmiston kehittämisestä vastaa kansainvälinen kehittäjäyhteisö. Kehittäjäyhteisöön kuuluu tällä hetkellä parikymmentä committer-statuksen saanutta kehittäjää ja huomattavasti isompi joukko muita koodaajia, jotka ovat osallistuneet satunnaisemmin ohjelmiston kehitystyöhön. Kehitystyötä tehdään pääosin vapaaehtoisvoimin, mikä käytännössä tarkoittaa usein sitä, että kehittäjien työnantajat antavat heidän käyttää osan työajastaan ohjelmiston koodaamiseen.

Uusien ominaisuuksien kehittämisen lisäksi myös vanha koodi tarvitsee ylläpitoa, ja ohjelmistosta väistämättä löytyvät virheet pitää pystyä korjaamaan, joskus hyvinkin nopealla aikataululla. Vaikka kaikki tämä vaatii paljon työtä ja joskus erilaisten näkemysten ja prioriteettien yhteensovittamista, yhteistyöllä saadaan kuitenkin aikaan monin verroin enemmän kuin jos kaikki ohjelmiston tekemiseen osallistuvat puuhastelisivat kukin oman sovelluksensa parissa.

DSpacen kehittäjä- ja käyttäjäyhteisöjen toimintaa tukee ja koordinoi DuraSpace, joka on USA:ssa toimiva voittoa tavoittelematon organisaatio. DuraSpace on DSpacen lisäksi myös toisen julkaisuarkisto-ohjelmiston, Fedoran, ja tutkijoiden profiilien linkittämistä tukevan semanttisen webin VIVO-sovelluksen taustaorganisaatio. DuraSpace käyttää DSpace-yhteisön toiminnan tukemiseen vuosittain noin neljännesmiljoona dollaria, mikä kerätään jäsenmaksuina ohjelmistoa käyttäviltä organisaatioilta ja tukimaksuina rekisteröityneiltä palveluntarjoajilta. Vaikka pääosa varsinaisesta kehitystyöstä tehdään muulla rahoituksella tai vapaaehtoisvoimin, koordinoinnin vähäiset resurssit ovat olleet jo pitkään työtä hidastava pullonkaula.

Kansalliskirjasto on ollut DuraSpacen jäsen jo muutaman vuoden ajan ja tukenut sitä kautta rahallisesti DSpacen kehitystyötä. Vaikka tämä on täysin vapaaehtoista, olisi kuitenkin toivottavaa, että nykyistä useammat ohjelmistoa käyttävät ja siitä hyötyvät organisaatiot lähtisivät mukaan tukemaan sitä. Pääosa DSpacea rahoittavista organisaatioista on edelleen sen syntysijoilta Pohjois-Amerikasta, vaikka valtaosa ohjelmiston käyttäjistä on nykyään muualla. Vaikuttaa siltä, ettei esim. eurooppalaisissa kirjastoissa ole vielä kunnolla herätty avoimen lähdekoodin ohjelmistojen ja niiden taustalla olevien yhteisöjen tukemiseen, vaikka ne ovat jo pitkään olleet yleisessä käytössä ja muodostavat tärkeän osan monien kirjastojen teknistä infrastruktuuria.

Muihin ohjelmistoihin verrattuna DSpacen vahvuuksiin kuuluu sen ympärille kehittynyt rekisteröityjien palveluntarjoajien verkosto. Kaikkiaan palveluntarjoajia on toistakymmentä, eurooppalaisesta näkökulmasta merkittävimpiin kuuluvat belgialainen @mire ja italialainen 4Science, jotka kumpikin osallistuvat huomattavalla panoksella myös yleiseen DSpace-kehitystyöhön. @mire on tarjonnut DSpace-pohjaisia palveluita jo kymmenkunta vuotta, 4Science taas syntyi viime vuonna kun mm. DSpace CRIS -modulia kehittäneet ”Italian CSC:n” Cinecan työntekijät siirtyivät uuteen firmaan. Vaikka näillä firmoilla on omatkin kaupalliset intressinsä, niiden kannalta on elintärkeää pitää DSpace uskottavana ohjelmistoalustana.

DSpacen ensimmäinen versio julkaistiin puolitoista vuosikymmentä sitten, ja vaikka ohjelmistosta on tullut säännöllisesti uusia versioita, sen koodipohja alkaa olla joiltakin osin jo varsin ikääntynyt. Sillä on ollut myös jonkinasteisia imago-ongelmia: vaikka ohjelmisto sinällään on ollut toimiva ja luotettava, sen ympärillä on ollut viime vuosina vähänlaisesti innostusta, ja sitä on pidetty jähmeänä ja vaikeasti muokattavana. Tilannetta ei ole auttanut sekään, että ohjelmistolla on ollut kaksi kilpailevaa käyttöliittymää, joista kummallakin on ollut omat vannoutuneet kannattajansa.

DSpacen täydelliseen uudelleenkoodaamiseen kehittäjäyhteisöllä ei ole ainakaan tällä hetkellä resursseja, joten tilannetta yritetään kohentaa muilla keinoilla. Pari vuotta sitten julkistettu tiekartta onkin onnistunut luomaan uusia odotuksia ohjelmiston tulevaisuuden suhteen. Odotukset kohdistuvat etenkin näillä näkymin todennäköisesti vuonna 2018 valmistuvaan DSpace 7:ään, johon on suunnitteilla kokonaan uusi moderniin teknologiaan (Angular2) perustuva käyttöliittymä ja muitakin uudistuksia ohjelmiston arkkitehtuuriin ja sen tukemiin tietomalleihin.

On vielä liian aikaista ennustaa miten hyvin DSpace-yhteisö onnistuu ohjelmiston modernisoinnissa. Kilpailutilanne muiden julkaisuarkisto-ohjelmistojen kanssa on joka tapauksessa kiristymässä ainakin kansainvälisellä tasolla. Fedoran pari vuotta sitten valmistunut, kokonaan uudelleen koodattu versio 4 on lisännyt merkittävästi ohjelmiston suosiota etenkin Pohjois-Amerikassa, ja vaikka kahden käyttöliittymäohjelmiston, Hydran ja Islandoran, välillä on edelleen kilpailuasetelma, etenkin Hydran asema näyttäisi olevan vahvistumassa.

Uutta Hydran pohjalle toteutettavaa julkaisuarkistosovellusta valmisteleva DuraSpacen, DPLA:n ja Stanfordin yliopiston yhteisprojekti on edennyt määrätietoisesti, ja työnimellä Hydra in a Box valmisteltu uusi ohjelmisto sai joulun alla viralliseksi nimekseen Hyku. Tavoitteena on kehittää Hykusta DSpacen kaltainen valmis, helposti käyttöönotettava järjestelmä, joka kuitenkin on DSpacea joustavampi ja tukee sitä paremmin mm. linkitettyä dataa ja kuvamuotoisten aineistojen esittämistä International Image Interoperability Frameworkin (IIIF) suositusten mukaisesti.

CERN:in kehittämä Invenio puolestaan käyttää metadataformaattinaan Dublin Coren sijasta MARC:ia, ja se onkin viime aikoina profiloitunut julkaisuarkistokäytön lisäksi myös etenkin pienille ja keskisuurille tutkimusorganisaatioille soveltuvana kirjastojärjestelmänä.

Nähtäväksi jää, onko näillä kehityssuunnilla jossain vaiheessa vaikutusta Suomen tilanteeseen vai säilyttääkö DSpace nykyisen valta-asemansa myös DSpace 7:n valmistumisen jälkeen. Esim. Hydran heikkoutena on toistaiseksi ollut se, että sillä on vähän eurooppalaisia käyttäjiä, eli on epäselvää miten nopeasti sen tarjoamat toiminnallisuudet kehittyvät täkäläisiä tarpeita vastaaviksi.

Tutkimustietojärjestelmät julkaisuarkistojen haastajana

Julkaisuarkistot eivät toimi tyhjiössä, eikä niiden säilyminen itsenäisenä osana organisaatioiden teknistä infrastruktuuria ole pitkällä tähtäimellä välttämättä mikään itsestäänselvyys. Tällä hetkellä merkittävimmät niiden roolia koskevat kysymysmerkit liittyvät julkaisuarkistojen ja tutkimustietojärjestelmien väliseen suhteeseen. Ovatko tutkimustietojärjestelmät vähitellen tekemässä julkaisuarkistoja tarpeettomiksi?

Tutkimustietojärjestelmien (engl. Current Research Information System eli CRIS) rakentaminen on edennyt viime vuosina nopeasti suomalaisissa yliopistoissa. Järjestelmä palvelee etenkin tutkimushallinnon tarpeita, sillä se sisältää kootusti tietoja mm. yksiköistä, hankkeista ja tutkijoista sekä erilaisista näihin kytkeytyvistä tuotoksista ja aktiviteeteista, ml. henkilökunnan tuottamat julkaisut, tutkimusaineistot ja julkiset esiintymiset. Lisäksi järjestelmillä on yleensä julkinen käyttöliittymä, jossa tutkijoilla on omat profiilisivut.

Tutkimustietojärjestelmiin on usein liitetty julkaisuarkistoa vastaavia toiminnallisuuksia, jotka mahdollistavat kokotekstitiedostojen tallentamisen ja julkaisemisen. Tutkimustietojärjestelmän ja julkaisuarkiston välisen työnjaon suhteen on maailmalla päädytty vaihteleviin ratkaisuihin (ks. myös oma kolmen vuoden takainen katsaukseni pohjoismaiden tilanteeseen). Koska kummassakin järjestelmässä käsitellään organisaation tuottamien julkaisujen tietoja, järjestelmät ja niihin liittyvät prosessit on yleensä järkevää kytkeä toisiinsa jollain tavalla, joko niin että järjestelmät on linkitetty toisiinsa tai siten, että yhtä järjestelmää käytetään molempiin tarkoituksiin.

Vaikka tutkimusorganisaatioiden toimintaa ja tutkimustuotoksia koskevia tietoja on Suomessakin kerätty jo pitkään, tutkimustietojärjestelmän konsepti on vakiintunut vasta vähitellen. Aiemmin saatettiin puhua kapeammin julkaisurekistereistä ja/tai osaamistietokannoista. Vuosina 2009-2012 osana laajaa RAKETTI-hankeperhettä toiminut JURE-projekti ei saanut aikaiseksi alun perin päämääräksi ajateltua kansallista julkaisurekisteriä, mutta se kuitenkin valmisteli monella tasolla maaperää opetus- ja kulttuuriministeriön tiedonkeruun kehittämiselle ja organisaatiokohtaisten tutkimustietojärjestelmien rakentamiselle.

OKM:n alkoi kerätä yliopistojen tuottamien julkaisujen viitetietoja vuodesta 2011 lähtien. Tieteellisten julkaisujen määrästä ja laadusta tuli yksi keskeisistä kriteereistä yliopistojen rahoitusmallissa. Tämä pakotti yliopistot panostamaan tiedonkeruun prosessien ja niitä tukevien teknisten järjestelmien kehittämiseen. Sittemmin tiedonkeruu on laajentunut kattamaan myös ammattikorkeakoulut (vuodesta 2012), sairaanhoitopiirit (vuoden 2011 datasta alkaen) ja osan tutkimuslaitoksista (vuodesta 2014). Tiedonkeruun käytännön toteutuksesta on vastannut CSC. Tietojen keruu on vähitellen siirtymässä ns. Virta-malliin, jossa tiedot siirtyvät rajapintojen kautta automaattisesti tutkimustietojärjestelmistä kansalliseen tietovarantoon (ja sieltä mm. Kansalliskirjaston ylläpitämään kansalliseen Juuli-julkaisutietoportaaliin).

Toisin kuin julkaisuarkistot, tutkimustietojärjestelmät eivät ole avointa lähdekoodia, vaan kaikki suomalaiset yliopistot käyttävät tai ovat ottamassa käyttöön kaupallisia ohjelmistoja – käytännössä joko Converista, Purea tai SoleCrisiä:

Aalto-yliopisto [Pure]
Helsingin yliopisto [Pure]
Itä-Suomen yliopisto [SoleCris]
Jyväskylän yliopisto [toistaiseksi paikallisesti kehitetty järjestelmä, Converiksen käyttöönotto alkamassa]
Lapin yliopisto [Pure]
Lappeenrannan teknillinen yliopisto [Converis]
Oulun yliopisto [SoleCris]
Svenska handelshögskolan [Pure]
Taideyliopisto [SoleCris]
Tampereen yliopisto [SoleCris]
Tampereen teknillinen yliopisto [Pure]
Turun yliopisto [Converis]
Vaasan yliopisto [SoleCris]
Abo Akademi [Converis]

Converis (Clarivate Analytics, ent. Thomson Reuters) ja Pure (Elsevier) ovat kansainvälisiä markkinajohtajia, SoleCris (SoleNovo) taas on kotimainen tuote. Kaikilla organisaatioilla ei kuitenkaan ole tarvetta varsinaiselle tutkimustietojärjestelmälle: CSC on parhaillaan kehittämässä pääasiassa ammattikorkeakoulujen käyttöön Justus-nimistä palvelua, joka mahdollistaa tietojen syötön suoraan Virta-tietovarantoon.

Vaikka tutkimustietojärjestelmien ominaisuudet on luotu leimallisesti tutkimushallinnon tarpeisiin, mielenkiintoista kyllä järjestelmien ylläpito ja tietojen päivittäminen on Suomessakin siirtynyt yhä enemmän kirjastojen vastuulle. Tämä saattaa johtua siitä, ettei tutkimushallinnolla itsellään ole resursseja tai välttämättä valmiuksiakaan tietojen keräämiseen ja tarkistamiseen. Järjestelmää hankittaessa ja rakennettaessa on saattanut olla oletuksena, että tutkijat itse päivittäisivät sinne omia tietojaan ja järjestelmän avulla voitaisiin siten saavuttaa merkittäviä kustannussäästöjä. Tietojen kattavuuteen ja luotettavuuteen kohdistuvien vaatimusten vuoksi niiden hallintaan on monissa organisaatioissa lopulta päädytty sijoittamaan pikemminkin aiempaa enemmän resursseja. Kirjastot ovat puolestaan tarttuneet uuteen tehtävään osin senkin vuoksi, että ne ovat painettujen aineistojen merkityksen vähentyessä alkaneet kokea oman perinteisen roolinsa uhatuksi.

Julkaisuarkistoihin verrattuna tutkimustietojärjestelmillä on omat selkeät vahvuutensa. Järjestelmien konsepti ja niiden tukemat prosessit on suunniteltu nimenomaan tutkimustoiminnan seurannan tarpeisiin. Järjestelmien tietomalli ja niiden tukema CERIF-metadataformaatti on julkaisuarkistojen yleisesti käyttämää Dublin Corea rikkaampi, sillä se tukee julkaisutietojen lisäksi myös muun tyyppisten entiteettien kuvailua ja keskinäistä linkittämistä.

Toisaalta vaikka etenkin Elsevier on markkinoinut Purea aktiivisesti myös julkaisuarkistokäyttöön, julkaisut ja niiden mahdollinen avoimuus ovat tutkimustietojärjestelmissä vain osa laajempaa kokonaisuutta, ja niiden näkyvyys, löydettävyys tai pysyvä saatavuus ovat järjestelmän varsinaisen mission kannalta sekundäärisiä tavoitteita. Ainakin kaupallisten sovellusten osalta on ilmeistä, että kyse on tietynlaiseen käyttötarkoitukseen optimoiduista valmisohjelmistoista, joiden räätälöimismahdollisuudet ovat suhteellisen rajallisia. Ohjelmistojen kehityssuuntiin saattavat asiakkaiden toiveiden lisäksi vaikuttaa myös taustalla olevien yritysten muut intressit.

Vaikka avoimen lähdekoodin julkaisuarkisto-ohjelmistot ovat luonteeltaan kaupallisia CRIS-sovelluksia geneerisempiä, ne ovat samalla myös joustavampia ja monikäyttöisempiä. Niiden räätälöimiseen tarvitaan toki osaavaa kehittäjätyövoimaa, mutta niitä on kuitenkin mahdollista muokata yhteensopiviksi erilaisten uusien käyttötarpeiden kanssa. Julkaisuarkistoja onkin mahdollista kehittää myös tutkimustietojärjestelmän suuntaan, mistä paras esimerkki on alun perin Hong Kongin yliopiston tarpeisiin kehitetty DSpace-CRIS-moduli, joka on jo melko laajassa käytössä etenkin eteläisen Euroopan maissa.

Kuva: EuroCris-järjestön julkaisuarkisto perustuu DSpace-Crisiin.

Monenlaisia aineistoja, monenlaisia tarpeita

Kansainvälisessä vertailussa lähes kaikki suomalaiset julkaisuarkistot ovat varsin suuria. Monessa muussa maassa on paljon enemmän julkaisuarkistoja, mutta aineiston määrällä mitattuna Suomi on kuitenkin hyvää eurooppalaista tasoa. Julkaisuarkistojen ja niiden sisältämien aineistojen määriä voi vertailla esim. BASE-hakukoneen indeksoimistaan palveluista tarjoamien tietojen pohjalta. Julkaisumäärien osalta kannattaa tosin huomata, että eri maiden tiedoissa on mukana hyvinkin vaihtelevia määriä tietueita, joihin ei liity kokotekstejä, eli ne eivät ole kaikilta osin vertailukelpoisia.

Julkaisuarkistoaineistoista on harhaanjohtavaa puhua yhtenäisenä aineistotyyppinä, sillä käytännössä julkaisuarkistoihin on tallennettu hyvinkin monenlaisia aineistoja. Vaikka julkaisuarkistot yhdistetään usein open access -liikkeeseen ja erityisesti tieteellisten julkaisujen rinnakkaistallentamiseen, tieteelliset artikkelit ovat vain yksi julkaisuarkistoihin tallennetuista aineistotyypeistä. Avoimeen julkaisemiseen kytkeytyvien ideologisten päämäärien ohessa – tai jopa sijasta – onkin perusteltua nähdä julkaisuarkisto digitaalisten aineistojen hallintaan tarkoitettuna käytännön työvälineenä. Joihinkin käyttötarpeisiin se soveltuu paremmin kuin toisiin.

Kuten monessa muussakin maassa, myös Suomessa opinnäytteet ovat olleet hallitseva aineistotyyppi – niitä on noin kaksi kolmasosaa kaikista julkaisuarkistoihin tallennetuista aineistoista. Jo pelkästään ammattikorkeakoulujen yhteinen Theseus-julkaisuarkisto sisältää yli sata tuhatta vapaasti saatavilla olevaa opinnäytettä. Opinnäytteiden ohella myös organisaatioiden tuottamien raporttien ja sarjajulkaisujen osuus julkaisuarkistoihin tallennetuista aineistoista on perinteisesti ollut merkittävä. Julkaisuarkisto teknisenä järjestelmänä soveltuu lisäksi melko hyvin sekä kulttuuriperintöaineistojen että tutkimusdatan tallentamiseen. Avoimien aineistojen lisäksi järjestelmää on mahdollista käyttää jossain määrin myös käyttöoikeudeltaan rajattujen aineistojen hallintaan.

Julkaisuarkiston kaltaiselle suhteellisen edulliselle ja monikäyttöiselle dokumenttien hallinta- ja julkaisujärjestelmälle on ollut tilausta myös tutkimusorganisaatioiden ulkopuolella. Esim. Kansalliskirjaston julkaisuarkistopalveluiden asiakkaissa on tutkimusorganisaatioiden rinnalla myös virastoja ja ministeriöitä, jotka ovat kaivanneet julkaisuilleen pysyviä osoitteita hyödyntävää julkaisualustaa. Hyvä esimerkki tästä on vuosi sitten käyttöönotettu valtioneuvoston Valto-julkaisuarkisto, jossa ovat mukana kaikki ministeriöt. Ajatuksena on virtaviivaistaa myös vapaakappaleluovutuksen prosesseja siten, että sähköiset julkaisut ja niiden kuvailutiedot kerätään suoraan julkaisuarkistosta eikä niitä tarvitse luovuttaa erikseen vapaakappaleina.

Muutamassa julkaisuarkistossa (Doria, Jyx ja Helda) on muiden aineistojen ohessa myös merkittäviä määriä digitoituja kulttuuriperintöaineistoja. Lisäksi näitä aineistoja varten on perustettu dedikoituja DSpace-instansseja. Kansalliskirjaston digitoituja aineistoja on julkaistu Dorian lisäksi erillisissä Fenno-ugrica– ja Fragmenta membranea -palveluissa ja Åbo Akademin aineistoja puolestaan Hereditas Culturalis -palvelussa. Kansalliskirjasto käyttää DSpacea myös luovutuksina saatujen vapaakappaleiden – ml. kirjat ja äänitteet – tallentamiseen. Näille aineistoille tarkoitettu Varia-palvelu on tekijänoikeussyistä johtuen käytettävissä vain vapaakappalekirjastoissa. Kansalliskirjaston digitoimat laajat sanoma- ja aikakauslehtiaineistot ovat toisaalta saatavilla erillisessä digi.kansalliskirjasto.fi-palvelussa, joka perustuu avoimen lähdekoodin ohjelmistojen sijaan paikallisesti Kansalliskirjaston tarpeisiin kehitettyihin teknisiin ratkaisuihin.

Yleisissä kirjastoissa digitaalisten kokoelmien julkaisemiseen käytetään varsinaisten julkaisuarkisto-ohjelmistojen sijasta yleisesti Omekaa (ks. esim. http://digi.kirjastot.fi/). Omeka on etenkin verkkonäyttelyiden tekemiseen optimoitu avoimen lähdekoodin ohjelmisto (ks. https://omeka.org/), joka on maailmalla laajassa käytössä kirjastoissa, arkistoissa ja museoissa sekä erilaisissa kulttuuriperintöön liittyvissä hankkeissa. DSpaceen verrattuna Omekan etu on se, että se on järjestelmänä huomattavasti kevyempi ja modulaarisempi, ja sillä on helpompaa rakentaa aineistoille visuaalisia käyttöliittymiä.

Julkaisuarkistoissa on mahdollista julkaista myös lehtiä, mutta niiden käyttöliittymät tai metadataformaatit eivät sovellu erityisen hyvin lehtiaineistoille tyypillisten vuosikerroista, numeroista ja tietyssä järjestyksessä olevista artikkeleista koostuvien rakenteiden esittämiseen. Niinpä tieteelliset lehdet käyttävät julkaisuarkisto-ohjelmistojen sijasta erityisesti niiden tarpeisiin räätälöityä Open Journal Systems -ohjelmistoa (OJS), joka sekin on avointa lähdekoodia. Toisin kuin julkaisuarkisto-ohjelmistot, OJS tarjoaa valmiita työkaluja myös lehtien toimitus- ja vertaisarviointiprosessien tueksi. Suomessa Tieteellisten seurain valtuuskunnalla on ollut jo pitkään keskeinen rooli OJS-palveluntarjoajana, ja tammikuussa 2017 julkaistu uudistunut Journal.fi-palvelu näyttäisi vahvistavan sen asemaa entisestään.

Tutkimusdatan tallentamiseen tai julkaisemiseen julkaisuarkistoja ei ole Suomessa juuri käytetty, vaan niitä varten on rakennettu kokonaan erillistä infrastruktuuria mm. Avoin tiede ja tutkimus -hankkeen rahoituksella. Julkaisuarkisto-ohjelmistot soveltuisivat sinällään aivan hyvin ainakin suhteellisen yksinkertaisten datasettien julkaisemiseen. Maailmalla tämä on melko tavanomainen käyttötapaus. Organisaatiotason arkistojen lisäksi julkaisuarkisto-ohjelmistoja hyödynnetään myös kansainvälisissä tutkimusdatan julkaisemiseen tarkoitetuissa palveluissa – esim. Eudatin B2Share perustuu Invenioon ja Dryad DSpaceen.

Aineistojen löydettävyys ja käyttö

Julkaisuarkisto-konseptiin on alusta lähtien kuulunut oleellisena osana ajatus siitä, että niihin tallennettujen aineistojen kuvailutiedot on mahdollista haravoida keskitettyihin hakupalveluihin. Tämä on ollut keskeinen perustelu sille, että julkaisuarkistoja on ryhdytty rakentamaan hajautettuna, organisaatiokohtaisiin palveluihin perustuvana infrastruktuurina. Käytännössä haravoinnin on oletettu perustuvan OAI-PMH-protokollaan (Open Archives Initiative – Protocol for Metadata Harvesting), joka mahdollistaa metatietojen haravoinnin sekä Dublin Corena että muissakin formaateissa. OAI-PMH:ta täydentämään on myöhemmin luotu muitakin protokollia, mm. OAI-ORE ja ResourceSync, jotka eivät ainakaan vielä ole yhtä laajassa käytössä.

Hakupalveluiden kehitys ei kuitenkaan ole edennyt aikanaan ennakoidulla tavalla. Metadatan laatu ja yhteismitallisuus ovat osoittautuneet paljon suuremmiksi haasteiksi kuin mitä julkaisuarkistokonseptia lanseerattaessa oletettiin, eikä open access -aineistolle omistautuneista kansainvälisistä hakuportaaleista (mm. BASE, OpenAire ja CORE) ole missään vaiheessa tullut kovin suosittuja tiedonhakijoiden keskuudessa. Toisaalta tekniset rajapinnat ja kuvailutietojen haravointi ovat kuitenkin mahdollistaneet sen, että aineistoja voi tuoda näkyville monilla eri tavoin, esim. Finnan kaltaisten kirjastojen hakuportaalien tai oaDOI:n kaltaisten avoimien aineistojen paikantamisessa auttavien palveluiden kautta.

Tästä huolimatta julkaisuarkistoaineistojen näkyvyys ja niiden käyttöluvut ovat olleet suurelta osin Googlen ja Google Scholarin ansiota. Etenkin Google Scholar tuntuu suorastaan rakastavan julkaisuarkistoja. Esim. DSpace-julkaisuarkistot indeksoituvat yleensä erinomaisesti kumpaankin palveluun, ja useimmissa tapauksissa suurin osa niihin tallennettujen aineistojen käyttäjistä tulee Googlen kautta suoraan itse julkaisuun tai sen tietueeseen, käymättä millään muulla palvelun sivulla.

Vaikka useimpia julkaisuarkistoihin tallennettuja yksittäisiä julkaisuja käytetään suhteellisen vähän, koko aineiston tasolla käyttöluvut ovat monessa tapauksessa erittäin suuria. Kaikkien suomalaisten julkaisuarkistojen käytöstä ei ole toistaiseksi käytettävissä yhteismitallista tilastodataa, mutta saatavilla olevan datan perusteella vaikuttaa todennäköiseltä, että arkistojen yhteenlaskettu käyttö ylitti viime vuonna 40 miljoonan ladatun dokumentin rajan.

Lisäksi julkaisuarkistoihin tallennetut aineistot olivat lähes päivittäin esillä julkisuudessa, sekä paikallisella että usein myös valtakunnallisella tasolla. Vaikka julkaisuarkistojen muodostamaa infrastruktuuria voi vielä kehittää monin tavoin, niillä on siis jo nykyisellään suuri merkitys tieteellisen ja muunkin yhteiskunnallisesti merkittävän tiedon näkyvyyden ja pysyvän saatavuuden takajana.

Kuva: Valtioneuvoston Valto-julkaisuarkistoon tallennetut julkaisut ovat olleet moneen otteeseen esillä tiedotusvälineissä.

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
jyrki.ilva [at] helsinki.fi

Suomalaiset julkaisuarkistot vuonna 2017: menestystä ja haasteita