Kohti yhteismitallisuutta: avoimen julkaisemisen mittarit

Jyrki Ilva
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe2015092113661

 

Tällä hetkellä meillä ei ole kattavaa tai täysin luotettavaa dataa siitä, miten yleistä open access -julkaiseminen on kansainvälisellä tai kotimaisella tasolla. Avointa julkaisemista koskevien tietojen keruuseen ja tietojen laatuun liittyy edelleen monenlaisia haasteita. Suomessa avointa saatavuutta pyritään seuraamaan osana opetus- ja kulttuuriministeriön julkaisutiedonkeruuta, jonka käytännöt kaipaavat kuitenkin tältä osin kehitystyötä.

Mihin open access -julkaisemista koskevia tietoja tarvitaan?

Open_Access_logo_PLoS_white.svgVaikka tieteellisten julkaisujen avoimesta saatavuudesta on Suomessakin keskusteltu jo toistakymmentä vuotta, meillä on edelleen varsin ylimalkainen kuva siitä, miten yleistä avoin julkaiseminen tällä hetkellä maassamme on. Niinpä avoimuuden edistämistä koskevien tavoitteiden asettaminen on hankalaa: jos meillä ei ole kunnollista tietopohjaa nykytilanteesta, miten voimme mitata luotettavasti avoimuuden lisääntymistä? Ja lisäksi: jos haluamme mitata esim. julkaisujen avoimuuden ja vaikuttavuuden välistä suhdetta, miten tämä on mahdollista niin kauan kuin meillä ei ole luotettavaa tietoa siitä mitkä julkaisut ovat avoimia ja mitkä taas eivät?

Emme ole näiden pohdiskelujen kanssa yksin, sillä samojen kysymysten kanssa painitaan tällä hetkellä myös monessa muussa maassa. Avointa saatavuutta koskevien tiedontarpeiden taustalla olevat lähtökohdat ja motivaatiot ovat yleensä varsin samansuuntaisia. Avointen julkaisujen näkyvyys ja löydettävyys on tiedonhakijoiden kannalta tärkeää. Avoimuutta edistävät tutkimusrahoittajat kaipaavat tietoa siitä, ovatko hankerahoituksella tuotetut julkaisut todella avoimesti saatavilla. Avointen julkaisujen määrä ja osuus ovat tärkeitä tietoja avoimuuden edistämisen kannalta, etenkin siinä tapauksessa jos avoimuutta käytetään myös tutkimuksen arvioinnin tai korkeakoulujen rahoituksen kriteerinä.

Suomessa julkaisujen avoin saatavuus on nostettu esiin mahdollisena yliopistojen rahoitusmallin julkaisuosiossa käytettävänä kertoimena. Koska rahoitusmallin perusteina käytetään kolmen edellisen vuoden tietojen pohjalta laskettuja keskiarvoja, yliopistojen open access -julkaisuista pitäisi ensin olla käytettävissä luotettavaa tietoa kolmen vuoden ajalta. Käytännössä tämä tarkoittaa sitä, että jos esim. open access -julkaisemista koskevien tietojen laatu saataisiin riittävälle tasolle vuoden 2016 tiedonkeruusta alkaen, niitä voisi hyödyntää rahoitusmallissa aikaisintaan vuodesta 2019 lähtien.

Kirjastot ovat jo pitkään käyttäneet suuria rahasummia tieteellisiä julkaisuja sisältävien aineistopakettien hankintaan, eli julkaisujen avoimeen saatavuuteen liittyy tätäkin kautta merkittäviä taloudellisia aspekteja. Open access muuttaa oleellisesti tieteellisten julkaisujen välitykseen liittyviä käytäntöjä: lisenssimaksujen sijasta julkaisutoimintaa rahoitetaan yhä enemmän kustantajille maksettavilla kirjoittaja- ja tukimaksuilla. Avoimuuden yleistymisen myötä myös kirjoittajamaksuista kertyy suuria summia, joten maksujen hallinnointia on monissa maissa pyritty kokoamaan yksittäisiltä tutkimushankkeilta esim. yliopistotasolla toimiville rahastoille.

Tätä kautta onkin noussut yhä selkeämmin esille open access -julkaisujen kirjoittajamaksujen seurantaan ja hallinnointiin liittyviä tiedontarpeita. Tältä kannalta on luonnollisesti oleellisen tärkeää tunnistaa organisaatiossa tuotetut avoimet julkaisut. Samalla avoimista julkaisuista tarvitaan kirjoittajamaksujen hallinnointia varten lisää uusia entistä tarkempia tietoja, joita organisaatiot eivät ole toistaiseksi keränneet. Suomen osalta FinELib selvittää parhaillaan kirjoittajamaksuihin ja niiden hallinnointiin liittyviä kysymyksiä.

Muiden maiden ratkaisuja

Open access -julkaisemisen yleisyyttä on selvitetty viime vuosikymmeneltä lähtien monissa eri tutkimuksissa (ks. esim. Laakso & Björk 2012 ja Björk, Laakso, Welling & Paetau 2013). Tutkimuksia ja niiden ympärillä käytyä keskustelua seuratessa käy pian ilmeiseksi, että tutkimusten tuottamat tulokset ovat usein vaihdelleet sen mukaan millaisia metodeja tai mitä tietolähteitä käyttäen niiden aineisto on kerätty. Tämä kertoo siitä, ettei tällä hetkellä ole olemassa mitään sellaista kattavaa tietokantaa, josta voisi yhdellä napinpainalluksella tarkistaa, miten paljon open access -julkaisuja maailmasta löytyy tai mikä niiden osuus kaikista tieteellisistä julkaisuista oikein on.

Organisaatiotasolla open access -julkaisujen määrän ja osuuden selvittäminen on monissa tapauksissa mahdollista jo nyt, ja myös kansallisen tason ratkaisuja on kehitetty eri puolilla. Tyypillisesti nämä hyödyntävät joko tutkimustietojärjestelmistä (engl. Current Research Information System eli CRIS) tai julkaisuarkistoista kerättyjä tietoja. Jotta eri organisaatioilta kerätyt tiedot olisivat riittävän yhteismitallisia, tarvitaan kansallista koordinointia ja yhteisiä linjauksia siitä, mitä tietoja järjestelmiin tallennetaan ja missä muodossa.

Muista pohjoismaista Ruotsi, Norja ja Tanska ovat kehittäneet open access -julkaisemisen monitorointiin tarkoitettuja kansallisia hakuportaaleita jo usean vuoden ajan. Ruotsissa julkaisujen viitetiedot haravoidaan julkaisuarkistoista Kungliga biblioteketin ylläpitämään SwePub-portaaliin, ja kerätty data tarjotaan erillisen käyttöliittymän kautta ladattavaksi tarkempia bibliometrisia analyyseja ja muutakin jatkokäyttöä varten. Norjassa open access -julkaisujen viitetiedot on koottu erilliseen Nora-portaaliin, joka on sisällöltään osajoukko kansallisen Cristin-tutkimustietojärjestelmän sisältämistä kuvailutiedoista. Tanskassa avoimen julkaisemisen seurannan ratkaisuja on kehitetty mm. Danish Open Access Barometer -hankkeessa, jonka yhteydessä myös yliopistojen tutkimustietojärjestelmistä haravoituja viitetietoja sisältävän kansallisen Forskningsdatabasen.dk-palvelun teknisiä ratkaisuja päivitetään.

Mikael K. Elbæk esitteli Tanskan tilannetta toukokuussa Utrechtissa järjestetyssä Knowledge Exchangen Monitoring of Open Access-työpajassa.

Mikael K. Elbæk esitteli Tanskan tilannetta toukokuussa Utrechtissa järjestetyssä Knowledge Exchangen Monitoring of Open Access -työpajassa.

Pohjoismaiden lisäksi vastaava systeemi on myös esim. Alankomailla, jonka kansalliseen Narcis-portaaliin kerätään julkaisutietojen lisäksi runsaasti muutakin tutkimustoimintaan tuloksellisuuteen liittyvää informaatiota. Johtaviin open access -maihin kuuluvassa Isossa-Britanniassa on kehitetty useita erilaisia avoimen julkaisemisen, avointen julkaisujen käytön ja myös julkaisemisen yhteydessä maksettujen kirjoittajamaksujen seurantaan tarkoitettuja palveluita (tuoreena esimerkkinä esim. Jisc Monitor -hankkeessa kehitettävät palvelut).

Kansainvälistä kokonaiskuvaa

Kansallisia ratkaisuja siis on, mutta entä kansainvälinen taso? Joillakin tieteenaloilla tilanne on parempi kuin toisilla, mutta kunnollisia kaikki alat kattavia ratkaisuja on kuitenkin vähän. Perinteiset viittaustietokannat Web of Science ja Scopus eivät ole seuranneet sitä, ovatko niissä listatut julkaisut avoimesti saatavilla. Directory of Open Access Journals (DOAJ) kattaa puolestaan ainoastaan open access -lehtiä, ja vaikka se kerää myös artikkelitason viitetietoja, keruussa eivät ole toistaiseksi mukana läheskään kaikki palvelussa listatut lehdet, muista tietysti puhumattakaan.

Julkaisuarkistojen kohdalla yksi keskeisistä päämääristä on ollut alusta lähtien niiden sisältämien kuvailutietojen haravoiminen OAI-PMH-rajapinnan kautta isompiin hakupalveluihin. Käytännössä asiat eivät kuitenkaan ole edenneet ollenkaan näin ruusuisesti. Esim. metadataan liittyvien yhteisten käytäntöjen luominen on edennyt kymmenkunnan viime vuoden aikana tuskallisen hitaasti, jos lainkaan. Vaikka julkaisutietojen haravoiminen julkaisuarkistoista on teknisesti suhteellisen helppoa, mielekkäiden hakupalveluiden rakentaminen on ollut metadatan laatuun liittyvistä ongelmista johtuen erittäin vaikeaa.

Yksi vaikeasti ratkaistava perustason haaste on ollut mm. se, miten metadatan haravoinnin yhteydessä saadaan kerättyä tieto siitä, liittyykö tietueeseen myös vapaasti käytettävä kokotekstitiedosto. Vaikka tämä kuulostaa yksinkertaiselta asialta, tähän ei tällä hetkellä ole tarjolla helppoa globaalisti käytössä olevaa ratkaisua.

EU-tasolla OpenAire-palvelu ja sitä edeltänyt Driver-hanke ovat jo pitkään tehneet töitä julkaisuarkistojen metadatan yhdenmukaistamiseksi ja muutenkin yhteisten käytäntöjen kehittämiseksi. OpenAiren vahvuutena on ollut sen kytkentä tiettyihin EU:n rahoittamiin tutkimushankkeisiin, jotka ovat jo usean vuoden ajan edellyttäneet, että niiden rahoituksella tuotettujen julkaisujen pitää olla avoimia ja avoimuuden pitäisi olla verifioitavissa OpenAiren ylläpitämästä hakuportaalista. Tämä on luonut organisaatioille selkeän motivaation päästä mukaan OpenAiren portaaliin.

Valitettavasti OpenAirenkin tekemä työ on kärsinyt siitä, että sitä on tehty vähän kerrallaan pitkän ajan kuluessa ja vaihtelevissa olosuhteissa. Hanke on saanut alkunsa osin poliittiselta tasolta ja sen päämäärät ovat ajan myötä muuttuneet ja laajentuneet. Sen puitteissa on kunnianhimon vähitellen kasvaessa tuotettu uusia suosituksia, jotka laajentavat tiedonkeruun tavoitteita. Käytännössä tämä on johtanut siihen, että organisaatiot ovat raportoineet julkaisujaan eri tavoin: osa kaikki julkaisut, osa taas vain tiettyihin julkaisutyyppeihin luokitellut open access -julkaisut. Niinpä esim. OpenAiren portaalista kerätyt maakohtaiset tiedot open access -julkaisujen osuuksista eivät valitettavasti ole kunnolla vertailukelpoisia.

OpenAiren suositukset eivät ole muutenkaan aina vaikuttaneet käytännön tasolla aivan loppuun asti mietityiltä. Osa hankkeessa suositelluista teknisistä ratkaisuista on ollut käytännön järjestelmien ja prosessien kannalta hankalasti toteutettavia, mikä on hidastanut niiden käyttöönottoa mm. vanhempiin DSpace-versioihin pohjautuvissa julkaisuarkistoissa. Lisäksi OpenAiren oma hakuportaali oli pitkään hyvin sekava ja sotkuinen, ja se on saatu toimimaan kelvollisesti vasta suhteellisen äskettäin.

Suomessa OpenAireen liittyvää yhteistyötä on koordinoinut Helsingin yliopiston kirjasto. OpenAire-yhteensopivia julkaisuarkistoja on Suomessa toistaiseksi ollut vain muutama, mutta esim. Kansalliskirjaston ylläpitämät arkistot pyritään saamaan relevanteilta osin yhteensopiviksi ja mukaan tiedonkeruuseen jo aivan lähiaikoina.

Käytännössä BASE:n eli Bielefeld Academic Search Enginen indeksi on toistaiseksi paljon OpenAirea kattavampi, vaikkei sillä ole vastaavaa virallista statusta. BASE:n käyttöliittymä perustuu VuFindiin ja se on ainakin tähän asti ollut OpenAirea selkeämpi, mutta myös tätä palvelua vaivaavat samat metadatan laatuun liittyvät ongelmat. BASE hyödyntää OpenAiren suosituksissa määriteltyjä kenttiä mm. julkaisujen OA-statuksen osalta, mutta koska niitä ei käytetä läheskään kaikissa haravoinnin kohteena olevissa arkistoissa – etenkään EU:n ulkopuolella – sen tarjoamat rajausmahdollisuudet eivät tältä osin ole luotettavia.

OpenAiren ja BASE:n kaltaisten Euroopassa syntyneiden hakupalveluiden rinnalle on syntymässä myös uusia infrastruktuureja, joiden tausta on selkeästi amerikkalainen. Amerikkalaisten tutkimuskirjastojen muodostama SHARE-yhteenliittymä rakentaa globaalia julkaisujen viitetietojen välitykseen suunniteltua infrastruktuuria lähinnä julkaisuarkistojen ympärille, kun taas tieteellisten kustantajien CHORUS rakentuu kustantajien ja niitä lähellä olevien toimijoiden infrastruktuurien varaan. Infrastruktuurien globaalia merkitystä on toistaiseksi vaikea arvioida, mutta on mahdollista, että ne tarjoavat uusia välineitä myös julkaisutoiminnan avoimuuden seurantaan (näiden palveluiden osalta ks. myös tässä numerossa julkaistu raportti OAI9-konferenssista!).

Avoin saatavuus OKM:n julkaisutiedonkeruussa

Suomessa open access -julkaisemisen mittarit on todennäköisesti luontevinta kytkeä osaksi OKM:n julkaisutiedonkeruuta, jota ollaan parhaillaan muutenkin aktiivisesti kehittämässä. Tällöin avointa saatavuutta koskevat tiedot olisivat mukana CSC:n ylläpitämässä keskitetyssä tietovarannossa ja ne olisi mahdollista esittää kootusti Juuli-julkaisutietoportaalissa. Yksittäisten organisaatioiden tasolla tämä tarkoittaa sitä, että avointa saatavuutta koskevat tiedot kerättäisiin pääsääntöisesti organisaatiokohtaisista tutkimustietojärjestelmistä.

Toisin kuin monissa muissa maissa, Suomessa julkaisuarkistoja ei ole toistaiseksi kytketty kansalliseen tiedonkeruuseen, eli tältä osin järjestelmien välinen tietojen vaihto – jos sitä on – tapahtuu tällä hetkellä paikallistasolla. Avointa saatavuutta koskeva dataa olisi kuitenkin periaatteessa mahdollista täydentää automaattisesti julkaisuarkistoista ja muistakin ulkoisista tietolähteistä kerättyjen tietojen pohjalta.

Kansainvälisessä vertailussa lähtötilanteemme on kuitenkin suhteellisen hyvä, sillä meillä on jo valmiiksi käytettävissä kattavat tiedot kaikista suomalaisissa korkeakouluissa tuotetuista julkaisuista muutaman viime vuoden ajalta. Monissa maissa – esim. Saksa – tällaista kansallista tietovarantoa ei ole toistaiseksi olemassa. Ilman valmista kaikki julkaisut kattavaa tietolähdettä on huomattavasti hankalampaa selvittää open access -julkaisemisen osuutta kaikesta tieteellisestä julkaisemisesta.

OKM:n tiedonkeruussa on itse asiassa kerätty tietoa julkaisun avoimesta saatavuudesta jo vuodesta 2011 lähtien. Valitettavasti tietojen laadussa on ollut niin paljon toivomisen varaa, ettei niiden pohjalta saa luotettavaa kuvaa avoimen julkaisemisen yleisyydestä. Näistä ongelmista johtuen avoin saatavuus -tietoa ei ole toistaiseksi hyödynnetty Juuli-julkaisutietoportaalissa, johon olisi sinänsä teknisesti helppoa tehdä julkaisujen avoimuuteen perustuvia rajausvaihtoehtoja.

Keväällä 2015 julkaistussa selvityksessä kartoitettiin tiedonkeruun OA-tietoon liittyviä haasteita. Selvityksessä todettiin, että julkaisuja on monissa tapauksissa sijoitettu väärään kategoriaan. Joissakin tapauksissa open access -julkaisuja ei ollut tunnistettu oikein, joissakin taas ei-avoimia julkaisuja oli merkitty open access -julkaisuiksi. Toisaalta myös tiedonkeruussa käytetty julkaisujen avoimen saatavuuden kategorisointi todettiin ongelmalliseksi. Kategoriat ovat joiltakin osin epäselviä ja niitä käytetään eri organisaatioissa eri tavoin, eli tiedonkeruun tulokset eivät tästäkään syystä ole kansallisella tasolla yhteismitallisia.

OKM:n tiedonkeruun avoin saatavuus -tieto koodataan tällä hetkellä seuraavan ohjeistuksen mukaisesti (lähde: Yliopistojen tiedonkeruun käsikirja 2014, s. 33-34):

  • 0 ei Open access -julkaisu
  • 1 Open access -julkaisu
    • julkaisu on ilmestynyt lehdessä tai sarjassa, jonka kaikki artikkelit tai osajulkaisut ovat pysyvästi ladattavissa ja luettavissa Internetin kautta ilman korvausta.
  • 2 Open access -julkaisu, rinnakkaistallennettu
    • tilausmaksullisessa lehdessä tai muussa lukijoiden kannalta maksullisessa teoksessa ilmestyneen julkaisun pysyvästi saatavilla oleva open access -kopio, joka on rinnakkaistallennettu esim. organisaation omaan tai tieteenalakohtaiseen digitaaliseen arkistopalveluun. Julkaisu voi olla joko ns. kustantajan versio tai tutkijan oma viimeinen (vertaisarvioitu) versio ja se voi olla saatavissa välittömästi tai kustantajan määrittämän kohtuullisen mittaisen (esim. puoli vuotta) embargoajan jälkeen. Julkaisu voi olla myös tiedeyhteisön käyttöön ennen virallista julkaisua annettu pre print -versio, jos se on pysyvästi saatavilla organisaation tai tieteenalan digitaalisessa arkistopalvelussa. Otetaan huomioon myös ne yksittäiset julkaisut, jotka ovat avoimesti saatavilla, vaikka itse sarja ei olisikaan avoimesti saatavilla.
  • 9 ei tietoa onko julkaisu Open access -julkaisu

Vuosien 2011-2014 julkaisutiedonkeruissa saadut tulokset näyttävät artikkelien osalta seuraavilta. Taulukon luvuissa ovat mukana julkaisutyypit A1-A4 eli vertaisarvioidut tieteelliset artikkelit (lähde: www.vipunen.fi):

määrä osuus
0 Ei open access -julkaisu 39779 41,1 %
1 Open access -julkaisu 12976 13,4 %
2 Open access -julkaisu, rinnakkaistallennettu 2356 2,4 %
9 Ei tietoa 41672 43,1 %

Kuten edellä jo todettiin, kerätyt tiedot ovat toistaiseksi monella tapaa ongelmallisia. Erityisen paljon hankaluuksia on aiheutunut erillisistä ”ei open access -julkaisu” ja ”ei tietoa”-kategorioista, joita on eri organisaatioissa sovellettu vaihtelevasti. Toistaiseksi ”ei tietoa”-kategoriaan on päätynyt vuosittain yli 40% julkaisuista – joissakin korkeakouluissa kaikki ne julkaisut, joita ei ole pystytty ulkoisten tietolähteiden pohjalta todentamaan OA-julkaisuiksi. Tämä laskee jo yksinään oleellisesti tietojen arvoa. Toisaalta myös kakkoskategoria ”open access -julkaisu, rinnakkaistallennettu” on ongelmallinen, sillä ohjeistuksen mukaan siihen kuuluvat varsinaisten rinnakkaistallennettujen julkaisujen lisäksi myös hybridijulkaisukanavissa ilmestyneet open access -julkaisut.

Tiedonkeruun metodit

Avoin saatavuus -tiedon laatuongelmien taustalla on todennäköisesti ollut sekin, ettei tiedolla ole toistaiseksi ollut sen kummempaa rahallista tai muutakaan merkitystä. Niinpä korkeakouluilla ei useimmissa tapauksissa ole ollut kovin suurta motivaatiota panostaa tietojen laatuun. Toisaalta on ilmeistä, ettei tiedon tuottaminen ole kaikissa tapauksissa helppoa, vaikka motivaatiota olisikin. Avoimuus voi toteutua erilaisilla tavoilla (OA-lehdet, hybridijulkaisukanavat, rinnakkaistallentaminen) ja siihen voi liittyä erilaisia korkeakoulusta riippumattomia ehtoja (mm. kustantajien edellyttämät embargot tai tallennettavaa versiota koskevat rajoitukset). Tämä tekee selvitystyön monissa tapauksissa varsin työlääksi, etenkin jos käytössä ei ole aivan kristallinkirkasta määritelmää sille, mikä oikeastaan on avointa saatavuutta ja mikä ei.

Korkeakoulut ovat soveltaneet julkaisujen OA-statuksen selvittämiseen kahta erilaista lähestymistapaa. Kummassakin mallissa on omat haasteensa ja rajoitteensa. Toinen metodi on selvittää julkaisujen open access -statukset yksitellen julkaisu kerrallaan, esim. tutkijan ilmoittaman tiedon pohjalta. Tämän toimintamallin ilmeisenä haasteena on sen vaatima työmäärä, joka kasvaa sitä mukaa mitä enemmän julkaisuja on.

Toinen lähestymistapa on ulkoisten tietolähteiden hyödyntäminen. Esim. open access -lehdissä ilmestyneet artikkelit on mahdollista tunnistaa automaattisesti DOAJ:in lehtilistan perusteella. Tieto DOAJ:iin kuulumisesta on saatavilla myös Julkaisufoorumin lehtilistan kautta (ks. Anna-Sofia Ruthin artikkeli tässä lehdessä). Jos julkaisujen bibliografiset tiedot ovat kunnossa, tällä tavalla on helppoa tunnistaa suuri osa organisaation tuottamista open access -julkaisuista. Toisaalta DOAJ:in lista ei ole kattava – siltä puuttuu mm. osa kotimaisista open access -lehdistä – eikä se kata kaikkia julkaisutyyppejä. Kansainvälisen ISSN-keskuksen ylläpitämän ROAD-palvelun listaus olisi lehtien määrän osalta jonkin verran laajempi, jos kohta myös laatukriteereiltään väljempi. Monografioiden, kokoomateoksissa ilmestyneiden artikkeleiden ja konferenssijulkaisujen avoin saatavuus jäisi silti senkin perusteella tunnistamatta.

Rinnakkaistallennettujen julkaisujen osalta tietolähteenä on mahdollista hyödyntää myös julkaisuarkistoa. Organisaation omasta julkaisuarkistosta ja mahdollisesti myös keskeisistä kansainvälisistä julkaisuarkistoista (mm. ArXiv ja PubMed Central) on mahdollista kerätä rinnakkaistallennettujen julkaisujen tiedot, jotka on mahdollista yhdistää joko organisaatiokohtaisen tutkimustietojärjestelmän tai periaatteessa myös CSC:n ylläpitämän kansallisen tietovarannon sisältämiin tietoihin. Tässäkin tapauksessa haasteena on tietojen kattavuus – etenkin yhteisjulkaisujen kohdalla rinnakkaistallennettu versio saattaa löytyä jostain muusta julkaisuarkistosta, joita on eri puolilla maailmaa yhteensä tuhansia. Joissakin tapauksissa on myös epäselvää, onko julkaisuarkistossa kuvailtu julkaisu todella vapaasti saatavilla, mikä versio on kyseessä tai tuleeko julkaisu saataville vasta embargoajan jälkeen.

Käytännössä tietojen keruuprosessi toimii parhaiten, jos siinä voidaan soveltuvilta osin hyödyntää sekä ulkoisia tietolähteitä että julkaisutasolla tehtyä tarkistustyötä. Pohjimmiltaan kyse on tietysti siitä, miten paljon resursseja eri tasoilla – tutkimusorganisaatioissa ja OKM:n tiedonkeruuprosessissa – ollaan valmiita sijoittamaan tiedon laadun takaamiseen. Tältä osin vastaus riippuu varmasti osin siitä, onko julkaisujen avoimella saatavuudella jossain vaiheessa merkitystä esim. yliopistojen rahoitusmallin kannalta.

Rinnakkaistallentamisen osalta olisi mahdollista hyödyntää myös Sherpa/Romeo-tietokantaan tallennettuja tietoja lehtien kustantajien tallennukselle asettamista ehdoista. Vaikka Sherpa/Romeon käyttämät värikoodit ovat joiltakin osin kryptisiä ja käytetyssä luokittelussa olisi paljonkin parantamisen varaa, sen avulla olisi kuitenkin mahdollista saada kohtuullisen luotettava kuva siitä, miten suuri osuus julkaisuista olisi mahdollista rinnakkaistallennettuina. Tätä potentiaalista avointa saatavuutta voi sitten verrata siihen, miten suuri osa julkaisuista todellisuudessa on avoimesti saatavilla julkaisuarkistoissa.

Puuttuvat verkko-osoitteet

Julkaisujen open access -statuksen verifioinnin kannalta erityisen turhauttavaa on ollut se, ettei korkeakoulujen OKM:lle raportoimissa tiedoissa ole monissa tapauksissa mukana linkkiä julkaisun avoimeen versioon. Ongelma on erityisen hankala rinnakkaistallennetuiksi ilmoitettujen julkaisujen kohdalla. Julkaisuille on saatettu ilmoittaa maksulliseen versioon vievä DOI-pohjainen osoite, muttei linkkiä rinnakkaistallennettuun avoimeen versioon, jonka raportoinnille tiedonkeruussa ei ole toistaiseksi ollut erillistä kenttää.

Osasyynä tähän on saattanut olla OKM:n ohjeistus, jossa edellytetään pysyvien osoitteiden käyttämistä. Käytännössä tämä on kuitenkin kutistunut monessa organisaatiossa tarkoittamaan DOI:ta, kun taas julkaisuarkistojen tyypillisesti käyttämiä URN- tai Handle-pohjaisia osoitteita ei joko kerätä lainkaan tai ainakaan raportoida eteenpäin OKM:n tiedonkeruuseen. Joissakin tapauksissa taustalla on se, että yliopistojen käyttämät järjestelmät ovat tukeneet kunnolla ainoastaan DOI-tunnisteiden tallentamista. Esim. Helsingin yliopiston Elsevierin Pure-ohjelmistoon perustuvan TUHAT-tutkimustietojärjestelmän tallennuslomakkeessa on ollut oma kenttä DOI-tunnisteelle, mutta ei muille pysyville tunnisteille.

Tavoite kerätä nimenomaan julkaisujen pysyviä osoitteita on sinällään perusteltu, sillä muunlaiset verkko-osoitteet lakkaavat usein toimimasta hyvinkin nopeasti, ja niiden päivittämisessä – olettaen että julkaisut ovat ylipäänsä enää saatavilla jossakin – olisi paljon työtä. Lisäksi tieteellisessä julkaisemisessa on erityisen perusteltua pyrkiä siihen, että viittauksien kohteena olevat julkaisut ovat saatavilla mahdollisimman pysyvästi. Sama koskee luonnollisesti myös julkaisujen avointa saatavuutta, eli julkaisujen satunnaista open access -saatavuutta esim. tutkijoiden tai tutkimushankkeiden kotisivuilla ei ole käytännössä mielekästä mitata.

Toisaalta osoitteiden pysyvyyden tiukkaan korostamiseen liittyy myös periaatteellisia ongelmia, sillä kaikilla julkaisuilla ei yksinkertaisesti ole pysyviä osoitteita, vaikka ne ovat verkossa saatavilla. Tämä koskee erityisesti ei-tieteellisiä julkaisuja, joiden osuus kaikista raportoiduista julkaisuista on merkittävä sekä yliopistoissa että etenkin ammattikorkeakouluissa. Tieteellisten julkaisukanavien osalta on mahdollista pyrkiä siihen, että ne ottavat pysyvät tunnisteet ja niihin pohjautuvat verkko-osoitteet käyttöön, mutta populaarimpien kanavien motivoiminen tähän voi olla vaikeaa. Pysyvät osoitteet ovat siis tärkeä tavoite, mutta joiltakin osin voi olla mielekästä hyväksyä muunkinlaisia tietoja mukaan tiedonkeruuseen, etenkin jos halutaan tarjota tiedonhakijoille pääsy näihinkin aineistoihin.

Kansallinen open access -määritelmä

Yksi keskeisistä haasteista OKM:n julkaisutiedonkeruussa ja yleisemminkin kansallisessa open access -keskustelussa on ollut se, ettei meillä ole ollut yksiselitteistä yhteisesti hyväksyttyä määritelmää sille, mitä avoin saatavuus tieteellisten julkaisujen osalta oikeastaan tarkoittaa. Avoin tiede ja tutkimus -hankkeen vaikuttavuustyöryhmä tarttui keväällä 2015 tähän haasteeseen, ja tuloksena syntyi seuraava ehdotus kansalliseksi open access -julkaisun määritelmäksi:

  • Julkaisu on Internetin kautta kokonaisuudessaan ilmaiseksi ja esteettömästi luettavissa, tulostettavissa ja kopioitavissa vähintään yksityiseen käyttöön
  • Julkaisu on saatavilla joko välittömästi kustantajan palvelussa tai viimeistään kustantajan määrittelemän embargoajan jälkeen rinnakkaistallennettuna organisaatio- tai tieteenalakohtaisessa julkaisuarkistossa
  • Julkaisu on vapaasti saatavilla pysyvästi sellaisessa joko kustantajan tai tutkimusorganisaatioiden tarjoamassa palvelussa, joka mahdollistaa julkaisujen kuvailutietojen haravoinnin ja sisällön indeksoinnin muihin hakupalveluihin sekä tukee julkaisuihin viittaamista ja linkittämistä pysyviin tunnisteisiin (DOI, URN, Handle) pohjautuvilla verkko-osoitteilla
  • Julkaisun vapaasti saatavilla oleva versio on julkaisusopimuksesta tai kustantajan politiikasta riippuen joko tekijän viimeinen oma rinnakkaistallennettu versio tai kustantajan palvelussa ilmestynyt lopullinen versio

Tällaisen yleiseen käyttöön tarkoitetun määritelmän kohdalla toivoisi tietysti, että teksti voisi olla mahdollisimman selkeä ja yksinkertainen. Valitettavasti avoimen saatavuuden kohdalla ei ole helppoa saada määritelmää muokattua aivan suoraviivaiseen tai innostavaan muotoon, sillä julkaisujen avoimuuteen liittyy monia osin ristiriitaisiakin reunaehtoja.

Ehdotettu määritelmä ei ota kantaa siihen, onko open access -lehden kautta toteutuva avoimuus parempaa tai tavoiteltavampaa kuin rinnakkaistallennuksen kautta toteutuva – tai päinvastoin. Tiukkojen kannanottojen sijasta määritelmässä on pikemminkin pyritty ilmaisemaan julkaisun avoimuudelta edellytettävät minimivaatimukset, joista on todennäköisesti helpompaa päästä yhteisymmärrykseen kuin pidemmälle menevistä vaatimuksista. Open access -liikkeen piirissä myös on hyvin erilaisia näkemyksiä esim. siitä, pitäisikö avoimilta julkaisuilta edellyttää esim. CC-BY -lisenssin käyttöä tai pitäisikö embargoaikojen hyväksyttävää pituutta rajata. Tältä osin esim. Suomen Akatemian tuore open access -linjaus (ks. Ajankohtaista meiltä ja muualta -palsta) on jo tätä ehdotusta tiukempi.

Tähänastisessa palautteessa ainakin ehdotuksessa esitettyä rajausta ”vähintään yksityiseen käyttöön” on pidetty ongelmallisena, ja sen rinnalle on toivottu mainintaa myös tutkimuskäytöstä. Lisäksi jonkinasteista epäselvyyttä on ollut siitä, pitääkö rinnakkaistallennetun tutkijan viimeisen oman version olla myös vertaisarvioitu, kuten monet kansainväliset rahoittajat edellyttävät. Toisaalta esim. ArXiviin julkaisut tallennetaan alun perin jo pre print -versioina ennen vertaisarviointia.

Julkaisujen tallennuspaikkaa koskevaan kohdassa edellytetään, että rinnakkaistallennettujen julkaisujen vapaan saatavuuden pitää olla pysyvää, niiden kuvailutietojen pitäisi olla haravoitavissa ja julkaisuihin pitäisi olla mahdollista viitata pysyviin tunnisteisiin pohjautuvilla osoitteilla. Näillä ehdoilla haluttiin mm. tehdä rajanvetoa ResearchGaten ja Academia.edun kaltaisten tutkijoiden suosimien sosiaalisten verkkopalveluiden suuntaan. Vaikka palveluihin tallennetut julkaisut tavoittavat monissa tapauksissa paljon lukijoita ja niihin kuuluminen tarjoaa tutkijoille hyödyllisiä verkostoitumismahdollisuuksia, ne ovat kuitenkin kaupallisten start up -yritysten tuotteita joiden pysyvyydestä tai lopullisesta bisnesmallista ei ole toistaiseksi varmaa tietoa. Toki vastaavat epäilykset saattaisivat olla perusteltuja myös joidenkin kustantajien suhteen.

Julkaisujen avoimuuden kategoriat

Kuten edellä todettiin, OKM:n tiedonkeruussa tällä hetkellä käytössä olevat open access -kategoriat on koettu monella taholla epätyydyttäviksi. Alustavissa suunnitelmissa tilanteen korjaamiseksi on esitetty erillisestä ”ei open access -julkaisu”-kategoriasta luopumista. Avoin saatavuus -tieto raportoitaisiin siis jatkossa ainoastaan sellaisista julkaisuista, jotka voidaan tunnistaa jollain metodilla open access -julkaisuiksi. Samalla myös ”open access -julkaisu, rinnakkaistallennettu”-kategoriaa tarkistettaisiin siten, että hybridijulkaisukanavissa ilmestyvät open access -julkaisut siirtyisivät omaksi kategoriakseen. Tällöin kategoriat voisivat näyttää esim. seuraavilta:

  • 0 Ei vastausta
  • 1 Open access -julkaisukanavassa ilmestynyt julkaisu
  • 2 Hybridijulkaisukanavassa ilmestynyt open access -julkaisu
  • 3 Rinnakkaistallennettu julkaisu

Jaottelu ei ota kantaa siihen, liittyykö kategorioiden 1 ja 2 julkaisujen avoimuuteen esim. kirjoittajamaksuja. Kategorioiden 1 ja 2 julkaisut voidaan myös rinnakkaistallentaa (kategoria 3), eli tältä osin julkaisu voi kuulua samalla kertaa kahteen kategoriaan.

Ehdotusta esiteltiin jo elokuun lopulla järjestetyssä Julkaisutiedonkeruuseminaarissa, jossa saaduissa kommenteissa pohdittiin sitä, onko kategorioiden 1 ja 2 pitäminen erillisinä tarpeellista, vai olisiko ne järkevämpää yhdistää yhdeksi kategoriaksi. Yksinkertaistettu malli saattaisi olla selkeämpi esim. julkaisutietoja syöttävien tutkijoiden kannalta. Tältä osin tarvitaan ilmeisesti vielä jatkopohdintaa siitä, olisiko open access – ja hybridijulkaisukanavien jaottelu tarpeen esim. kirjoittajamaksujen hallinnointiin liittyvistä syistä, vai olisiko siitä mahdollista luopua.

Kirjoittajamaksuihin kohdistuvat tiedontarpeet voivat vaatia tulevaisuudessa muutakin pohdintaa. Toistaiseksi on vielä epäselvää, millä tavalla maksujen hallinnointi Suomessa organisoidaan, mutta jos se halutaan hoitaa keskitetysti esim. kunkin yliopiston tasolla, voi olla mielekästä kytkeä maksuihin liittyviä prosesseja tavalla tai toisella tutkimustietojärjestelmiin. Samoin on vielä epäselvää, olisiko kirjoittajamaksuja koskevia tietoja tarpeen perusteltua kerätä OKM:n tiedonkeruussa muiden julkaisuja koskevien tietojen ohessa. Mahdollisia kerättäviä tietoja voisivat olla esim. se, onko julkaisusta maksettu kirjoittajamaksua, ja miten suuri maksu on ollut – olettaen tietysti ettei julkaisukanavakohtaisten maksujen suuruuksia ole mahdollista saada automaattisesti jostain ulkoisesta tietolähteestä.

Open access -julkaisuja koskevien tietojen keruuseen liittyy muutamia muitakin käytännön kysymyksiä, jotka täytyy ennen pitkää ratkaista. Yksi näistä kysymyksistä liittyy julkaisujen embargoihin – raportoidaanko julkaisut open access -julkaisuina jo siinä vaiheessa kun embargo on vielä voimassa, vai muuttuuko niiden status embargon päättymisen jälkeen. Vastaavia kysymyksiä tulee varmasti vielä vastaan muitakin.

Lopuksi

OKM:n julkaisutiedonkeruun kehittämiseen panostetaan tällä hetkellä voimakkaasti, ja CSC aloittaa ensi vuonna uudistetun VIRTA-julkaisutietopalvelun pilotoinnin. Tällöin julkaisujen viitetiedot siirtyvät paikallisista järjestelmistä lähes reaaliaikaisesti CSC-ylläpitämään kansalliseen tietovarantoon ja sieltä automaattisesti Juuli-julkaisutietoportaaliin. Samalla myös tietojen päivittäminen ja korjaaminen helpottuu.

Toisaalta on kuitenkin hyvä pitää mielessä, että kerättävillä tiedoilla on hintansa – jokaisen kerättävän tiedon pitää olla perusteltu, koska sekä tietojen tuottamisesta että uusien tietojen paikallisissa tietojärjestelmissä edellyttämistä muutoksista aiheutuu kustannuksia. Lisäksi kategorioihin tehdyt muutokset vaikuttavat siihen, etteivät uudet tiedot välttämättä ole yhteismitallisia takautuvien tietojen kanssa. Vaikka avointa saatavuutta koskeviin tietoihin liittyvien kategorioiden uudistaminen on perusteltua, myös niiden osalta on perusteltua pyrkiä siihen, että nyt tehtävillä muutoksilla pärjättäisiin niin pitkälle kuin mahdollista.

 

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto / kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: jyrki.ilva [at] helsinki.fi