Kansallisen julkaisurekisterin suunnittelu etenee

Jyrki Ilva
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe201005211891
 

Kansalliskirjaston asiantuntijat ovat mukana CSC:n koordinoimassa JURE-projektissa, joka suunnittelee kansallista julkaisurekisteriä. Julkaisurekisteriin koottaisiin vuosittain suomalaisten tutkimusorganisaatioiden tuottamien tieteellisten julkaisujen viitetiedot.

Organisaatiossa tuotettujen tieteellisten julkaisujen määrä on ollut jo pitkään yksi korkeakoulujen ja tutkimuslaitosten toiminnan tuloksellisuuden keskeisistä mittareista. Niinpä useimmat tutkimusorganisaatiot – sekä Suomessa että maailmalla – ovat koonneet julkaisujensa tiedot omaan julkaisurekisteriinsä, joita on ensisijassa tiedonhakijoille suunnatuista kirjastotietokannoista ja julkaisuarkistoista poiketen ylläpidetty lähinnä tutkimushallinnon tarpeita varten.

Julkaisujen viitetietoja on saatettu koota johonkin nimenomaan julkaisutiedoille tarkoitettuun järjestelmään tai ne on saatettu tallentaa tutkimuksenhallintajärjestelmään, joka sisältää muitakin organisaation tutkimustoimintaan liittyviä tietoja. Kansainvälisesti tutkimuksenhallintajärjestelmistä käytetään usein nimitystä CRIS, joka on akronyymi sanoista Current Research Information System.

Suomessa julkaisurekisterien rakentamista ja ylläpitoa ovat luonnollisesti alusta lähtien motivoineet myös opetusministeriön tiedontarpeet ja vuosittainen KOTA-raportointi. Opetus- ja kulttuuriministeriön linjausten mukaan julkaisutietojen merkitys korkeakoulujen tuloksen mittarina korostuu tulevaisuudessa entisestään, ja niitä on tarkoitus käyttää myös yhtenä rahanjaon perusteena. Samalla julkaisutietojen keräämiseen liittyviä prosesseja pyritään kehittämään ja niiden analysoinnissa painotetaan julkaisumäärien lisäksi yhä enemmän myös julkaisujen laatua.

JURE-projekti

Syksyllä 2009 käynnistetty JURE-projekti liittyy läheisesti näihin kehittämistarpeisiin. Projektin puitteissa suunnitellaan uutta kansallista julkaisurekisteriä, johon koottaisiin julkaisujen viitetiedot alkuvaiheessa ainakin yliopistoista ja tulevaisuudessa myös muista tutkimusorganisaatioista. Uusi järjestelmä korvaisi siis valmistuttuaan tähänastisen valtakunnallisen KOTA-tiedonkeruun, mutta opetus- ja kulttuuriministeriön ministeriön tiedontarpeiden lisäksi järjestelmän on toivottu palvelevan mahdollisimman hyvin myös kunkin organisaation paikallisia tarpeita. Tavallaan projektissa tehtävä työ on siis jatkoa aiemmalle TiedeKOTA-työryhmälle, jonka loppuraportti julkistettiin maaliskuussa 2008.

JURE-projekti on hallinnollisesti osa laajempaa, CSC:n koordinoimaa Raketti-hankeperhettä (ks. http://raketti.csc.fi/), jonka puitteissa kehitetään korkeakouluille tietohallinnon järjestelmiä eri tarpeisiin. Raketin hankekartassa JURE on tutkimushallinnon järjestelmiä suunnittelevan TUTKI-hankkeen alaprojekti. JURE-projektin ohjausryhmässä ja sen alatyöryhmissä on ollut sekä yliopistojen, ammattikorkeakoulujen että tutkimuslaitosten edustus. Mukana on myös Kansalliskirjasto, josta toimintaan on osallistunut allekirjoittaneen lisäksi FinELibin Paula Mikkonen.

JURE-projektin alatyöryhmistä tieteenalatyöryhmä on koonnut uutta tieteenalaluokitusta, joka on yhteensopiva muiden jo olemassa olevien luokitusten kanssa. Sitaatioindeksityöryhmä on perehtynyt kansainvälisten julkaisutietokantojen (mm. Thomson-Reutersin Web of Science ja Elsevierin Scopus) tarjoamiin mahdollisuuksiin. Sisältötyöryhmä on hahmotellut kansallisen tietokannan tietosisältöä ja pohtinut kansallisen julkaisurekisterin toiminnallista arkkitehtuuria.

Tiedonkeruun uudistaminen

Tähän asti julkaisuja koskevat tiedot on kerätty vuosittaisen KOTA- ja AMKOTA-raportoinnin yhteydessä siten, että raportoivat organisaatiot ovat ilmoittaneet kuhunkin julkaisutyyppiluokkaan luokiteltujen julkaisujensa lukumäärän. Tuloksia on kuitenkin pidetty epätyydyttävinä mm. siksi, että tietojen keräämisen prosessit ovat olleet eri organisaatioissa varsin erilaisia, eivätkä ne ole välttämättä olleet kovin läpinäkyviä ulospäin. Lisäksi samat julkaisut ovat olleet mukana raportoinnissa useaan kertaan, jos niillä on ollut tekijöitä useissa organisaatioissa, mikä on vaikeuttanut julkaisutoiminnan kokonaisvolyymin arviointia.

JURE-projektin tavoitteeksi on asetettu sellaisen kansallisen julkaisurekisterin suunnitteleminen, johon kerättäisiin julkaisujen lukumäärien lisäksi myös niiden viitetiedot. Tämä parantaisi tiedonkeruun läpinäkyvyyttä ja tarjoaisi nykyistä monipuolisempia mahdollisuuksia julkaisutiedon analysointiin. Suunnittelun esikuvina on käytetty mm. Norjassa ja Tanskassa jo olemassa olevia järjestelmiä. Jo aiemmin käytössä olleen julkaisutyyppiluokituksen lisäksi julkaisujen laadun analyysiä kehitetään julkaisufoorumien luokituksen ja mahdollisuuksien mukaan myös julkaisuihin kohdistuvia viittauksia koskevien tietojen perusteella.

Toinen keskeinen tavoite JURE:n taustalla on ollut muista järjestelmistä ja palveluista haravoitavan valmiin julkaisu- ja sitaatiotiedon hyödyntäminen. Näkyvimmin esillä ovat olleet aiemmin mainitut Web of Science ja Scopus, jotka hieman erilaisista painotuksistaan huolimatta sisältävät viitetiedot useimmista suomalaistenkin tutkijoiden kansainvälisillä foorumeilla julkaisemista artikkeleista. Web of Science on jo nyt käytössä monissa suomalaisissa tutkimusorganisaatioissa, ja se olisi mahdollista hankkia FinELibin kautta myös nykyistä laajempaan käyttöön. Nykyisistä tutkimuksenhallintajärjestelmistä valmiiden viitetietojen haravointia tukee tosin ainoastaan Helsingin yliopiston tämän vuoden kuluessa käyttöön tuleva TUHAT, joka perustuu tanskalaisen Atira-yhtiön kehittämään Pure-ohjelmistoon. Valmiiden julkaisutietojen hyödyntäminen myös kansallisella tasolla tarjoaisi kuitenkin merkittäviä kustannushyötyjä, vähentäisi turhaa päällekkäistä työtä, parantaisi tietojen laatua ja helpottaisi eri organisaatioiden julkaisutietojen yhdistämistä.

Riippumatta siitä, miten hyvin kansainvälisten julkaisutietokantojen dataa voidaan hyödyntää paikallisissa julkaisurekistereissä, ne tarjoavat toki jo sellaisenaan mahdollisuuksia julkaisutietojen alakohtaiseen analyysiin ja esim. eri maiden tieteellisen tuotannon vertailemiseen. Analyysejä on mahdollista tehdä joko omilla analyysityökaluilla tietokantojen tuottajilta hankitun raakadatan pohjalta tai hyödyntämällä tietokantojen tuottajien omia palveluita (esim. Thomson-Reutersin InCites). JURE-projektin puitteissa on pohdittu kansallisen julkaisurekisterin suunnittelun rinnalla myös näiden mahdollisuuksien hyödyntämistä.

Vaikka monien tieteenalojen kansainvälisten julkaisujen viitetiedot löytyvät melko kattavasti Web of Sciencen tai Scopuksen kaltaisista tietokannoista, tilanne ei ole kaikilla aloilla aivan yhtä ruusuinen. Etenkin monilla humanistis-yhteiskuntatieteellisillä aloilla (ml. oikeustiede) merkittävä osa julkaisuista ilmestyy kotimaisissa lehdissä, joiden sisältöä ei yleensä rekisteröidä kansainvälisiin tietokantoihin. Näiltä osin on keskusteltu mahdollisuudesta hyödyntää julkaisurekisterien tietolähteinä Arto– ja Fennica-tietokantoja. Esim. Arton osalta tämä saattaisi kuitenkin edellyttää tietokannan kattavuuden ja ajantasaisuuden parantamista sekä tietosisällön laajentamista joiltakin osin (mm. tekijöiden organisaatiotiedot).

Julkaisurekisterin arkkitehtuuri ja tekniset ratkaisut

Tällä hetkellä pelkästään yliopistoissa on käytössä kymmenkunta erilaista paikallista julkaisurekisteriä tai tutkimuksenhallintajärjestelmää. Osa näistä on kaupallisia tuotteita, osa taas itse kehitettyjä järjestelmiä. Kansallisen julkaisurekisterin kehittämisen kannalta teknisten sovellusten kirjo on melkoinen haaste: jotta tietojen kokoaminen nykyisistä järjestelmistä olisi mahdollista, niihin täytyisi rakentaa tiedonkeruun mahdollistavat tekniset rajapinnat ja myös järjestelmien tietosisältöä pitäisi yhdenmukaistaa.

Julkaisurekisterin arkkitehtuurin osalta keskustelua on käyty sekä haravointiin pohjautuvasta hajautetusta toimintamallista että kaikkien organisaatioiden yhteisen kansallisen julkaisurekisterin rakentamisesta. Kuten tavallista, kummassakin mallissa on omat hyvät ja huonot puolensa, ja käytettävissä olevat resurssit ja projektille asetetut aikataulut saattavat rajoittaa valintamahdollisuuksia. JURE:n työryhmissä onkin oltu melko yksimielisiä siitä, että kansallinen julkaisurekisteri perustetaan aluksi suppeassa muodossa, josta sitä voidaan sitten laajentaa.

Hajautettu malli pohjautuisi siihen, että kukin organisaatio ylläpitäisi omaa julkaisurekisteriä, josta julkaisujen tiedot haravoitaisiin määrämuotoisina kansalliseen julkaisurekisteriin. Paikalliset järjestelmät voisivat olla joko nykyisiä tai niitä voitaisiin myös korvata jollain uudella, keskitetysti ylläpidetyllä sovelluksella. Jälkimmäistä vaihtoehtoa perustelisi etenkin se, etteivät useimmat nykyiset järjestelmät tue valmiiden viitetietojen haravointia. Hajautetussa mallissa alkuvaiheen suurimmat haasteet liittyisivät joka tapauksessa teknisten rajapintojen rakentamiseen ja riittävän tehokkaan tuplakontrollin toteuttamiseen. Tietosisällön ja prosessien yhdenmukaistaminen olisi myös jossain määrin mutkikkaampaa, jos käytössä olisi edelleen useita erilaisia tietojärjestelmiä.

Kunnianhimoisempana visiona esitetty yhteinen kansallinen järjestelmä puolestaan korvaisi nykyiset organisaatiokohtaiset tutkimuksenhallintajärjestelmät uudella keskitetyllä sovelluksella. Oletuksena on, että tämä uusi järjestelmä mahdollistaisi valmiiden viitetietojen hyödyntämisen. Yhteinen järjestelmä yksinkertaistaisi ja yhdenmukaistaisi muutenkin kansallisen järjestelmän prosesseja ja tuottaisi todennäköisesti merkittäviä kustannussäästöjä. Toisaalta järjestelmän yhtäaikaista käyttöönottoa koskevaan päätöksentekoon ja sen rahoituksesta sopimiseen liittyisi epäilemättä haasteita. Samoin järjestelmän käyttöönotto useissa eri organisaatioissa ja sen kytkeminen moniin erilaisiin paikallisiin tietojärjestelmiin olisivat isoja projekteja.

JURE-projektissa ei ole vielä tehty päätöksiä suunnitellun järjestelmän arkkitehtuurista tai teknisistä ratkaisuista. Teknisten vaihtoehtojen osalta on keskusteltu sekä CSC:n rakentamasta XDW-käsitemallia hyödyntävästä tietovarastoratkaisusta että jonkin valmiin CRIS-sovelluksen hankkimisesta kansalliseen käyttöön. XDW-pohjainen tietovarasto sopisi sinänsä hyvin haravoimalla kootun julkaisutiedon analysointiin, ja Raketti-TUTKI-hankkeessa pyritään kehittämään myös siihen pohjautuvia ratkaisuja laajempiinkin tutkimushallinnon tarpeisiin. Toisaalta tietovarasto ei sinällään sisällä esim. julkaisutietojen selailuun sopivaa www-käyttöliittymää (mitä on pidetty läpinäkyvyyden vuoksi tärkeänä), eli sen rinnalle täytyisi joka tapauksessa rakentaa jonkinlainen operatiivinen järjestelmä.

Valmiita CRIS-ohjelmistoja on markkinoilla useita (esim. aiemmin mainittu Pure), ja niiden osalta mahdollinen hankinta täytyisi toteuttaa tarjouskilpailun kautta. Keskeinen kriteeri ohjelmistovalinnassa olisi todennäköisesti se, miten hyvin se tukisi valmiiden viitetietojen hyödyntämistä. CRIS-ohjelmistoa olisi periaatteessa mahdollista hyödyntää sekä yhden yhteisen arkiston mallissa että hajautetussa haravointiin pohjautuvassa arkkitehtuurissa.

Vaikka kansallisen julkaisurekisterin lopullinen toteutuminen kestää todennäköisesti ainakin vuoteen 2012 asti, julkaisutietojen kerääminen pyritään aloittamaan jo ennen tätä. Jo tämän vuoden aikana testataan korkeakoulujen nykyisiin tutkimuksenhallintajärjestelmiin tallennettujen julkaisutietojen keräämistä, yhdistämistä ja analysointia CSC:n XDW-tietovaraston työkaluilla. Tietojen toimittaminen on toistaiseksi vapaaehtoista, ja se tapahtuu todennäköisesti Excel-muodossa, sillä dynaamisempien rajapintojen rakentaminen ei ole mielekästä ennen kuin järjestelmän suunnittelu on edennyt pidemmälle.

Julkaisurekisterin tietosisältö ja julkaisujen laatu

JURE-projektin sisältötyöryhmä on valmistellut ehdotusta kansallisen julkaisurekisterin tietosisällöksi. Tietosisällön suunnittelu on lähtenyt liikkeelle TiedeKOTA-työryhmän esittämien perustietojen pohjalta, ja se noudattaa aiemmin päätettyä julkaisutyyppiluokitusta. Tietosisältöä koskeva ehdotus pyritään saamaan valmiiksi vielä ennen kesälomia, jotta sitä voitaisiin hyödyntää julkaisutietojen keruussa jo loppuvuoden aikana.

Minimitavoitteeksi on hyväksytty se, että kukin julkaisu olisi keskitetyssä järjestelmässä vain yhden kerran. Tämä tarkoittaa sitä, että useissa organisaatioissa tuotetut yhteisjulkaisut täytyy pystyä yhdistämään yhdeksi tietueeksi, vaikka kukin organisaatio raportoisi ne erikseen omien tekijöidensä osalta. Erityisesti paikallisista tietokannoista tehtävään haravointiin pohjautuvassa mallissa tämä edellyttää tehokasta tuplakontrollia. Valmiiden viitetietojen hyödyntämisen lisäksi tietokannan laatua pyritään parantamaan myös keskitetysti ylläpidettyjen lehtitietojen avulla. Lehtitiedot voisivat perustua esim. Ulrich’s-tietokantaan koottuun dataan.

Vaikka huomattava osa julkaisutiedoista on saatavissa valmiina, kirjoittajien tunnistaminen ja julkaisujen yhdistäminen oikeisiin organisaatioihin ei ole mikään läpihuutojuttu. Web of Science -datan osalta CSC on jo testannut organisaatiotietojen tunnistamista, ja on todennut että se on mahdollista, jos kohta melko mutkikasta. Kirjoittajien osoitetiedoissa organisaatioiden nimet eivät valitettavasti ole standardimuodossa, vaan niissä on runsaasti virheitä ja kryptisiä lyhenteitä, joiden tulkitseminen automaattisesti edellyttää runsaasti etukäteisvalmistelua.

JURE-projektissa on päädytty siihen, että julkaisut raportoidaan toistaiseksi organisaatiotasolla, eikä julkaisurekisterin rinnalle vielä tässä vaiheessa rakenneta kansallista tutkijarekisteriä. Kunkin raportoivan organisaation sisällä on kuitenkin perusteltua pyrkiä yhdistämään julkaisuissa esiintyvät tekijänimet raportointivelvollisiin organisaation työntekijöihin. Esim. Helsingin yliopiston TUHAT-järjestelmässä tämä on toteutettu siten, että tutkijan tulee tunnistaa ulkopuolisista lähteistä haravoitujen viitetietojen joukosta omat julkaisunsa. Toisaalta, koska merkittävää osaa julkaisutiedoista ei ainakaan vielä saada haravoitua valmiina muualta, niitä täytyy joka tapauksessa syöttää järjestelmään myös paikallisesti.

Julkaisurekisterin tietosisällön osalta erityistä päänvaivaa on aiheuttanut etenkin OKM:n kaipaama open access -tieto. Ongelmana on ollut nimenomaan open accessin määritelmä: halutaanko järjestelmään kerätä tieto open access -lehdissä ilmestyneistä artikkeleista, vai otetaanko mukaan myös julkaisuarkistoihin rinnakkaistallennetut artikkelit? Vaikka julkaisurekisterin ja julkaisuarkiston toiminnan motivaatio on jossain määrin erilainen – julkaisuarkistojen päämääränä on tiedon saannin edistäminen – JURE-projektin puitteissa on noussut esiin toiveita niiden kytkemisestä tavalla tai toisella toisiinsa. Yksinkertaisimmillaan tämä voi tarkoittaa julkaisurekisteristä kokotekstijulkaisuihin johtavia linkkejä, tai sitten julkaisurekisterin ja julkaisuarkiston tallennusprosesseja voidaan kytkeä yhteen, hieman samaan kuin esim. Helsingin yliopiston TUHAT-hankkeen yhteydessä on suunniteltu. Työryhmien keskusteluissa on lisäksi toivottu sitä, että myös julkaisuarkistojen osalta voitaisiin vähitellen pyrkiä yhteiseen kansalliseen ratkaisuun useiden erillisten arkistojen sijaan.

JURE-projektia suunniteltaessa on otettu alusta lähtien huomioon, että eri tieteenaloilla on hyvin erilaisia julkaisukäytäntöjä, eikä niitä voi arvioida samoilla määrällisillä tai laadullisilla kriteereillä. Kunkin tieteenalan sisällä on sen sijaan mahdollista tehdä mielekkäitä vertailuja eri organisaatioiden julkaisutoiminnan välillä. Tieteenalojen välisten rajojen määrittely on kuitenkin usein vaikeaa, ja sekä kotimaassa että kansainvälisesti on ollut käytössä useita erilaisia luokituksia. Tilanteen selkiyttämiseksi JURE:n tieteenalatyöryhmä on koonnut uuden tieteenalaluokituksen, joka on pyritty tekemään mahdollisimman yhteensopivaksi keskeisten koti- ja ulkomaisten luokitusten kanssa.

Tieteenalatyöryhmässä laadittua tieteenalaluokitusta hyödynnetään myös Tieteellisten seurain valtuuskunnan koordinoimassa Julkaisufoorumi-hankkeessa, joka käynnistyy lähiaikoina. Hankkeen puitteissa kootaan tieteenalakohtaisia paneeleita, jotka käyvät läpi kunkin alan lehdet ja luokittelevat ne eri kategorioihin niiden merkittävyyden mukaan. Tieteenalapaneelien organisointiin liittyy logistisia haasteita, sillä tieteenaloja on paljon eivätkä lehdet välttämättä jakaudu aivan ongelmattomasti tieteenalaluokituksen mukaan, mutta työ pyritään joka tapauksessa saamaan valmiiksi vuosien 2010-2011 aikana. Julkaisufoorumiluokituksia hyödynnetään aikanaan myös kansallisessa julkaisurekisterissä ja tutkimusorganisaatioiden julkaisutoiminnan arvioinnissa.

Lisätietoja

Kirjoittajan yhteystiedot

Jyrki Ilva, sovellussuunnittelija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: jyrki.ilva(at)helsinki.fi

Theme by Anders Norén