OpenAIRE, BASE ja CORE – avointen julkaisujen hakupalvelut esittelyssä

Ilva J (2017). OpenAIRE, BASE ja CORE – avointen julkaisujen hakupalvelut esittelyssä. Tietolinja, 2017(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201709258721

Vaikka ”googlaamisesta” on tullut jo kauan sitten suorastaan synonyymi tiedonhaulle, erikoistuneempien tiedontarpeiden ystäviä varten on olemassa muitakin varteenotettavia palveluita. Julkaisuarkistojen avoimista aineistoista kiinnostuneille on tarjolla peräti kolme varteenotettavaa hakupalvelua, OpenAIRE, BASE ja CORE. Kaikki hyödyntävät kuvailutietojen keruussa OAI-PMH-protokollaa.

OAI-PMH:lla keskitettyyn indeksiin

Googlen hakupalvelut perustuvat hakurobottien tekemään verkkoaineistojen indeksointiin, mutta kirjastomaailmassa erilaisilla standardoiduilla tiedonsiirtoprotokollilla (Z39.50 jne.) on pitkät perinteet. Alkuvuodesta 2001 lanseerattu OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) – tai oikeammin sen vuonna 2002 valmistunut versio 2.0 – on yksi laajimmin käytetyistä protokollista. Se kehitettiin alun perin tieteellisen julkaisutoiminnan tarpeisiin, julkaisuarkistoihin tallennettujen artikkelien kuvailutietojen välittämiseen Dublin Core -formaatissa palvelusta toiseen.

Ensimmäinen OAI-PMH:ta hyödyntänyt hakupalvelu oli Michiganin yliopistossa kehitetty OAIster, josta toivottiin alkuvaiheessa jopa laadukkaisiin aineistoihin keskittyvää kilpailijaa Googlen kaltaisille yleisille hakukoneille. Julkaisuarkistojen odotettiin ryhtyvän OAI-PMH-yhteensopiviksi suurelta osin siksi, että ne voisivat liittyä mukaan OAIsteriin. Ajatus kuvailutietojen keräämisestä keskitettyyn indeksiin ja hakupalveluun oli keskeinen perustelu sille, että julkaisuarkistoja kannatti ylipäätään ryhtyä rakentamaan laajempien keskitettyjen palveluiden sijasta paikallisina organisaatiokohtaisina palveluina.

Vaikka OAIsterin indeksi kasvoi nopeasti, siitä ei koskaan tullut hakupalveluna menestystarinaa. Sen Dublin Coren 15 peruskentässä keräämät kuvailutiedot olivat aivan liian suppeita ja sekavia kelvatakseen kunnollisten tiedonhakujen pohjaksi. Hakukone päätyi sittemmin OCLC:n omistukseen, ja se on nykyään koko lailla unohdettu osa WorldCatia.

Samat tietojen laatuun liittyvät ongelmat ovat vaivanneet myös myöhempiä OAI-PMH:n varaan rakennettuja palveluita, mutta protokollan käyttö on kuitenkin vuosien varrella yleistynyt, suurelta osin sen helppouden ansiosta.  Protokollaa on ryhdytty hyödyntämään tieteellisten julkaisujen lisäksi muunkin tyyppisten aineistojen kuvailutietojen välittämisessä, ja sillä voidaan DC:n lisäksi siirtää myös muissa formaateissa olevia kuvailutietoja.

OAI-PMH:n varaan on rakennettu useita kansainvälisiä tiedonhakuportaaleja, mm. kulttuuriperintöaineistoihin keskittyvä Europeana, open access -lehtien artikkelien kuvailutietoja aggregoiva Directory of Open Access Journals tai opinnäytteisin keskittyvä Dart-Europe. Sitä hyödynnetään myös monissa kansallisissa palveluissa, joita ovat meille niin kovin tutun Finnan lisäksi mm. Digital Public Library of America (DPLA) tai Australian Trove.

OAI-PMH:lle on sittemmin saanut monipuolisempia seuraajia (OAI-ORE ja ResourceSync, joiltakin osin myös IIIF), mutta siirtyminen niiden käyttöön on ollut yllättävän hidasta, vaikka uusien protokollien puhemiehinä ovat olleet nimenomaan OAI-PMH:n alkuperäiset kehittäjät. Puutteistaan huolimatta OAI-PMH on ilmeisesti koettu niin toimivaksi, ettei uusien protokollien implementointi ole toistaiseksi lähtenyt kunnolla etenemään.

Julkaisuarkistojen sisältöön erikoistunut hakupalvelu näytti kymmenkunta vuotta sitten jäävän pelkäksi haaveeksi, sillä Google ja sen loppuvuodesta 2004 beta-versiona avaama Google Scholar -hakukone indeksoivat myös julkaisuarkistojen sisällön varsin kattavasti. Google Scholarin indeksin arvioitiin vuonna 2014 sisältävän noin 160 miljoonaa dokumenttia; toisen arvion mukaan se kattoi noin 80-90 % verkossa saatavilla olevista englanninkielisistä tieteellisistä julkaisuista. Vaikka Google hyödyntää myös haravoimiensa palveluiden sisältämiä kuvailutietoja, se ei ole niistä riippuvainen, sillä se indeksoi ja analysoi myös itse julkaisujen sisällön. Niinpä sen tarjoamat hakutulokset ovat usein selkeästi laadukkaampia ja paremmin järjestettyjä kuin pelkkiin OAI-PMH:lla kerättyihin (usein jo alun perin puutteellisiin) kuvailutietoihin perustuvat tulokset.

Jos Googlellakin pärjätään ihan hyvin, mihin siis muita tieteelliseen aineistoon keskittyviä hakupalveluita enää tarvitaan? Tiedonhaun rinnalle on vähitellen noussut muitakin tarpeita, joihin Google ei kunnolla vastaa. Google Scholarin ehkä suurin miinus on ollut se, ettei se anna keräämäänsä dataa ulkopuolisten käyttöön, eli sitä voi käyttää lähinnä vain Googlen oman käyttöliittymän kautta, eikä sen pohjalta pysty siten tekemään kovin monipuolisia analyysejä.

Vaikka on epätodennäköistä, että OpenAIREn, BASEn tai COREn kaltaiset palvelut koskaan hätyyttelisivät Googlen suosiota tiedonhakijoiden keskuudessa, ne tarjoavat kuitenkin datasettejä ja rajapintoja, joiden avulla voi tehdä sellaisia asioita joihin Googlen tarjoamat palvelut ainakaan tällä hetkellä eivät taivu. Samalla ne tarjoavat vaihtoehdon tieteellisten julkaisujen kuvailutietoja sisältäville kaupallisten palveluntarjoajien kokoamille keskitetyille indekseille, joita hyödynnetään tällä hetkellä esim. kirjastojen tiedonhakuportaaleissa.

OpenAIRE – EU-rahoitteista yhteistyötä

OpenAIRE on EU:n rahoittama avoimeen tieteeseen keskittyvä hankekokonaisuus, joka syntyi vuonna 2009 jatkamaan aiempien Driver-hankkeiden tekemää työtä. Portaali on vain osa OpenAIREn toimintaa, sillä se ylläpitää Euroopan laajuista yhteistyöverkostoa, jossa Suomea edustaa Helsingin yliopiston kirjasto, pyörittää Zenodo-julkaisuarkistoa ja jakaa rahoitusta monenlaisiin muihinkin aktiviteetteihin eri puolilla Eurooppaa.

OpenAIREn vahvuus on ollut suora yhteys EU:n hallintoon ja sen puiteohjelmiin, minkä ansiosta myös OpenAIREn portaalilla on käytännössä ollut virallinen asema: EU:n hankerahoituksella tuotettujen OA-julkaisujen kuvailutietojen pitäisi olla löydettävissä sen kautta. Niinpä julkaisuarkistoja ylläpitävillä organisaatioilla on ollut selkeä motivaatio saada ne OpenAIRE-yhteensopiviksi. OpenAIREn portaali sisältää tällä hetkellä noin 21 miljoonan julkaisun ja yli puolen miljoonan datasetin kuvailutiedot. Sen yhteyteen on rakennettu myös monenlaisia muita toiminnallisuuksia, jotka eivät välttämättä näy portaalin käyttäjälle.

Käytännössä OpenAIRE-yhteensopivuuden toteuttaminen ei ole ollut aivan triviaalia, minkä vuoksi sen kattavuudessa on edelleen puutteita mm. suomalaisten julkaisuarkistojen osalta. Tämä ei tosin tarkoita sitä, että kaikki mukana olevat julkaisuarkistot todella olisivat OpenAIRE-yhteensopivia. Vaikka OpenAIRElla on periaatteessa selkeät ohjeet siitä millaisessa formaatissa sinne toimitettavan datan pitäisi olla ja mitä kenttiä sen pitäisi sisältää, niistä ei ole käytännössä pidetty kiinni, vaan mukaan on eri aikoina otettu hyvin monentasoista dataa.

OpenAIREn hakuportaali on siihen tehdyistä parannuksista huolimatta edelleen valitettavan sekava, eli sen käytettävyydessä on paljon toivomisen varaa. Tietueiden yhteydessä näytetään myös altmetriikkatietoja silloin kun niitä on julkaisusta saatavilla. Tiedonhaun välineenä portaalista ei kuitenkaan ole kovin paljon iloa. Jos OpenAIREn EU-hankkeiden OA-monitoroinnille tuottama hyöty jätetään laskuista, OpenAIRE-yhteistyön puitteissa laadituilla yhteisiä käytäntöjä koskevilla suosituksilla lienee ollut julkaisuarkistojen toiminnan kannalta suurempi merkitys kuin hakupalvelulla itsellään.

OpenAIRE on ollut osin poliittinen projekti, jota ovat ajoittain ohjanneet muutkin kuin käytännön näkökulmat. Tiedonkeruun ja hakuportaalin ongelmien taustalla ovat hankkeen aikana useaan otteeseen muuttuneet tavoitteet ja ohjeistukset. Sitä edeltäneissä Driver-hankkeissa ei aina käytännössä ollut kovin tiukkoja kriteerejä mukaan pääsemiselle.  OpenAIREen puolestaan piti alun perin kerätä vain EU:n seitsemännestä puiteohjelmasta rahoitusta saaneissa hankkeissa tuotettujen julkaisujen viitetiedot. Sittemmin tiedonkeruu on laajentunut ensin kaikkiin OA-julkaisuihin ja lopulta myös julkaisuarkistoista tutkimustietojärjestelmiin. Alkuperäisen Dublin Core -formaatin lisäksi tietoja voi toimittaa tutkimustietojärjestelmien tuottamassa CERIF-formaatissa, eikä tiedonkeruuta ole rajattu pelkästään OA-aineistoihin.

Konseptin muutosten taustalla on saattanut olla poliittisia paineita. Esim. tällä hetkellä käydään keskustelua OpenAIREn infrastruktuurin mahdollisesta roolista osana Euroopan Komission ideoimaa Open Research Platformia.  Joissakin Etelä-Euroopan maissa OpenAIREn teknologisia ratkaisuja ja sen keräämää datasettiä on saatettu jo aiemmin hyödyntää myös kansallisten järjestelmien pohjana. Koko Euroopan tasolla OpenAIREn keräämien tietojen kattavuus ja laatu vaihtelee kuitenkin toistaiseksi sekä maiden että organisaatioiden välillä niin paljon, ettei niiden pohjalta ole mielekästä tehdä vertailuja.

Bielefeltin akateeminen hakukone

BASE eli Bielefeld Academic Search Engine perustuu Finnan tavoin avoimen lähdekoodin VuFind-ohjelmistoon. BASEa ylläpitää ja kehittää neljän hengen tiimi Bielefeltin yliopiston kirjastossa. Indeksin koolla mitattuna se on artikkelissa esiteltävistä palveluista suurin, sillä se sisältää tällä hetkellä jo yli sadan miljoonan artikkelin kuvailutiedot. Toisin kuin OpenAireen, BASEen ei tarvitse välttämättä ilmoittautua mukaan, vaan se kerää haravoitavien palveluiden tietoja myös OpenDOARin julkaisuarkistolistauksesta.

Indeksin koko selittyy osin sillä, että sinne on haalittu hyvin monenlaista sisältöä. Julkaisuarkistoaineistojen lisäksi mukana ovat mm. DOAJ:in kokoamat OA-lehtien artikkelien kuvailutiedot. Osa julkaisuista on indeksissä moneen kertaan, sillä BASElla ei ole tuplakontrollia, tietueiden yhdistämisestä puhumattakaan.

VuFind skaalautuu joka tapauksessa erinomaisesti jopa sataan miljoonaan tietueeseen, eli BASEn haut toimivat nopeasti ja etenkin OpenAireen verrattuna käyttöliittymä on selkeä. Sivupalkin faseteista saa nopeasti käsityksen siitä mitä hakutulokseen sisältyy. Vaikka metadata on haravoitu perus-DC:nä eikä se siis ole kovin rikasta tai hyvin eroteltua, BASEn tarkennettu haku tarjoaa myös kohtuullisen paljon vaihtoehtoja hakea sisältöjä esim. niissä käytetyn CC-lisenssin pohjalta.

Hakupalveluna BASElla on toki myös heikkoutensa. Koska metadata on tosiaan haravoinnin yhteydessä pelkistetty 15 Dublin Core -kenttään – ja se on monessa tapauksessa köyhää jo lähdejärjestelmissä – hakutulosten järjestäminen mielekkäästi ei kuulu palvelun vahvuuksiin. Koska tulosjoukot ovat vähänkään yleisemmillä hakutermeillä väistämättä suuria, haun hyödyllisyys on usein vähintään kyseenalainen. Julkaisuarkiston ylläpitäjän kannalta BASE on kuitenkin hyödyllinen ainakin sikäli, että sen avulla voi helposti analysoida oman arkiston metadatan yhteismitallisuutta muun maailman kanssa.

Oma kysymyksensä on se, miten hyvin BASE tunnistaa eri julkaisutyypit ja open access -sisällöt. Lyhyt vastaus on ”eipä kovinkaan hyvin”, sillä tunnistus on hyvin pitkälle kiinni siitä, onko julkaisutyyppi tai aineiston avoin saatavuus ilmaistu selkeästi metadatassa. Julkaisutyyppien osalta COARin englanninkielisen julkaisutyyppiluokituksen nykyistä laajempi soveltaminen julkaisuarkistoissa auttaisi asiaa, vaikkei se ihan kaikenkattava olekaan.

OA-statuksen osalta käytössä ei valitettavasti ole toistaiseksi olemassa yhteistä yleismaailmallista merkintätapaa. Jos BASEn ylläpidolta kysyy asiasta, sieltä viitataan OpenAIREn ohjeisiin. Ne eivät kuitenkaan ole kovin laajassa käytössä edes Euroopassa, saati muualla maailmassa. Osa arkistoista (Suomessa esim. ammattikorkeakoulujen Theseus) sisältää pelkästään OA-aineistoja, eli näissä tapauksissa BASE tulkitsee automaattisesti kaikki arkiston sisältämät aineistot avoimiksi julkaisuiksi.

Ei-avoimien aineistojen osuus BASEn indeksissä on kuitenkin käytännössä varsin suuri, etenkin kun sinne on joissakin tapauksissa haravoitu myös tutkimustietojärjestelmien sisältöjä. Niinpä vaikka BASEn tarjoamat listaukset ja kartat OA-aineistojen määristä eri maissa ovat mielenkiintoisia, niiden antama kuva eri maiden tilanteesta ei ole kovin vertailukelpoinen.

BASEn OA-statustiedoilla on erityisen suuri merkitys siksi, että oaDOI-palvelu hyödyntää sen kokoamaa datasettiä etsiessään tieteellisten julkaisujen open access -kopioita. Koska BASEn omat OA-status-tiedot eivät ole aina sen paremmin kattavia kuin luotettaviakaan, oaDOI pyrkii tarkistamaan koneellisesti löytyykö tietueessa olevan linkin takaa julkaisun open access -versiota.

CORE – metadataa ja kokotekstejä

CORE on taustaltaan brittiläinen kansallinen palvelu, joka on laajentunut kattamaan myös Brittein saarten ulkopuolisen maailman. Palvelun nimi CORE tulee sanoista Connecting Repositories eli sekin on lähtenyt alun perin liikkeelle nimenomaan julkaisuarkistojen sisältöjen haravoinnista, vaikka se nykyään hyödyntää myös kustantajilta kerättyä dataa. Palvelun kehittämistä on rahoittanut JISC, ja se on tähän mennessä indeksoinut lähes 80 miljoonan julkaisun kuvailutiedot ja yli kuusi miljoonaa kokotekstitiedostoa. BASEn tavoin se on kerännyt haravoimiensa lähdejärjestelmien tietoja OpenDOAR-sivustolta.

OpenAIREsta ja BASEsta poiketen CORE indeksoi kuvailutietojen lisäksi myös julkaisuarkistoista ja kustantajien palveluista löytyviä kokotekstitiedostoja. Tätä varten se kopioi tiedostot omalle palvelimelleen, josta ne ovat tiedonhakijoiden ja hakukoneiden saatavilla. Muista hakupalveluista poiketen se on ryhtynyt hyödyntämään OAI-PMH:n rinnalla kustantajilta saatavien tietojen haravoinnissa myös ResourceSync-protokollaa, joka tukee julkaisujen sisällön päivittymistä.

Vaikka COREn tietueissa on linkki myös alkuperäiseen lähdejärjestelmään, muualta kopioitujen tiedostojen tarjoaminen palvelun omassa käyttöliittymässä herättää jossain määrin ristiriitaisia ajatuksia. Kustantajien palveluista kopioidut open access -aineistot ovat todennäköisesti CC-lisensioituja ja niiden kopioiminen on siksi sallittua. CORE:n sivustolta löytyy mm. lähes miljoonaa Elsevierin palvelusta kopioitua tiedostoa.

Julkaisuarkistoihin tallennettujen aineistojen osalta tilanne on kuitenkin mutkikkaampi. Läheskään kaikki COREn julkaisuarkistoista kopioimat aineistot eivät ole CC-lisensioituja, eikä CORE ole pyytänyt aineistojen käyttöön lupaa sen paremmin lähdejärjestelmien ylläpitäjiltä kuin julkaisujen tekijöiltäkään. Palvelun Usein kysytyt kysymykset -sivun vastaukset eivät ole tältä osin täysin vakuuttavia.

Toisaalta COREn tarjoamat palvelut ovat sen verran mielenkiintoisia, että sille antaa mielellään paljon anteeksi. Se pystyy kontrolloimaan ovatko julkaisuarkistoihin tallennetut julkaisut todella avoimesti saatavilla, ja kokotekstitiedostojen indeksointi parantaa myös hakutulosten laatua. COREn kehittämisessä on ollut päämääränä tarjota mahdollisuuksia hyödyntää palvelun keräämää dataa myös muualla. COREn keräämää globaalia dataa hyödyntävä keskitetty suosittelupalvelu on jo käytössä muutamissa julkaisuarkistoissa.

Uusien palveluiden rakennuspalikoita

Kaikki tässä artikkelissa esitellyt palvelut ovat olleet olemassa jo melko pitkään. Kaikkien kohdalla on jossain vaiheessa niiden historiaa voinut esittää epäilyksiä siitä, onko niiden rakentamisessa oikeasti mieltä ja tarjoavatko ne mitään todellista lisäarvoa esim. Google Scholariin verrattuna. Näyttää kuitenkin siltä, että nämä palvelut ovat vähitellen löytämässä itselleen roolin, ei niinkään Googlen kanssa kilpailevina hakukoneina, vaan osana laajempia kuvailutietojen ja sisältöjen vaihtoa sekä näistä muodostettujen datasettien analysointia tukevia infrastruktuureja.

Palveluiden roolissa tapahtuneet muutokset kytkeytyvät tieteellisen julkaisutoiminnan yleiseen muutokseen ja avoimen julkaisemisen yleistymiseen. Kun avoin julkaisemisesta tulee valtavirta, myös muu tieteellisiä julkaisuja koskeva informaatio muuttuu lähes väistämättä avoimeksi. Tämä koskee sekä julkaisujen kuvailutietoja, viittaustietoja kuin altmetriikka-dataakin. Vaikkei sen paremmin OpenAIREllla, BASElla kuin COREllakaan ole taustallaan kovin kummoisia resursseja, näyttää kuitenkin siltä, että niillä on ainakin periaatteessa edellytyksiä olla oikeassa paikassa oikeaan aikaan siinä vaiheessa kun tämän uuden maailmanjärjestyksen rakennuspalikat alkavat asettua kohdalleen.

Kirjoittajan yhteystiedot

Jyrki Ilva, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
jyrki.ilva [at] helsinki.fi

Leave a Reply

Theme by Anders Norén