Kansainvälistä keskustelua avoimista julkaisuarkistoista – OR2008, Southampton

Karo Salminen
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe200804301290
OR_banner_2008

Kolmas International Conference on Open Repositories järjestettiin tällä kertaa vihertävässä Southamptonissa, Englannissa huhtikuun alussa. Joka vuosi ohjelman ja osallistujien määrä on kasvanut, ja tänä vuonna konferenssiin osallistui jo 450 henkilöä 35:stä eri maasta.

Konferenssin ohjelma jakaantui sellaisten avoimen lähdekoodin julkaisuarkistoja läheisesti käsittelevien teemojen ympärille kuten Web 2.0 ja sosiaaliset verkostot, tieteelliset julkaisuarkistot, arkistojen välinen yhteentoimivuus, käytön mittaaminen ja julkaisuarkistojen arkkitehtuuri. Tilaisuutta pohjusti uusien versioiden julkaisu kolmesta suosituimmasta avoimen lähdekoodin julkaisuarkistoalustasta DSpacesta (http://www.dspace.org), Fedorasta (http://www.fedora.org) ja ePrintsista (http://www.eprints.org). Näille järjestelmille oli myös jaettu omat osionsa konferenssin nelipäiväisessä ohjelmassa.

Koska Kansalliskirjasto on valinnut DSpacen omaksi julkaisuarkistoalustakseen, osallistuin luonnollisesti kyseisen järjestelmän käyttäjäryhmän tilaisuuksiin. Tämä heijastuu tiettyjen aihepiirien käsittelyyn. Seuraavassa kerron tarkemmin eräistä valikoiduista esitelmistä. Koko konferenssin ohjelmaan ja lähes kaikkiin julkaisuihin voi asiaan vihkiytynyt lukija tutustua konferenssin kotisivuilla (http://www.openrepositories.org/2008/), unohtamatta viime vuoden tilaisuuden matkaraporttia, joka on julkaistu Tietolinjassa 1/2007.

Arkistoja ja työkaluja tieteentekijöiden tarpeisiin

Esitelmien sarjan avasi Cambridgen yliopiston Peter Murray-Rust puhumalla tieteellisen tutkimusdatan arkistoinnista. Yleensä ottaen julkaisuarkistot ja tieteellisten lehtien siirtyminen verkkoon ovat parantaneet huomattavasti tutkimustuloksiin pohjautuvien julkaisujen jakelua, käyttöä ja löydettävyyttä. Vähemmälle huomiolle on jäänyt tieteentekijöiden tarve varsinaisen tutkimusdatan jakamiselle. Suurin tarve on erityisesti sellaisilla aloilla joilla dataa tuotetaan paljon. Murray-Rustin ideana oli kehittää tieteen tekijöille samanlaisia keskitettyjä arkistotyökaluja kuin ohjelmoijilla ja avoimen lähdekoodin ohjelmistoprojekteilla jo on (esimerkiksi Sourceforge, joka huolehtii ohjelmiston lähdekoodiin tehtävistä muutoksista, versioinnista ja jakelusta).

Luonnontieteissä tutkimusdatan jakaminen verkossa on yleisempää, ja esimerkiksi genetiikasta ja bioinformatiikassa on jo olemassa joitakin tutkimusdata-arkistoja (engl. data repositories), esimerkiksi Euroopan bioinformatiikan instituutin varannot. Murray-Rust esitteli muutaman oman alansa eli kemian käytännöllisen, seuraavan sukupolven työkalun, OSCAR:n ja CrystalEyen (http://wwmm.ch.cam.ac.uk/wikis/wwmm/index.php/Oscar3 ja http://wwmm.ch.cam.ac.uk/crystaleye/). OSCAR annotoi automaattisesti kemian julkaisuja eli käytännössä tunnistaa tekstissä esiintyviä yhdisteitä, molekyyleja ja joukon muita kemistejä kiinnostavia tietoja. CrystalEye vuorostaan on tietovaranto, joka kerää automaattisesti uusia kiderakenteita tieteellisistä lehdistä, muuntaa ne kemian kuvauskielen (Chemical Markup Language, CML) muotoon ja visualisoi ne kaksi- ja kolmiulotteisiksi malleiksi. Mallien yhteydet alkuperäisiin artikkeleihin säilytetään, joten itse kiderakenteen mallista on helppo siirtyä alkuperäiseen julkaisuun, jossa kiderakenne on alkujaan esitelty. CrystalEye tarjoaa myös RSS-syötteet uusien kiderakenteiden seuraamiseen.

Ylipäätään tutkijoiden datan ja tiedon hallintaa tulisi Murray-Rustin mielestä parantaa. Ja vaikka opiskelijoita ja tutkijoita pitäisi kouluttaa kohti parempaa tiedon hallintaa, tulisi sen olla Murray-Rustin mukaan laitosten vastuulla.

Julkaisuarkistojen yhteentoimivuudesta ja yhteenliittymästä

Julkaisuarkistot eivät perinteisesti ole olleet keskenään yhteentoimivia, toisin sanoen tiedonvaihto niiden kesken ei ole onnistunut. OAI-PMH edusti ensimmäistä ohjelmistoriippumatonta protokollaa julkaisuarkistojen väliseen kommunikointiin. Sen avulla julkaisuarkistoista saatiin ulos vakiomuotoista tietoa arkiston sisällöstä. Samoihin aikoihin vuosituhannen vaihteen alussa julkaistiin myös ensimmäinen versio METS:stä, joka tarjosi yhteisen aineistojen paketointistandardin, jolla julkaisuarkistoihin tallennettuja dokumentteja ja niihin liittyviä metatietoja voitiin vaihtaa arkistojen välillä.

Toistaiseksi mitään yhtenäistettyä tapaa aineistojen syöttämiseen julkaisuarkistoihin ei ole kuitenkaan kehitetty. Julie Allinsonin esittelemä SWORD (Simple Web Service Offering Repository Deposit) on ensimmäinen yritys tällä saralla. SWORD (http://www.ukoln.ac.uk/repositories/digirep/index/SWORD) on julkaisuarkiston ulkopuolinen rajapinta, joten sillä voi syöttää automaattisesti aineistoa julkaisuarkistoihin, käyttää sitä julkaisuarkistojen välisessä aineistojen siirrossa tai vaatimattomana käyttäjän tiedonsyöttöliittymänä. Varsinaisena loppukäyttäjän käyttöliittymänä SWORD:ia tai sen asiakasohjelmia ei voi kuitenkaan pitää. Loppukäyttäjä tarvitsee työnkulun aineiston syöttämiseen, ja siihen tarkoitukseen ovat parhaita edelleen julkaisuarkistojen omat käyttöliittymät.

SWORD:n toteuttamisessa hyödynnettiin laajasti käytössä olevaa RSS-syötettä kehittyneempää ATOM-standardia. Jatkossa SWORD:ia hyödynnetään varmasti siihen läheisesti liittyvän OAI-ORE:n yhteydessä, mitä myös esitelmän pitäjä vakuutti. Ylipäätään SWORD:sta tulemme lähitulevaisuudessa vielä varmasti kuulemaan lisää, kun sen pohjalle rakennetaan uusia projekteja ja ohjelmia.

Julkaisuarkistoalan työteliäs suurmies Herbert Van de Sompel oli mukana monessa konferenssin esityksessä, joista yksi koski miehen erästä tuotosta, aDORe-federaation (http://african.lanl.gov/aDORe/projects/adoreFederation/) arkkitehtuuria. Arkkitehtuuri esiteltiin ratkaisuksi yksittäisten julkaisuarkistojen skaalautuvuusongelmiin: kun dokumenttien määrä kasvaa jatkuvasti ja ylittää miljoonien objektien rajan, tyypillisesti myös käyttö kasvaa ja aineiston hallinta vaatii enemmän resursseja. Yksittäisen julkaisuarkiston suorituskyvyn rajat tulevat joka tapauksessa vastaan ennemmin tai myöhemmin, ja silloin arkkitehtuurin uudelleensuunnittelu on järkevin tapa edetä. aDORe-federaation arkkitehtuurin ideana on hajauttaa julkaisuarkisto kolmeksi erilaiseksi julkaisuarkistoksi, jotka näkyvät ulospäin yhtenä julkaisuarkistona.

Idea on toteutettu kolmitasoisena arkkitehtuurina. Ensimmäinen taso muodostuu julkaisuarkistoista, jotka ovat toisistaan tietämättömiä ja mahdollisesti toteutukseltaan erilaisia, mutta niillä kaikilla on yhdenmukaiset rajapinnat, joiden kautta käytetään vaadittuja palveluja (esim. dokumenttien paikallistaminen ja hakeminen). Tämän päälle rakentuu toinen taso, joka pitää kirjaa dokumenteista, julkaisuarkistoista ja julkaisuarkistojen palveluista aDORe-federaatiossa. Kolmas taso on toisinto ensimmäisestä tasosta ja käyttöliittymä federaatiolle.

Julkaisujen versioinnin ja käytön mittaamisen hienouksia

JISC:n rahoittama Version Identification Framework -projektista kertova esitys pureutui dokumenttien versioinnin kysymyksiin. Projektin selvityksen mukaan vain 5 prosenttia yliopistojen henkilökunnasta piti julkaisuarkistojen dokumenttien eri editioiden ja versioiden tunnistamista helppona. Selvyyttä siitä onko julkaisuarkistossa esillä oleva dokumentti käsikirjoitus, artikkeli, konferenssipaperi, tiivistelmä, posteri tai esimerkiksi raportti voi olla vaikea saada, kun julkaisuarkistot voivat pitää sisällään monentyyppisiä julkaisuja.

VIF:n tarkoituksena on antaa suosituksia ja opastaa julkaisujen kirjoittajia ja sisällöntuottajia sekä julkaisuarkistojen hoitajia ja ohjelmistojen suunnittelijoita, jotta haluttu editio tai versio olisi helpompi tunnistaa kokoelmista. Jotta tämä nk. versiointiongelma voitaisiin ratkaista, täytyy projektin mukaan dokumenttiin liittää päivämäärätietoa (esim. kirjoitus- ja julkaisuajankohdasta), tunniste, versiointitiedot (versionumero ja tieto versiotaksonomiasta) ja kuvaus versiosta. Itse digitaaliseen objektiin olisi suotavaa sisällyttää tietoja editiosta tai versiosta käyttäen hyväksi esimerkiksi kuvaavaa tiedostonimeä, nimiölehteä, tiedostomuotoon kuuluvia metadatakenttiä ja esimerkiksi kuvien tapauksessa vesileimaa. VIF on kirjannut verkkosivuilleen (http://www.lse.ac.uk/library/vif/) suositukset, jotka kaikkien kannattaa katsastaa.

Yksi konferenssin vaikuttavimmista esityksistä oli epäilemättä Van de Sompelin kanssa työskentelevän Johan Bollenin esitys MESUR-tutkimusprojektista (http://www.mesur.org/). Projektin tarkoituksena on tutkia ja tuottaa uutta evaluointimetriikkaa muiden tieteellisten julkaisujen vaikuttavuutta mittaavien mittareiden rinnalle, mutta toisin kuin muut perinteiset mittarit (impact factor, sitaatti-indeksit) MESUR:n mittarit perustuvat lehtien ja julkaisujen käyttöön. Käytön tutkiminen on tärkeää jo sen itsensä vuoksi, mutta erityisesti avointen julkaisuarkistojen tutkiminen vaikuttavuuden kannalta on olennaista.

Sitaatteihin perustuvat mittarit eivät kata harmaata kirjallisuutta, tieteellisten lehtien ulkopuolelle jääviä julkaisuja ja muuta vastaavaa materiaalia, jotka yhdessä muodostavat merkittävän osuuden avointen julkaisuarkistojen sisällöstä. Samoilla mittareilla on muitakin ongelmia, eräs niistä on sitaattiperusteisten mittareiden aikaperspektiivi: mittarit seuraavat todellisuutta muutaman vuoden viiveellä. Tutkijat lukevat julkaisuja, tekevät tutkimusta ja kirjoittavat sitten uusia artikkeleita, joissa vanhoihin julkaisuihin viitataan ja jotka mahdollisesti julkaistaan niiden läpäistyä ensin arviointi- ja kommenttikierroksen. Käytön mittaaminen välttää nämä ongelmat ja siitä voidaan muodostaa sitaatti-indeksien tapaisia vaikuttavuusmittareita. Se kertoo mitä lehtiä ja artikkeleja tieteentekijät tosiasiassa lukevat ja mitä aineistoja he käyttävät sen sijaan että se kertoisi siitä, mihin julkaisuihin he omissa julkaisuissaan viittaavat.

Bollen on kumppaneineen saanut raakadataa usealta eri julkaisijalta ja konsortiolta 10 vuoden ajalta, ja yksittäisiä käyttötapahtumia heidän rakentamaansa tietokantaan on kertynyt kokonaiset miljardi kappaletta. Käyttötapahtumista he ovat rakentaneet semanttisen verkon, jonka avulla käyttöä analysoidaan. Bollenilla oli esittää mielenkiintoisia varhaisia löydöksiä käytön ja sitaatti-indeksien välisestä suhteesta sekä siitä, miten eri tieteenalat ja niiden lehdet liittyvät toisiinsa lukijakäyttäytymisen perusteella. Näistä tuloksista hän tulee varmasti raportoimaan vielä lisää alan julkaisuissa.

Käyttöä helpottavat tagit ja asiasanat

Monissa esityksissä paneuduttiin siihen, miten tiedontarvitsijat löytäisivät kaipaamiaan aineistoja helpommin – Web 2.0:n hengessä. Eräs esitetty käytännön parannus oli RichTags. RichTags kategorisoi julkaisuarkistoissa olevat julkaisut ja luo niille Web 2.0 -aikakauden asiasanoja eli tageja. Työ on täysin automaattista eikä vaadi ihmisen väliintuloa. RichTags käyttää pohjana luokittelun muodostamiselle julkaisujen metadataa ja muita ulkoisia lähteitä (esim. EBSCO). Erotuksena julkaisuarkistojen omiin luokituksiin tai mahdollisiin omiin tageihin RichTags luo yleiset luokitukset ja tagit, jotka ovat yhteisiä kaikille eri julkaisuarkistojen aineistoille. Tietyn kategorian tai tagin valitsemalla käyttäjä voi siis nähdä kaikki eri julkaisuarkistoissa sijaitsevat julkaisut, jotka kuuluvat kyseiseen luokkaan.

Yleensähän tagien ongelmana on pidetty sitä, että ne pohjautuvat ns. folksonomiaan ja ovat subjektiivisia. Mielenkiintoista RichTags-projektissa on yleisen asiasanoituksen luominen puhtaasti aineistokokoelmien pohjalta ja automaattisesti. Kirjastot olisivat varmasti mielissään, jos tällaisen automaattisen annotoinnin pohjana käytettäisiin esimerkiksi Yleistä suomalaista asiasanastoa tai muuta ammattimaista, informaatikkojen luomaa yleistä asiasanastoa. Kehitys kohti automaattista asiasanoitusta on silti väistämätöntä, olkoonkin se ammattimaista tai ei. Nähtäväksi jää, milloin internetin hakukoneyhtiöt kuten Google alkavat luokitella hakutuloksiaan ja varustella niitä asiasanoin.

Myös Pekingin olympialaiset näkyivät yllättävää kyllä konferenssissa. HP Labs ja Beihang-yliopisto ovat rakentaneet digitaalista arkistoa Pekingin olympialaisille, johon tallennetaan esimerkiksi kuvia, videoita ja muuta materiaalia kisoista. Arkisto avataan yleisölle tämän kirjoituksen julkaisuaikoihin.

Olympialaisia dokumentoivaa, virtuaalista museota varten projektissa on toteutettu DSpaceen ominaisuus, jolla käyttäjän on vaivattomampaa selailla museossa olevia aineistoja. Kyse on tietyssä aineistossa esiintyvien käsitteiden linkityksestä toisiin aineistoihin (concept linking). Joku voisi ilkikurisesti huomauttaa, ettei tällainen sanojen linkitys eroa juurikaan tagien käyttämisestä: aineistolle luodaan tiettyjä asiasanoja, joita klikkaamalla pääsee toisiin aineistoihin, joissa on samoja asiasanoja.

Joka tapauksessa itse museon käyttäjälle käsitteiden linkitys näyttää erilaiselta kuin moni muu konferenssissakin esitellyistä ja DSpacelle tehdyistä tagisovelluksista. Sen sijaan että aineiston sivulla olisi erikseen osio tageille tai asiasanoille, tietyt sanat (tai yleisemmin käsitteet) ovat hyperlinkkejä, jotka osoittavat muihin aineistoihin arkistossa. Esimerkiksi lauseessa ”Liu Xiang won the men’s 100m hurdles in Athens 2004” (”vuonna 2004 Liu Xiang voitti miesten 100 metrin aidat Ateenassa”) käsitteet ”Liu Xiang”, ”100m hurdles” ja ”Athens 2004” on linkitetty muihin aineistoihin, jotka käsittelevät kyseisiä aiheita.

Samoin kuin tagien käyttäminen on myös käsitteiden linkitys väistämättä selvä parannus DSpace-pohjaisen julkaisuarkiston käyttöön. Nykyisellään käyttäjä ei saa tietää aineistoa selatessaan, mitä muuta vastaavanlaista materiaalia arkistossa on tarjolla muuten kuin DSpacen rajoittuneen tietomallin mukaisen yhteisö-/kokoelmajaottelun puitteissa.

 

Kirjoittajan yhteystiedot

Karo Salminen, sovellussuunnittelija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: karo.salminen(at)helsinki.fi