Verkkojulkaisun käytäntöjä : pohjoismaisen Nordbib-kyselyn tuloksia

Joel Peltonen
Kansalliskirjasto / Nordbib-hanke

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe20072118
 

Nordbib-hanke

Pohjoismaiden ministerineuvoston Nordbib –rahoituksen puitteissa on käynnistynyt OpenAccess julkaisuarkistojen infrastruktuuria selvittävä hanke. Nordbib Work Package 3 otsikolla Development of Information Environment Architecture for Nordic Countries käynnistyi kesän alussa. Hanketta koordinoi Kansalliskirjasto ja partnereina ovat mukana Ruotsin kansalliskirjasto, Norjan NORA-hankkeen osapuolet Oslon yliopiston kirjasto ja BIBSYS sekä Tanskan julkaisuarkisto- ja standardointitahojen yhteinen työryhmä. Erityisen huomion kohteena ovat opinnäytteet. Hankkeen puitteissa pyritään myös kehittämään URN-tunnusten käyttöä ja linkityspalveluita. Tätä osaa koordinoi Ruotsin kansalliskirjasto.

Projekti lähti liikkeelle nykytilanteen kartoituksella, mitä varten laadittiin kysely syksyllä 2007. Kysely lähetettiin kaikille pohjoismaisille julkaisuarkistojen ylläpitäjille lokakuussa ja sen tuloksia analysoidaan parhaillaan. Vastauksia saatiin yhteensä 46. Kyselyssä oli annettu mahdollisuus vastata kootusti useamman arkiston puolesta, ja vastaukset edustivatkin yhteensä 92 arkistoa, joista 24 Suomessa, 36 Norjassa, 21 Ruotsissa sekä 11 Tanskassa. (Kysely lähetettiin myös Islantiin, mutta vastauksia ei lopulta saatu.) On huomattava, että arkistojen tarkka lukumäärä on enemmän tai vähemmän epäluotettava, sillä erillisen arkiston määritelmä ei välttämättä ollut yhtenäinen.

Alustavaa yhteenvetoa Suomen osalta

Suomen osalta kysely lähetettiin sähköpostitse tunnetuille arkistonpitäjille, joita oli yhteensä 27. Tämän lisäksi kysely lähetettiin myös yleisiä kanavia myöten, kuten FinnOA-postituslistan ja yliopistokirjastojen neuvoston kautta. Kyselyn deadline oli 26.10.2007. Vastauksia tuli 22, ja ne edustivat yhteensä 24 verkkoarkistoa.

Julkaisujen määrä ja laatu

Kokotekstien määrä Väitöskirjoja Pro
graduja
Muita
opinnäytt.
Artikkeleita Muita
>1000 1 2 0 2 2
500 – 1000 3 2 1 0 0
100 – 500 4 3 1 1 5
<100 9 4 4 5 4
Yhteensä arkistoja 17 11 6 8 11

Taulukko: Erityyppisiä julkaisuja sisältävät suomalaiset julkaisuarkistot (n=22) jaoteltuna julkaisujen määrän mukaan

Taustana selvitettiin julkaisemisen laajuutta sekä kohdetta. Kyselyssä vaihtoehtoina olivat väitöskirjat, pro gradut, muut opinnäytteet, tieteelliset artikkelit sekä muut, joiden määrästä pyydettiin antamaan arvioita. Yleisimmin verkossa julkaistu aineisto oli tohtorin väitöskirjat, joita julkaisi peräti 17 arkistoa 22:sta. Seitsemässä arkistossa väitöskirjat olivat ainoa julkaistu opinnäytetyyppi. Yli puolella (9) arkistoista oli kuitenkin väitöskirjoja määrällisesti vähän, eli vähemmän kuin sata. Vain yhdessä arkistossa väitöskirjoja oli paljon (yli tuhat kokotekstiä).

Pro graduja julkaistiin 11 arkistossa, mutta määrät olivat keskimäärin suurempia kuin väitöskirjojen osalta. Kaksi arkistoa sisälsi yli 1000 kokotekstiä ja yli puolet (7) oli vähintään keskisuuria arkistoja (vähintään 100 julkaisuja). Muita opinnäytteitä (esimerkkeinä annettiin lisensiaatin tutkielma, kandidaatin tutkielma ja AMK-tutkielma) oli vähän, vain kuusi arkistoa, joista ainoastaan kahdessa enemmän kuin sata tutkielmaa. Vain yksi arkisto julkaisi pelkkiä pro gradu -töitä ja kolme pelkästään muita opinnäytteitä kuin väitöskirjoja tai pro graduja.

Muiden kuin opinnäytteiden osalta tieteellisten artikkeleiden julkaiseminen keskittyi lähinnä kahteen arkistoon, jotka molemmat sisälsivät yli tuhat artikkelia. Lopuista kuudesta artikkeleita julkaisseesta vastaajasta vain yhdessä oli enemmän kuin sata kokotekstiä ja siinäkin alle 500. Muuta tieteellistä aineistoa (konferenssiraportteja ja vast., oppimateriaalia) tarjosi 11 arkistoa. Näistä kaksi oli suuria (yli tuhat kappaletta), loput sisälsivät alle 500 kokotekstiä. Vastanneista arkistoista vain yksi ei julkaissut lainkaan opinnäytteitä, mikä selittynee sillä, että kysely oli ohjattu lähinnä oppilaitoksille ja se keskittyi opinnäytteiden julkaisemiseen.

Toistaiseksi suurinta kiinnostusta on siis koettu opinnäytteiden osalta väitöskirjojen julkaisuun. Pro gradujen paljon suurempi vuosittainen määrä aiheuttaa kuitenkin sen, että niitä on lukumääräisesti enemmän, vaikka verkossa julkaistujen osuus on todennäköisesti paljon pienempi. Kiinnostus muihin opinnäytteisiin näyttäisi olevan vähäistä. Muiden tieteellisten tekstien julkaiseminen on keskittynyt tiettyihin arkistoihin. Artikkeleita julkaisivat lähinnä VTT ja Metla*, muita tekstejä VTT ja TKK. Viime mainittu oli siten ainoa oppilaitos, joka merkittävissä määrin julkaisi myös muita kuin opinnäytteitä.

* Metlan luvussa oli tosin mukana artikkeleita, jotka liittyvät väistöskirjaan.

Metadataformaatit

Suomessa ei vielä ole virallista metadataformaattia elektronisille julkaisuille, toisin kuin esimerkiksi Ruotsissa tai Norjassa. Kansalliskirjastossa on kuitenkin laadittu ehdotus kansalliseksi metadataformaatiksi elektronisille opinnäytteille (http://ethesis.helsinki.fi/metadata). Kyselyssä tätä suositusta ilmoitti noudattavansa 13 vastaajaa, minkä lisäksi kaksi oli epävarmoja. Kaksi vastaajaa ilmoitti myös tulevaisuudessa siirtyvänsä noudattamaan sitä. Toinen näistä asetti kuitenkin ehdoksi sen, että formaatista tulee virallinen.

Yhdeksästä arkistosta, jotka eivät kansallista suositusta noudattaneet, neljä ilmoitti käyttävänsä dublin core -formaattia ja yksi DSpacea (mikä siis käytännössä tarkoittaa myös dublin corea). Lopuilla oli oma formaatti, yleensä jo pitkään käytössä ollut (mikä myös selittää haluttomuutta luopua siitä).

Käytetyt ohjelmistot

Yhteensopivuuden kehittämisen kannalta myös käytetyt ohjelmistot voivat osoittautua merkityksellisiksi. Kysymyksen vaihtoehtoina olivat avoimen lähdekoodin ohjelmistot, itse tehdyt sekä kaupalliset, joista vastaaja saattoi valita useamman. Myös ohjelmiston nimeä ja tuottajaa kysyttiin.

Tällä hetkellä suosituin ratkaisu näyttää olevan avoimen lähdekoodin ohjelmistot. Vastaajista 13 ilmoitti ainakin osin käyttävänsä avoimen lähdekoodin ohjelmistoa. Näistä kahdeksan mainitsi nimeltä DSpacen, joka oli myös ainoa nimetty ohjelmisto. Peräti 11 käytti ainoastaan avoimen lähdekoodin ohjelmia. Lisäksi yhdeksän arkistoa käytti ainakin osittain itse tehtyä ohjelmistoa, kuusi näistä yksinomaan omatekoista.

Kaupallisia ohjelmia käytti neljä arkistoa, ja vain kaksi oli kokonaan kaupallisen ohjelmiston varassa. Ainoa nimeltä mainittu kaupallinen ohjelma oli TietoEnatorin valmistama TRIP.

Yhteensopivuus haravoinnin kanssa

Pohjoismaiden tasolla ehdottomasti tärkein hakuprotokolla on tällä hetkellä OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Niin Norjassa, Ruotsissa kuin Tanskassakin kaikki arkistot ovat yhteensopivia sen kanssa. Suomessa tilanne on tällä hetkellä vielä vähemmän koordinoitu, ja vain viisitoista arkistoa ilmoitti olevansa OAI-PMH -yhteensopivia. Seitsemästä ei-yhteensopivasta kolmella oli kuitenkin asiaa koskevia suunnitelmia.

Toinen merkittävä tapa päästä ulkopuolelta käsiksi julkaistuun aineistoon on SRW (Search/Retrieve Web service), sekä siihen liittyvä hakuprotokolla SRU (Search/Retrieve via URL); usein yhdessä SRU/SRW. Tämä ei kuitenkaan ole vielä yhtä laajalle levinnyt menetelmä, mutta sen tärkeys on selkeästi kasvamassa, sillä Ruotsissa ja Norjassa vastanneista 50 arkistosta 41:llä yhteensopivuuden kehittäminen oli vähintään suunnitteilla (Tanskan vastauksessa ei asiaan otettu kantaa). Suomessa seitsemän arkistoa ilmoitti olevansa yhteensopivia SRU/SRW:n kanssa, ja kuudella muulla oli asiaa koskevia suunnitelmia
 

Kirjoittajan yhteystiedot

Joel Peltonen, projektikoordinaattori
Kansalliskirjasto / Kirjastoverkkopalvelut,
PL 26 (Teollisuuskatu 23),
00014 HELSINGIN YLIOPISTO,
Sähköposti: joel.peltonen(at)helsinki.fi