Verkkoarkiston käyttö

Tomas Ukkonen
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe200905201527

 

Kansalliskirjasto avasi 2009 maaliskuussa käyttöön uuden verkkoarkistopalvelun. Verkkoarkistopalvelussa Kansalliskirjasto tarjoaa selailtavaksi www-arkistonsa, johon on tallennettu suomalaisia verkkosivuja ja muuta verkon materiaalia (musiikki, videot…) vuodesta 2006 lähtien. Palvelussa käyttäjä voi joko www-osoitteen tai hakusanojen avulla etsiä ja katsella vanhoja versioita aiemmin Internetissä olleista sivuista. WWW-arkiston tarkoituksena on tallentaa kansallisen kulttuuriperinnön säilyttämisen kannalta merkittävää aineistoa jälkipolvien käyttöön. Arkistoon pyritään tallentamaan sivuja mahdollisimman laajasti eri aiheista kuten tärkeistä tapahtumista, julkisesta nettikeskustelusta, blogeista ja kotisivuista. Kerätyn aineiston kattavuuden varmistamiseksi verkkoarkistoon tallennetaan automaattisesti sen tarkemmin lajittelematta tallenne lähes jokaisesta Suomessa sijaitsevasta sivusta kerran vuodessa. Tämän lisäksi www-arkiston sisältöä kasvatetaan aihekohtaisilla teemakeräyksillä, jotka voivat kerätä suomenkieliselle yleisölle tarkoitettua aineistoa myös Suomen rajojen ulkopuolelta.

Nyt julkaistu verkkoarkisto on aluksi käytettävissä ainoastaan Kansalliskirjaston asiakastiloissa Helsingin Unioninkadulla, mutta myöhemmin arkistoa on mahdollisuus käyttää myös Eduskunnan kirjastossa, Kansallisessa audiovisuaalisessa arkistossa ja muissa niin sanotuissa vapaakappalekirjastoissa. Näitä vapaakappalekirjastoja ovat Turun yliopiston kirjasto, Åbo akademin kirjasto, Jyväskylän yliopiston kirjasto, Joensuun yliopiston kirjasto sekä Oulun yliopiston kirjasto. Näissä paikoissa käyttö on mahdollista ainoastaan tätä tarkoitusta varten erikseen varatuilta vapaakappaletyöasemilta. Vapaakappaletyöasemat ovat normaaleja tietokoneita, joihin on asennettu laajahkosti erilaisia ohjelmia aineistojen katselemiseen, mutta joista on poistettu mahdollisuus ottaa digitaalisia kopioita arkiston sisällöstä. Aineistoa voi siten pääasiassa vain selata, mutta esimerkiksi tulosteiden ottaminen verkkosivuista on mahdollista. Kirjastoissa sijaitsevan palvelun lisäksi verkkoarkistosta aukeaa myöhemmin verkkoon myös julkinen hakemistopalvelu, jossa arkistosta kiinnostunut käyttäjä voi etukäteen tarkistaa onko jokin verkkosivu arkistossa sekä nähdä sivun tallennuspäivämäärät. Tämä julkinen hakemistopalvelu avautuu käyttöön vuoden 2009 alkupuoliskolla osoitteessa http://verkkoarkisto.kansalliskirjasto.fi/.

Verkkoarkiston käyttöliittymä

Verkkoarkiston käyttö, kuten myös itse aineiston katsominen, tapahtuu normaalilla verkkoselaimella. Verkkoarkiston käyttöliittymällä (Kuva 1) käyttäjä voi tehdä hakuja joko kirjoittamalla tarkan URLn eli verkko-osoitteen (esim. www.eduskunta.fi) ylempään kenttää ja painamalla ”Hae”- nappia tai etsiä kiinnostavia sivuja käyttämällä hakusanoja. Sanapohjaisia hakuja tehtäessä käyttäjä saa näkyviinsä listan potentiaalisimmista sivuista ja muutaman lauseen ko. sivuilta (Kuva 1). Tämän jälkeen käyttäjä voi joko valita halutuloksen katselua varten tai tehdä parannetun haun muuttamalla avainsanoja.

Kuva 1: Hakutulos termillä "lex nokia". Ohessa tuloksia hakusanaindeksistä vuodelta 2006. Lex Nokia herätti keskustelua jo tuolloin vaikka uutisaiheeksi se nousi vasta keväällä 2009.

Kuva 1: Hakutulos termillä ”lex nokia”. Ohessa tuloksia hakusanaindeksistä vuodelta 2006. Lex Nokia herätti keskustelua jo tuolloin vaikka uutisaiheeksi se nousi vasta keväällä 2009.

Valittuaan tietyn verkkosivun/osoitteen sanahaun tai verkko-osoitehaun kautta voi käyttäjä seuraavaksi valita, minkä päivämäärän mukaista sivua hän haluaa katsoa (Kuva 2). Tämän jälkeen sivua on mahdollista selata nettiselaimessa kuten mitä tahansa muutakin sivua, tosin sillä poikkeuksella että jotkin, erityisesti sivustolta ulos vievät linkit eivät välttämättä toimi, mikäli niitä ei ole kerätty arkistoon.

verkkoarkisto2_500

Kuva 2: Lista verkkoarkistossa olevista eduskunnan sivuista.

Etsittäessä sivuja hakusanoilla on tulosten tarkkuuden kannalta hyödyllistä tietää muutama asia verkkoarkiston hakukoneen toiminnasta. Verkkoarkiston haku toimii laskemalla sanojen tai pidempien lauseiden määriä tiedostoista. Tämän seurauksena haut, joissa käytetään vain yhtä hakusanaa, eivät yleensä anna hyviä tuloksia. Yleisesti käytettyjen sanojen osalta arkistossa on niin paljon ko. sanaa sisältäviä dokumentteja, että järjestelmän on vaikea löytää niille hyvää järjestystä. Tämän takia esimerkiksi haku ’eduskunta’ antaa kyllä tulokseksi sivuja, jotka sisältävät hakutermin, mutta eduskunnan verkkosivun löytämiseksi täytyy hakua täsmentää lisätermeillä (esimerkiksi ’eduskunta etusivu’). Toinen tapa parantaa tuloksia on hakea pidempää fraasia kerralla käyttämällä ”-merkkejä esim. ”olipa kerran prinssi”, jolloin sanojen järjestykselle ja sijainnille annetaan painoarvoa. Tuloksia voi myös parantaa tekemällä verkko-osoite kohtaisia rajauksia. Haulla ’+url:kirjasto lainaus’ etsitään sivuja, jonka verkko-osoitteessa on sana kirjasto, ja josta löytyy sana lainaus. Näin saadaan huomattavasti erilaisempia sivuja kuin pelkällä ’kirjasto lainaus’ -haulla. Verkko-osoitteita voi myös rajata pois käyttämällä miinus merkkiä (esim. ”-url:kirjasto lainaus”). Yllämainittujen toimintojen lisäksi haku tukee myös muutamia muita hakutapoja, joista löytyy tarkempaa tietoa verkkoarkiston ”Ohjeet” ja ”Lisätietoja” kohtien alta. Näitä ohjeita myös päivitetään aika ajoin kun haun toimintaa parannetaan tai laajennetaan.

Verkkoarkiston sisältö

Verkkoarkistoon on kerätty vuosien 2006 – 2008 aikana yhteensä yli 150 miljoonaa tiedostoa ja keräystapojen kehittyessä arkiston sisältö tulee jatkuvasti laajenemaan. Vuonna 2009 Kansalliskirjasto tekee ainakin yhden, kaikkien Suomessa sijaitsevien ja fi/ax -päätteisten verkko-osoitteiden suuren keräyksen ja täydentää tätä keräystä teema-aiheisilla keräyksillä, jotka kohdistuvat muun muassa musiikkiin, taiteeseen, blogeihin, politiikkaan sekä merkittäviin tapahtumiin Suomessa tai ulkomailla. Kansalliskirjasto myös ottaa mielellään vastaan ehdotuksia ja linkkejä kerättäväksi materiaaliksi. Keräysehdotuksia voi lähettää käyttämällä verkkoarkistossa olevaa palautelomaketta, joka on mahdollista täyttää myös verkkoarkiston hakemistopalvelussa (avautuu alkuvuodesta 2009). Ennen keräysehdotustasi huomaa kuitenkin että Kansalliskirjasto voi kerätä verkosta vain aineistoa, joka sijaitsee fyysisesti Suomessa, jonka verkko-osoite loppuu fi- tai ax- päätteisiin tai joka on tarkoitettu suomalaiselle yleisölle.

 

Kirjoittajan yhteystiedot

Tomas Ukkonen, tietojärjestelmäasiantuntija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: tomas.ukkonen (at) helsinki.fi