Verkkoharavointi

Tomas Ukkonen
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe200812182271

 

Verkkoharavoinnilla (engl. harvesting) tarkoitetaan Internetissä olevien www- eli verkkosivujen ja muun netissä olevan materiaalin keräämistä ja arkistointia. Ensimmäiseksi verkkoharavointiin rinnastuvaa toimintaa alkoivat tehdä Internetin hakukoneet, jotka käyvät läpi netin aineistoa ja rakentavat niistä hakuindeksejä (mm. Altavista, Yahoo, Google). Hakukoneet eivät kuitenkaan yleensä tallenna varsinaisia dokumentteja vaan ainoastaan luovat metatietoa siitä.

Internetin merkittävyyden kasvaessa itse netissä oleva aineisto on kuitenkin alkanut muodostua kulttuurimme kannalta tärkeäksi. Tämän takia eri maiden kansalliskirjastot, Suomi mukaan lukien, ovat aloittaneet muutamien viime vuosien aikana Internetin verkkoaineiston keräämisen sähköisiin verkkoarkistoihinsa. Tätä keräystyötä varten kansalliskirjastot ovat myös muodostaneet kansainvälisen yhteistyöelimen IIPC:n (International Internet Preservation Consortium), jonka kautta eri maiden organisaatiot voivat keskustella verkkoharavointiin liittyvistä aiheista, jakaa kokemuksia sekä koordinoida standardointi- ja kehitystyötä verkkoharavointiin liittyvien tietoteknisten järjestelmien osalta.

Käytännössä suurin osa verkkoharavointiin liittyvästä aineistojen keräämisestä tehdään Kansalliskirjastossa käyttäen Heritrix-hakurobottia. Heritrix on verkkoarkistoinnin pioneerin, kalifornialaisen Internet Archive -organisaation kehittämä työkalu, jonka kehitystyöhön ovat osallistuneet myös eri maiden kansalliskirjastot. Tehtäessä verkkoharavointia annetaan jokaiseen keräykseen liittyen Heritrix-hakurobotille lista www-osoitteita, sekä lista käsin määriteltyjä sääntöjä, joiden mukaan Heritrix etenee tai jättää etenemättä www-osoitteesta tai tiedostosta toiseen. Näillä säännöille voidaan mm. ottaa keräykseen aina mukaan jokainen www-sivulla näkyvä kuva tai muu objekti sekä esimerkiksi kaikki samassa www-osoitteessa olevat muut sivut tai tiedostot.

Verkkoharavoinnin haasteet

Vaikka Heritrixin avulla voidaankin määritellä monimutkaisiakin keräystä ohjaavia sääntöjä, ovat käytettävissä olevat säännöt silti melko yksinkertaisia ja mekaanisia, minkä takia Kansalliskirjaston toimialaan kuuluvan suomalaisen aineiston kerääminen ulkomaalaisen aineiston joukosta on ollut aikaa vievää ja hankalaa. Toinen selvä ongelma ovat Heritrix-ohjelmistossa olevat puutteet, jotka tekevät mm. samanlaisten jatkuvien tai toistuvien automatisoitujen keräyksien tekemisen hankalaksi. Osittain näistä syistä johtuen verkkoaineistoa on tähän asti kerätty ainoastaan kahdella eri tavalla.

Pääasiallisena materiaalin keräystapana on käytetty niin kutsuttua ”fi”-keräystä, jossa Heritrix on konfiguroitu keräämään sivuja ainoastaan fi-päätteisistä osoitteista (esim. www.suomi.fi). Näin tehtävällä keräyksellä pystytään löytämään hyvin selvästi Suomeen liittyvä aineisto, mutta toisaalta rajataan keräyksen ulkopuolelle hyvin paljon mielenkiintoista aineistoa, mm. suurin osa ulkomailla olevasta aineistosta sekä com-, net- tai org- päätteiset suomenkieliset sivut (www.etuovi.com, www.mikseri.net, fi.wikipedia.org). Keräyksen laajuuden takia ”fi”-keräys on tähän mennessä tehty vain kerran vuodessa.

Pääkeräyksessä olevien puutteiden takia ”fi”-keräystä on täydennetty teema-keräyksillä, joissa keräyksen etenemistä alkuperäisestä lähtöosoitteesta eteenpäin on rajoitettu ja Heritrixille on annettu tarkasti valittuja, kyseiseen aihealueeseen liittyviä sivuja. Käyttämällä tätä keräystapaa voidaan verkkoarkistoon saada mukaan esimerkiksi ulkosuomalaisten jollakin muulla kielellä kuin suomella kirjoittamia sivuja, mutta keräyksissä tarvittavien linkkilistojen laatiminen vaatii paljon aikaa ja tarkkuutta. Näitä tarkemmin kohdennettuja keräyksiä voidaan myös tehdä nopeasti, jolloin teemakeräyksillä on reagoitu erilaisiin merkittäviin tapahtumiin (mm. eduskunta- ja kunnallisvaalit, Euroviisut, Jokelan koulusurma), joihin liittyvä uutisointi tai muu tiedotus muuttuu hyvin nopealla syklillä.

Tulevaisuus

Vaikka verkkoharavoinnilla sen nykyisessä muodossaan pystytään keräämään hyvin laajasti sivuja, ja teemakeräyksillä pystytään reagoimaan merkittäviin tapahtumiin, on kerätyssä aineistossa yhä aukkoja, joita on tarkoitus pienentää haravointitoimintaa kehittämällä. Tavoitteena on saada jatkossa koko Suomea koskevaan ”fi”-keräykseen mukaan kaikki Suomessa fyysisesti sijaitsevat sivustot käyttäen verkko-osoitteisiin pohjautuvaan sijainnin määrittelyyn perustuvaa tekniikkaa, sekä laajentamaan keräystä suomenkielisiin com-, net-, org- ym. domain-päätteisiin loppuviin verkkosivustoihin. Myös erilaisten lähdetietokantojen hyödyntämistä www-sivulistojen generoimisessa selvitetään.

Verkkoharavointia on Kansalliskirjastossa tehty nykyisessä muodossaan vuodesta 2006 lähtien ja tänä aikana aineistoa saatu kerättyä n. 10 teratavun verran. Kuluvana vuonna 2008 Kansalliskirjasto on saanut lisäresursseja toimintaansa ja on aloittanut yhteistyössä Kansallisen Audiovisuaalisen Arkiston (KAVA) kanssa työn Kansalliskirjastossa kerätyn verkkoaineiston ja KAVA:ssa kerätyn TV- ja radio- aineiston saattamisesta yleisön käyttöön. Näillä näkymin vapaakappaletyöasemat, joilla aineistoa voi tutkia, tulevat käyttöön Kansalliskirjastossa ja muissa vapaakappalekirjastoissa vaiheittain vuoden 2009 aikana maalis-huhtikuusta alkaen. Tarkempaa tietoa vapaakappaletyöasemista, sekä itse verkkoharavoinnista, tulee saataville mm. Kansalliskirjaston verkkosivuille, ja aiheeseen palataan myös tulevissa Tietolinjan numeroissa.

 

Kirjoittajan yhteystiedot

Tomas Ukkonen, tietojärjestelmäasiantuntija
Kansalliskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Email: tomas.ukkonen(at)helsinki.fi