Valtavirtaa vai marginaalia – verkkoaineistojen arkistoinnin periaatteita

Esa-Pekka Keskitalo
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe200812182269

 

Laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä on nyt vuoden ajan säädellyt Kansalliskirjastoa ja kansakuntaa. Vuoden alussa voimaan tullessaan laki laajensi merkittävävällä tavalla julkaistun kulttuuriaineiston lakisääteistä tallettamista verrattuna vanhan vapaakappalelain aikaan.

Perinteisesti – jo vuodesta 1707 – kirjasto on kerännyt vapaakappaleina kaikki Suomessa julkaistavat painotuotteet. Uusi kulttuuriaineistolaki koskee painettua aineistoa kuten ennenkin, mutta lisäksi se velvoittaa Kansalliskirjaston keräämään verkkojulkaisuja eli yleisön saataville Suomessa tai suomalaista yleisöä varten asetettuja webiaineistoja. Toisin sanoen tehtävänä on säilyttää jonkinlainen otos ”suomalaisesta webistä” – sillä termi julkaisu ei tarkoita vain joitakin kirjanmuotoisia aineistoja vaan periaatteessa lähes kaikkea, mitä verkoista on saatavissa.

Toimintaa kutsutaan verkkoharavoinniksi (web harvesting). Samalla asialla on The Internet Archive (www.archive.org), jonka kanssa teemmekin yhteistyötä mm. käytettyjen sovellusten suhteen. Haravoinnin tekniikasta ja käytännöistä on tässä Tietolinjan numerossa Tomas Ukkosen artikkeli.

Koneko valitsee vai ihminen?

Uutta tässä velvollisuudessa on se, että joudumme päättämään, millaisten aineistojen keräämiseen kohdistamme resursseja. Painetun aineiston suhteen rajauksia on myös tehty, mutta niitä on voitu tehdä pitkälle ulkoisin perustein. Esimerkiksi käyntikortit tai esipainetut kirjepaperit eivät kuulu kerättävään aineistoon. Verkossa tällaisen sisällykseltään vähäisen aineiston määrittely on vaikeaa, ja yhtä vaikeaa on sen tunnistaminen. Lisäksi aineistojen linkittyminen toisiinsa tarkoittaa, että vähäisistä palasista saattaa muodostua käyttäjän kannalta merkittävä kokonaisuus. WWW-sivun ulkoasuun kuuluva pieni graafinen elementti on toki sisällöltään vähäinen, mutta ilman sitä sivua ei voi säilyttää uskollisesti. Lisäksi toimialan laajuuden eli aineiston ”suomalaisuuden” määrittely vaatii rajan vetämistä johonkin, eikä luontevaa ja kaikenkattavaa suomalaisuuden määritelmää ole tarjolla.

Rajauksia on oikeastaan kahdenlaisia. Ensinnäkin voidaan tehdä tietoisia päätöksiä siitä, että keruuta kohdistetaan tietyin sisällöllisin perustein. Toisaalta tekniset ratkaisut, joita saatamme pitää sisältöneutraaleina, saattavat itse asiassa ohjata resurssien suuntautumista tietynlaisiin aineistoihin.

Tekniikkaan piilevistä ongelmista voisi ottaa esimerkiksi tavat tunnistaa suomalaiselle yleisölle tarkoitettuja verkkoaineistoja vaikkapa jonkin suuren blogipalvelun uumenista. Yksi mahdollinen keino on kielentunnistus. Mutta vaikka tiedämmekin, että tästä aiheutuu kielivääristymä, sille on vaikea tehdä mitään yhtä suoraviivaisin keinoin. Miten saisi tietokoneen erottamaan suomenruotsalaisen blogin riikinruotsalaisesta? Mitkä venäjänkieliset blogit itse asiassa ovat suomalaisia, sitä ei kielimuurin takia moni Kansalliskirjaston työntekijäkään pysty ratkaisemaan.

Toinen ilmeinen vääristävä tekijä on se, että keruu onnistuu sitä paremmin, mitä staattisempaa, monoliittisempaa ja teknisesti perinteisempää aineisto on. Kysymys on ”vain” tekniikasta, mutta ei olisi ihme, jos kävisi ilmi, että erilaiset sisällön aihealueet ja näkökannat eivät jakaannu tasaisesti helppojen ja vaikeiden sivujen kesken. Viranomaisen PDF-formaattiseen raporttiin muotoilema mielipide jostakin asiasta säilyy vähemmällä vaivalla kuin erilaisilla keskustelufoorumeilla samasta asiasta esitetyt kannanotot.

Kokemuksellisuus kiinnostaa tutkijoita

Mutta vaikka tekniikka olisi neutraalia, joudumme silti kohdistamaan resursseja joillakin kriteereillä. Ajateltu asiakas on ennen kaikkea tutkija, mutta tutkija kenties sadan vuoden päässä tulevaisuudessa, joten emme voi kysyä neuvoa asiakkailta. Lähinnä paras keino lienee kysyä asiantuntijoilta. Kansalliskirjasto ja Kansallinen audiovisuaalinen arkisto järjestivät toukokuussa 2008 ”Digiaika talteen” -seminaarin, johon oli kutsuttu tutkijoita, joiden alalla näkökulmasta tai toisesta hyödynnetään verkkoaineistoja tai radio- ja tv-aineistoja. Lähestymistapojahan on lukuisia: journalistiikan, kielitieteen, historian, taiteen tutkimuksen ja niin edelleen.

Verkkoaineistoja koskeneissa keskusteluissa puhutti verkkomaailman kokemuksellisuuden säilyttäminen. Haravoinnissa saadaan talteen tiedostoja ja siinä tavallaan korostuu yksittäisten sisällön palasten merkitys. Sen sijaan verkon kokemuksellisuutta on vaikea saada tallennettua. Kuitenkin netissä yhä enemmän ympäristö ja sisältö kietoutuvat toisiinsa. Voidaan kuitenkin kysyä, missä määrin perinteinen kirja on yhtään vähemmän kokemuksellinen. Kirjasto voi säilyttää Agricolan aapisen muttei sen lukemisen alkuperäistä kokemusta.

Näyttää siltä, että dynaamisen ja interaktiivisen aineiston keräämiseen täytyy kehittää uudenlaisia menetelmiä ja periaatteita. Niiden osalta kyseeseen tulee lähinnä näytteenottomainen tallentaminen. Ei voida oikein ajatella, että jotakin virtuaalimaailmaa tai nettipeliä lähdetään nauhoittamaan 24/7-periaatteella. Hieman helpompi tapaus ovat erilaiset keskustelufoorumit, joiden säilyttämistä myös pidettiin tärkeänä.

Muutenkin tärkeänä pidettiin sitä, että priorisoidaan netille ominaisia aineistoja, joiden tietosisältö ei tallennu esim. painotuotteiden kautta. Tavallinen ensireaktio lienee, netistä pitäisi siis tunnistaa erityisesti reuna- ja ääri-ilmiöitä, uusia virtauksia jne. Mutta jonkinlainen tasapaino pitäisi löytää “valtavirran” ja “marginaalin” korostamisen välillä, jotta kerättävä aineisto olisi, kuten laki vaatii, sekä “monipuolinen” että “edustava”.

Salakuunteleva tutkija?

Teknisten ongelmien lisäksi on pohdittavana tutkimuseettisiä kysymyksiä. On ilmeistä, että monet verkossa liikkujat eivät aina ymmärrä sitä, kuinka paljon paljastavat itsestään, tai sitä, kuinka ohimenevä heitto ei suinkaan ole ohimenevä vaan on tallennettavissa ja esiin kaivettavissa pitkänkin ajan päästä. Millä reunaehdoilla esimerkiksi blogikirjoituksen tekstiä voidaan tieteellisesti analysoida eettisellä tavalla? Toki tekstiä voi anonymisoida, mutta silloinkin pitäisi muistaa, että yksikin sananmukainen lainaus saattaa tehdä alkuperäisen lähteen löytämisen hakukoneen avulla lastenleikiksi.

Aineiston keruun kannalta tilanne on selvä: tietoverkoissa avoimesti yleisön saatavilla oleva aineisto on kulttuuriperintöä ja siten mahdollinen säilyttämisen kohde. Sen sijaan näiden aineistojen käyttöön liittyvät tietosuojan ja muut vaikeudet ovat ongelma-alue, johon en tässä voi lähemmin syventyä; ne vaativat vielä pohdintaa ja keskustelua.

Mahdollisuuksia tutkijoiden ja Kansalliskirjaston yhteistyöhön

Sekä tutkijat että kirjaston väki pitivät hyvänä ajatuksena pyrkiä nivomaan kulttuuriaineiston säilyttäminen kulttuuriaineistoon kohdistuviin tutkimusprojekteihin. Molemmat osapuolet hyötyvät, kun tutkimuksen lähdemateriaali on luotettavasti tallessa ja tutkimus tuottaa säilytettävää kulttuuriaineistoa kuvaavaa ja selittävää aineistoa. Tätä silmällä pitäen selvitämme tapoja, joilla tutkijat voisivat osallistua erilaisten teemakeräysten aiheiden valintaan ja sisällön suunnitteluun.

 

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, pääsuunnittelija
Kansalliskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Email: esa-pekka.keskitalo(at)helsinki.fi