Verkkoaineistojen arkistointia Reykjavikissa

Kaunonen K, Lager L, Veikkolainen P, Vahtola A (2016). Verkkoaineistojen arkistointia Reykjavikissa. Tietolinja, 2016(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2016053113094

IIPC General Assembly & Web Archiving Conference 11.4. – 15.4.2016 Reykjavik

International Internet Preservation Consortium (IIPC) on verkon arkistointiin ja pitkäaikaissäilytykseen keskittyvä yhteistyökonsortio, jonka jäsen myös Kansalliskirjasto on. Konsortion vuosittainen jäsenkokous ja kaikille avoin konferenssi (ks. konferenssin verkkosivut) järjestettiin huhtikuussa, jolloin verkkoarkistoinnin asiantuntijat ympäri maailmaa kerääntyivät Reykjavikiin.

IIPC-konsortion tärkeimpiä tavoitteita on edistää verkkoarkistointiin liittyvää yhteistyötä niin keräysmenetelmissä, keräysten ja arkistoinnin koordinoinnissa, ohjelmistojen kehittämisessä kuin mm. verkkoarkistojen käytön edistämisessä. Viime aikoina konsortiossa on suunniteltu esimerkiksi yhteisiä teemakeräyksiä, mietitty keräysten metatietoja, työkalujen kehittämistä ja maksumuurien ohittamista verkkokeräyksissä.

Verkkoarkistoinnin lähtökohdista

Verkossa yleisön saatavilla aineistoja on arkistoitu kaksikymmentä vuotta, Suomessakin jo kymmenen vuotta. Arkistoitavat sisällöt ja aineistojen hyödyntäminen tutkimuksessa nousivat arkistoinnin teknisten asioiden rinnalle niin tutkijoiden kuin arkistoinnin asiantuntijoiden puheenvuoroissa.

Keskiviikon 13.4. avauspuheenvuorossa Hjálmar Gíslason pohti mikä on säilyttämisen arvoista. Verkkoaineistojen määrä on jo nyt valtava ja tulevaisuudessa se on vielä valtavampi. Pelkästään YouTubessa julkaistaan joka minuutti 500 tuntia videota, ja määrä on kasvussa. Huhtikuun puolessa välissä, samoihin aikoihin konferenssiajankohdan kanssa, mediassa kohistiin Panama-papereista. Julkaisumäärät esimerkiksi Islannin pääministeriin liittyen olivat siinä määrin suuria ettei kukaan pysty käymään kaikkea julkaistua materiaalia läpi. Kaikkea verkossa julkaistavaa materiaalia ei ole mahdollista tallentaa, edes tiettyyn aiheeseen liittyen. Niinpä verkkoarkistoinnin keskeisiä kysymyksiä ovat: mikä on tärkeää ja mikä ei ole tärkeää. Nämä kysymykset ovat vaikeita, koska tallennettujen sisältöjen arvo selviää usein vasta myöhemmin.

Tyypillisesti verkkoarkistointia tekevät kansalliskirjastot tallentavat vähintään kerran vuodessa kansalliset domaininsa. Tämän lisäksi verkkosisältöjä tallennetaan kieliperusteisesti ja erilaisiin teemoihin, kuten vaaleihin, liittyen. Esityksissä ja käytäväkeskusteluissa mietittiin myös julkaisualan muutoksien vaikutuksia verkkoaineistojen arkistointiin. Esimerkiksi maksumuurien takana olevien aineistojen, joita meillä Suomessa on tyypillisesti kaupallisten toimijoiden uutissisällöt, ja sosiaalisen median tallentaminen nousivat esille. Näidenkin aineistojen tallennus on aloitettu, mutta tallennettavien sisältöjen valinta, tallennusmenetelmät ja aineistojen asiakaskäyttöön tarjoaminen vaativat vielä kehittämistä. Lisäksi sosiaalisen median tallentamiseen liittyy eettisiä kysymyksiä, esityksissä pohdittiin esimerkiksi nuorten somevirran tallennukseen liittyviä ongelmia.

Tallennettujen verkkoaineistojen käyttöä tutkimuksen lähdeaineistona vaikeuttaa tekijänoikeuslainsäädännön lisäksi tiedon puute. Tutkijayhteisöllä ei ole riittävää käsitystä siitä, mitä verkkoarkistoihin on tallennettu tai miten arkistoja voitaisiin hyödyntää tutkimuksessa. Toisaalta verkkoarkistoijat eivät tunne kovin hyvin tutkijoiden tarpeita ja käytössä olevia menetelmiä. Näitä ongelmia on ryhdytty ratkomaan mm. käyttäjätutkimuksilla ja yhteisillä työpajoilla.

Kansainvälinen yhteistyö verkkoarkistoinnissa

Internet Archiven laskelmien mukaan maailmassa on 246 kansalliskirjastoa, joista noin 30 arkistoi tällä hetkellä verkkoa – suuri osa lakiin perustuvalla mandaatilla. Kuten edellisessä Tietolinjassa todettiin, tekijänoikeussäädökset hankaloittavat kuitenkin monissa maissa verkkoarkistojen käyttöä. Verkkoarkistojen rajoitettu käyttö vaikuttaa usein negatiivisesti myös verkkoarkistoinnin resursointiin. Lainsäädännön tuomaa mandaattia pidettiin toisaalta osasyynä siihen, että verkkokeräyksissä ollaan jumiuduttua totuttuihin menetelmiin eikä menetelmiä ole kovin paljon kehitetty viimeisen kymmenen vuoden aikana.

Yhdysvalloissa verkkoarkistointia tehdään monissa yliopistoissa ja tutkimuslaitoksissa ja avataan myös käyttöön ”fair use” -lainsäädännön turvin. Suurin verkkoarkisto on avoimesti saatavilla oleva Internet Archive, joka on kerännyt jo yli 25 000 teratavua verkon sisältöä – myös suomalaisia verkkosivuja. Suomalaisen ja muiden kansallisten verkkoarkistojen keräykset ulottuvat kuitenkin usein Internet Archiven keräyksiä syvemmälle ja keräykset on kohdennettu tarkemmin.

Kuva 1. Internet Archiven perustaja Brewster Kahle

Kuva 1. Internet Archiven perustaja Brewster Kahle (kuva: Lassi Lager)

Kokouksessa ja konferenssissa nousi moneen kertaan esille kansalliskirjastojen rooli oman maantieteellisen ja kielialueensa verkkoaineistojen ja keräyskohteiden asiantuntijana sekä yhteistyön merkitys keräysten kohdentamisessa ja keräysmenetelmien kehittämisessä. Internet Archive tarjoutuisi (korvausta vastaan) keräämään kansalliset domainit kansalliskirjastojen puolesta, jolloin kansalliskirjastot voisivat poimia omat domain-kohtaiset sisältönsä laajasta yhteisestä verkkoarkistosta. Kansalliskirjastojen tehtäväksi jäisi kuratoida kansallisten ja teemakeräysten sisällöt sekä tunnistaa kansalliset verkkosisältönsä myös maakohtaisten domainien ulkopuolella.

Internet Archiven rooli on ollut pitkään keskeinen verkkoharavointiin ja arkistointiin liittyvien työkalujen kehittämisessä. IIPC-konsortio taas on ollut enemmän yhteistyöelin, jossa yhdessä mietitään ja kehitetään hyviä käytäntöjä ja strategioita. Jäsenorganisaatioiden osallistaminen yhteiseen innovointiin ja kehittämiseen talkooperiaatteella on kuitenkin haasteellista. Harvardin yliopiston kirjasto on julkaissut keväällä selvityksen eri organisaatioiden keräysstrategioista ja siitä, ollaanko verkkoarkistointiyhteisössä valmiita syvempään yhteistyöhön Internet Archiven ja IIPC:n kanssa.

iipc3

Kuva 2. Maisema Reykjavikista (kuva: Lassi Lager)

Katsaus keräystyökalujen kehitykseen

Michael Nelsonin esityksessä ”Combining Heritrix and Phantomjs for better crawling of pages with Javascript” esiteltiin tuloksia, joiden mukaan Phantomjs-ohjelmaa hyödyntämällä saatiin kasvatettua haravoitavien linkkien määrää. Javascriptin huolellisempi suorittaminen kuitenkin hidasti prosessia huomattavasti. Lopputulemana voisi pitää, että Phantomjs:n tapaista työkalua kannattaa hyödyntää vain tarkasti rajatuissa pienissä keräyksissä, joissa halutaan saada tarkasti jokin sisältö talletettua.

Jefferson Baileyn crawlward Ho! -esitys liippasi läheltä Nelsonin aihetta. Bailey esitteli kehitteillä olevaa brozzler-ohjelmaa (browser / crawler). Brozzler käyttää sivujen noutamiseen ja linkkien kartoittamiseen Chromium-/Chrome-selainta ja hyödyntää warc-pakettien tuottamisessa warcprox-työkalua.

Kansalliskirjastossa on toistaiseksi pysytty varsinaisten html-sivujen keräämisessä Heritrix-crawlerilla, mutta Phantomjs-ohjelmaa hyödynnetään sivustoille tapahtuvassa tunnistautumisessa. Keräystyökalujen tulevaisuutta on kuitenkin vaikea ennustaa, mutta IIPC-yhteisö jakoi näkemyksen, että työkalujen olisi hyvä olla modulaarisia ja tarjota rajapintoja. Tällöin keruuta tekevä taho voisi hyödyntää vain tarvitsemaansa osaa tietystä työkalusta. Verkkoarkistoinnissa yksi työkalu on harvoin hyvä monessa asiassa.

Tanskalaisten pesukone ja ”vanha” saksalainen verkkokirjallisuus

Tanskalaisten pesukone

Det Kongelike Bibliotek (KB) eli Tanskan kansalliskirjasto kertoi ‘pesukoneestaan’, joka etsii automaattisin menetelmin tanskankielisiä verkkosivuja Internetistä. Enitenhän niitä löytyy kansallisen dk-domainin sisältä, mutta haasteena on löytää aineistoa esimerkiksi net- ja com-loppuisista domaineista.

Muu kuin tanskankielinen, tanskalaisille tarkoitettu materiaali jätetään toistaiseksi kuraattoreille, jotka seulovat aineistoja käsin.

KB kokeili aluksi kahta aivan erilaista menetelmää ja odotti niistä kohtalaisen samanlaisia tuloksia, mutta tulokset olivat itse asiassa hyvin erilaisia. Ensimmäinen tapa oli tanskalaisten oma tilastollinen analyysi ja toinen tapa oli ostaa tarvittava palvelu Internet Archivelta.

KB:n menetelmä lähtee liikkeelle siten, että Heritrix-ohjelmistolla kerätään verkkosivuja dk-domainista sekä otetaan talteen ne ulkopuoliset osoitteet, joihin on linkki dk-domainin sisältä. Näitä välittömästi tanskalaisen domainin ulkopuolella olevia sivuja ei vielä talleteta kansalliseen verkkoarkistoon, mutta ne otetaan kuitenkin tarkasteluun, jos kyse on tekstiä sisältävästä sivusta eikä kuvasta tai videosta.

Sivujen tekstimassalle tehdään tilastollista kielianalyysiä. Sen sisäksi on käytössä yksinkertaisia toimenpiteitä, joilla etsitään verkkosivuilta muodoltaan tanskalaisia sähköpostiosoitteita ja puhelinnumeroita sekä tanskalaisten yritysten rekisterinumeroita.

Kielianalyysin tulos sekä osoitetietojen data syötetään jonkinlaiseen kaavaan ja verkkosivu lisätään arkistoon, jos se on 90%:n varmuudella tanskalainen sivu.

Toisena keinona KB pyysi Internet Archivea (IA) etsimään valtavasta arkistostaan ohjelmallisesti tanskalaisia verkkosivuja. IA:n arkisto sijaitsee Yhdysvalloissa mutta periaatteessa IA kerää kaikenkielisiä verkkosivuja ympäri maailmaa. Tulokset olivat erilaisia kuin ne, joita omasta pesukoneesta saatiin. Eroa selitettiin sillä, että IA menee aivan muille Internetin alueille keräämään verkkosivuja kuin tanskalaiset.

Saksalaisen verkkoaineiston valinta

Suomessa ja Tanskassa kerätään isoja verkkoarkistoja, joihin sisältyy edustava ja monipuolinen otos Internetin maailmasta. Saksalaisella kielialueella on yleensä valittu pienempi aineisto, jonka käsittelyyn sijoitetaan paljon ihmistyövoimaa. Esimerkkinä Saksan kirjallisuusarkisto (Deutsches Literaturarchiv) esitteli arkistointiprosessia vanhalle 1990-luvun verkkokirjallisuudelle.

Kirjastolla on hallussa tarkasti valikoituja aineistoja, jotka olivat aikanaan teknisesti edistyksellisiä ja kokeellisia. Kirjat olivat siis Internetissä luettavia e-kirjojen edeltäjiä, joita käytettiin verkkoselaimilla. Lukija on voinut valita nuolinäppäimillä siirtymiä juonessa ja vaihtoehtoisia juonenkäänteitä. Sivuilta on voinut aukaista ikkunoita ja katsella lisämateriaalia.

Mutta tämän kaiken seikkailun toistaminen nykyajan ympäristössä vaatii paljon. Kirjaston on arkistoitava vanha selain 90-luvulta ja varmistettava sen toimivuus nykyisillä laitteilla. Täydellistä lukukokemusta varten kaikki selainohjelman apuohjelmat pitää asentaa oikein. Teos ei näy alkuperäisessä muodossa, jos esimerkiksi selain käyttää väärää resoluutiota.

Kirjallisuusarkisto yritti jäljittää kirjailijoita, joista osa löytyi muilta mantereilta Euroopan ulkopuolelta. Kirjailijoiden haastattelut arkistoitiin ja niissä kysyttiin kaikkea mahdollista verkkokirjojen toiminnallisuudesta. On selvää, että näin vaativaan urakkaan kannattaa ryhtyä vain, jos on tarkasti analysoitu aineisto, säilytettäviä teoksia on vähän ja kirjastolla on tarpeeksi työvoimaa käytössä.

Arkistoinnin tekniikan kannalta on hyvä tieto, että nykyään suosituimmat tekstintuottajat ajattelevat toisin kuin 90-luvun kirjailijat. Vastaavia kokonaistaideteoksia ei juuri tuoteta, vaan blogistit ovat tulleet tilalle. Saksalaiset blogistit kertoivat kirjastolle, ettei heitä haittaa sivujen ulkomuoto verkkoarkistossa, vaan blogisteille on tärkeintä tekstisisällön säilyminen. Tähän päästään käyttämällä Heritrixiä suuren datamassan verkkoharavointiin, kuten Suomessa tehdäänkin.

KDK:n PAS-palvelun esittely

Kansalliskirjaston Lassi Lager ja Petteri Veikkolainen pitivät yhdessä Kaisa Kaunosen (KK) ja Juha Lehtosen (CSC) kanssa valmistelemansa esityksen CSC:n tuottamasta KDK:n PAS-palvelusta ja Suomalaisen verkkoarkiston siirtämisestä palveluun. KDK:n PAS-palvelu on digitoidun ja digitaalisen kulttuuriperinnön keskitetty pitkäaikaissäilytysratkaisu, jonka pilotoinnissa verkkoarkistoa on käytetty ja joka korvaa Kansalliskirjaston itse ylläpitämän digitaalisen aineiston pitkäaikaissäilytysratkaisun. Tavoitteena on, että verkkoarkisto on kokonaisuudessaan KDK:n PAS-palvelussa kuluvan vuoden loppuun meneessä.

NatLib-P4120092

Kuva 3. Petteri Veikkolainen esittelee Kansalliskirjaston työnkulkuja. (kuva: Kaisa Kaunonen)

Itse esitys poiki maltillisesti keskustelua, joka tosin keskittyi pääasiassa perinteisiin verkkoarkistoinnin aiheisiin eli miten keräämme jonkin aineiston ja kuinka usein ja kuinka paljon. Voimme kuitenkin toiveikkaasti olettaa, että esittelemämme pitkäaikaissäilytysratkaisu tuottaa iloa muillekin verkkoarkistointia tekeville kun pitkäaikaissäilytyksen kehittäminen on ajankohtaista. Esityksen kalvot ovat katsottavissa Doriassa.

Kirjoittajien yhteystiedot

Kaisa Kaunonen, tietojärjestelmäasiantuntija
Lassi Lager, tietojärjestelmäpäällikkö
Petteri Veikkolainen, tietojärjestelmäasiantuntija
Kansalliskirjasto / kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO

Aija Vahtola, johtava tietoasiantuntija
Kansalliskirjasto / Tutkimuskirjasto
PL 15, 00014 HELSINGIN YLIOPISTO

Sähköpostiosoitteet muotoa: etunimi.sukunimi [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.