Verkkoarkiston koronakevät

Haukkala S (2020). Verkkoarkiston koronakevät. Tietolinja, 2020(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2020050324715

Mona-Lisa hengityssuojaimeen verhoituneena

Kuva: Sumanley Xulx (Pixabay), 2020.

Maaliskuun alussa Suomeenkin lopulta levinnyt koronapandemia sekä siirsi suurimman osan Kansalliskirjaston työntekijöistä etätöihin että loi samalla myös uusia töitä verkkoarkistolle. Uudesta kulkutaudista tuli nopeasti verkkoarkiston teemakeräyksen aihe, kun viruksen läsnäolo uutisissa ja puheissa kasvoi myös Suomea koskevaksi merkittäväksi uhaksi.

Lakisääteinen tallennusvelvollisuus

Kansalliskirjaston lakisääteinen tallennusvelvollisuus verkossa rajoittuu kulttuuriaineistolain mukaan suomalaisiin ja suomalaiselle yleisölle tarkoitettuihin sisältöihin, joiden keräämistä ohjaa lakiin sisältyvä verkkoaineistojen keräyssuunnitelma. Suunnitelma mahdollistaa teemakeräysten järjestämisen, joissa kerättävät sisällöt valikoidaan tarkemmin joko oman henkilökunnan toimesta tai muiden asiantuntijoiden avustuksella.

Vuosittaisessa, niin kutsutussa Suomi-keräyksessä tallennetaan melko kattavasti (pakattuna noin 13TB vuonna 2019) kotimaisia .fi- ja .ax-päätteisiä sivustoja sekä kielentunnistuksella kotimaisiksi tunnistettuja sivustoja niiden liepeiltä. Tästä huolimatta monet kulttuurisesti tärkeät puheenaiheet sekä kokonaiset kotimaiset sivustot jäävät tallentumatta, koska ne sijaitsevat ulkomaisilla verkkosivustoilla. Suomi-keräys ei esimerkiksi tallenna oletuksena lainkaan tavanomaisesti ulkomaisilla sivustoilla sijaitsevia sosiaalisen median palveluja, vaikka niissä olisikin kotimaista aineistoa.

Teemakeräykset

Kansalliskirjaston teemakeräykset tarttuvat ajankohtaisiin aiheisiin, kuten erilaisiin julkisiin tai yhteiskunnallisiin tapahtumiin, ilmiöihin sekä muihin kotimaisiin teemoihin, joita ei todennäköisesti saisi perinteisellä vuosikeräyksellä talteen kovin hyvin. Lisäksi valmiit teemakeräykset ovat valmiina kuratoituina kokonaisuuksina helpommin tutkittavissa kuin naaraamalla yksittäisiä sisältöjä sana- tai sivuhaulla verkkoarkiston koko massasta.

Teemakeräyksissä keskitytään paitsi etsimään aineistokokonaisuuksia, joita ei välttämättä löydy pelkästään kotimaisilta verkkosivuilta, myös rakentamaan mukavammin tutkittavia kokonaisuuksia teemaan liittyvien kotimaisten verkkosivujen sisällöstä. Keräyksissä on yleensä hyvin edustettuna kotimaisten uutispalveluiden sekä virallisempien tahojen verkkosivuja, joista teemaan sopiva sisältö on valittu vuosikeräystä tiheämmällä kammalla.

Korona-verkkoaineiston keräys

Koronakeräys lähti liikkeelle jo helmikuun puolivälissä, kun International Internet Preservation Consortium (IIPC) pyysi lähettämään heille tallennusehdotuksia korona-aiheisista verkkosisällöistä. Tällöin ei vielä kukaan osannut arvioida, miten räjähdysmäiseksi ilmiöksi korona muutamassa päivässä maaliskuun alun jälkeen muuttuisi. Verkkoarkiston varsinainen teemakeräyksen kokoaminen alkoi maaliskuun puolivälissä ja pian tämän jälkeen keräystä päätettiin laajentaa yleisön ehdotuksilla täydennettäväksi. Kaikille avoimella keräyslomakkeella pyydetään etenkin ”kevyempää” aineistoa, koska esimerkiksi koronaan liittyvät uusimmat meemit, kuvat ja muut arki-ilmiöt eivät välttämättä tartu yleisimpiin hakusanoihin tai tunnisteisiin.

Tällä hetkellä suurin osa koronakeräyksen sisällöstä on suurimpien uutismedioiden linkkejä korona-aiheisiin uutisiin sekä aiheisiin, jotka ovat syntyneet koronan myötä; esimerkiksi etätöihin, Uudenmaan eristämiseen, kasvomaskeihin ja erilaisiin tempauksiin, kuten nallejahtiin tai yhteislauluihin parvekkeilla. Korona-aihe pelkkänä viruksena ja tautina on aika helppo kerätä sivustoilta ja sosiaalisesta mediasta, koska sillä on niin selviä hakusanoja. Moni hakusana tai aihetunniste (hashtag, #) on sattumalta myös kansainvälinen, joten kerättävää etsiessä kerättävälle aiheelle pitää tehdä mahdollisesti kieli- tai sijaintirajauksia keräystyökalujen tarjoamien mahdollisuuksien mukaan. Samoin keräyksessä otetaan huomioon myös muun kuin suomenkielinen aineisto.

Koronakeräyksen vastauslomakkeella keräysehdotuksia on tullut tähän mennessä toivotusti juuri koronasta ja vähän sen ympäriltä. Keräys on auki poikkeustilan loppuun 13.5.2020 asti. Teemakeräyksen kesto riippuu paljolti siitä, miten pitkäksi nykyinen pandemia venyy, mutta keräys on käytännössä silti jossain vaiheessa katkaistava tai vähintään jaettava useammaksi keräykseksi, vaikka puhetta ja uutisointia koronasta riittääkin vielä vuosiksi eteenpäin.

Valmistunut teemakeräys on lopulta yleisön tutkittavissa Kansalliskirjaston ja muiden vapaakappalekirjastojen vapaakappaletyöasemilla, kunhan keräys on saatu tallennettua ja käsiteltyä, ja kunhan Kansalliskirjasto saa taas avata ovensa asiakkaille.

Uutinen teemakeräyksestä sekä keräyslomake löytyvät Kansalliskirjaston verkkosivuilta: https://www.kansalliskirjasto.fi/fi/uutiset/kansalliskirjasto-keraa-korona-aiheisia-verkkoaineistoja

Kirjoittajan yhteystiedot

Sanna Haukkala, kirjastosihteeri
Kansalliskirjasto, tutkimuskirjasto
PL 15 (Unioninkatu 36), 00014 Helsingin yliopisto
sanna.haukkala [at] helsinki.fi

7 Comments

  1. Tietokonenörtti

    Saataisiinko tuohon verkkoarkistoon samanlainen ”Save Page Now” ominaisuus kuin Internet Archivessa on: https://archive.org/web/
    Sinne käyttäjät voivat syöttää URL-osoitteen ja palvelu tallentaa sen.

    Harmittaa kun kunta jokin aika sitten uudisti nettisivujaan ja laitoin teidän verkkoarkistoon pyyntönä listan että siellä olleet tekstit kopioitaisiin verkkoarkistoon. No nyt kunta sitten uudisti nettisivunsa ja kyseiset tekstit jäivät tallentamatta…

    Verkkoarkistosta kun puuttuu kaikki ennen vuotta 2005 julkaistut tekstit, mutta Internet Archivesta niitä löytyy ja paljon joten Kansalliskirjaston kannattaisi Internet Archivelta pyytää kopioina kaikki .fi -päätteinen data vuosilta 1996-2005. Olisi hyvä että se data saataisiin myös Suomeen talteen.

    • Hei! Valitettavasti samanlaisen tallennusnapin rakentaminen meidän verkkoarkistoon on ainakin aiemmin nähty liian vaikeaksi työksi nykyisiin resursseihimme nähden. Internet Archivessa olevia vuotta 2006 vanhempia suomalaisia verkkosivuja tosiaan voisi pyytää maksusta, tämän mahdollista toteuttamista tulemme kyllä miettimään.

      Verkkoarkistoon tuli muuten juuri uudistuksia, yksi niistä on sivu jonka kautta voi lähettää keräysehdotuksia: https://verkkoarkisto.kansalliskirjasto.fi/va/index.php/info/feedback
      Lomakkeella voi lähettää ehdotuksia vaikka muutama kerrallaan, tai kerralla koko nippu. Kuntien sivuja tallentuu kyllä kerran vuodessa järjestettävässä isossa vuosikeräyksessä, mutta ei sitä tiuhempaan.

      • Tietokonenörtti

        Mikäli tallennusnapin käyttöä halutaan hieman rajoittaa spämmin varalta niin toinen mahdollisuus voisi olla että vapaaehtoiset voisivat anoa ”arkistoijan” statusta jolloin saisi tunnukset ja pääsisi tallentamaan sivuja Kansalliseen verkkoarkistoon syöttämällä yksittäisiä URL-osoitteita.

        • Tuohan olisi mielenkiintoista. Mietimme joka tapauksessa miten voisimme keräyksissä osallistuttaa myös jatkossa muitakin kuin kirjaston henkilökuntaa.

          Kiitos mielenkiintoisesta kehitysehdotuksesta!

  2. Sipuli

    Tallennetaanko Verkkoarkistoon ollenkaan TOR-verkon sivuja? Ainakin joitakin sivuja saisi tallentaa näytteeksi.

    • Hei, tällä hetkellä Kansalliskirjasto ei ole tietojeni mukaan tallentanut sisältöä TOR-verkosta.

      Ilmeisesti kansainvälisesti on tehty joitain testikeräyksiä, mutta meillä Kansalliskirjastossa on kulttuuriaineistolain (1433/2007) mukaan laillinen tehtävä ”ohjelmallisesti hakea ja tallentaa yleisön saatavilla olevaa verkkoaineistoa tietoverkoista” – kysymys onkin, että ovatko TOR-verkon aineistot oikeastaan yleisön saatavilla olevaa verkkoaineistoa, jos niihin pääseminen vaatii moninkertaista salausta?

      Jotta voisimme tallentaa sieltä sisältöä, niin pitäisi myös tietää mitä sivustoja sieltä kannattaisi tallentaa.

      Jos sinulla on ehdotuksia suomalaisista sisällöistä mitä TOR-verkoista pitäisi tallentaa, voit lähettää ne meille suoraan Suomalaisen verkkoarkiston ehdotuslomakkeella: https://verkkoarkisto.kansalliskirjasto.fi/va/index.php/info/feedback

      • PS

        TOR-verkkoa voinee ajatella kehittyneenä HTTPS protokollana, jota tämäkin sivusto käyttää, ja se toteuttaa samaa tarkoitustakin. Se salaa verkkoliikenteen palvelimen ja päätelaitteen välillä, kuten HTTPS, mutta tarjoaa lisätoimintona anonymiteetin. Sisältö on silti kaikkien saatavilla. Sisällön tallennuksesta vastaa tällä hetkellä ainakin SUPO ja poliisi.
        Pikemminkin pitäisi kysyä, tulisiko samankaltainen teknologia olla käytössä kaikessa tietoliikenteessä?

Leave a Reply to Peruuta vastaus

This site uses Akismet to reduce spam. Learn how your comment data is processed.