Kansalliskirjaston digitaalisia aineistoja DHH16-hackathonissa

Pääkkönen T (2016). Kansalliskirjaston digitaalisia aineistoja DHH16-hackathonissa. Tietolinja, 2016(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2016052913006
 

Helsingin yliopisto ja Aalto-yliopisto järjestivät 16–20.5.2016 jo toisen kerran digitaalisten ihmistieteiden (digital humanities, DH) hackathonin, jonka kotisivu on http://dhh16.hiit.fi.  Hackathon toimi digitaalisten ihmistieteiden opintokokonaisuuden projektityöosiona, jossa eri alojen opiskelijat pohtivat annetuista aineistoista nousevia tutkimuskysymyksiä.

Käytettävissä olleet aineistot

Kuva 1. Kuvia DHH16-tapahtumasta 20.5.2016

Kuva 1. Kuvia DHH16-tapahtumasta 20.5.2016

Viime vuoden vastaavassa hackathonissa (#DHH15) osallistujille tarjottuja aineistoja olivat Kansalliskirjaston digitaalisista aineistoista sanomalehdet vuoteen 1910, tekniikan aikakauslehdet, VARIENG-ryhmän 1800-luvun kirjeet ja Finnairin Blue Wings -lehden sivut. Osa viime vuoden aineistoista oli käytössä tänäkin vuonna, mutta organisoijat olivat saaneet houkuteltua mukaan myös aivan uusia aineistoja.

Kansalliskirjaston digitoituja vuosien 1771-1910 sanomalehtiä käytettiin aineistona myös tänä vuonna. Tällä kertaa oli mahdollista hyödyntää Kansalliskirjaston laatimaa uutta formaattia, jossa yhden XML-tiedoston sisään on tuotu jokaisen sanomalehtisivun osalta sen metatiedot, lehden rakenteellinen analyysi (ALTO XML) ja sivun sisältö raakatekstinä. Muista aineistoista erityisen kiinnostava oli Yleisradion vanhojen TV-ohjelmien metadataa sisältänyt kokonaisuus, joka tarjottiin ensimmäistä kertaa käytettäväksi Yleisradion ulkopuolella.

Varhaisin hackathonin osallistujille tarjolla ollut aineisto oli vapaasti verkossa saatavilla oleva nk. EEBO-TCP-datasetti, joka sisältää Englannissa, Skotlannissa, Irlannissa ja Pohjois-Amerikassa julkaistuja kirjoja (n. 30.000 XML-tiedostoa) vuosilta 1473–1700. Lisäksi mukana oli aineistoja, jotka antoivat mahdollisuuden tutkia muuttuvaa Helsinkiä hyödyntäen monia eri lähteitä, mm. HRI-palvelua (Helsinki Region Infoshare). Tarjolla oli myös aineistoja, jotka olivat saatavilla Finnan uuden avoimen rajapinnan kautta.

Ryhmät ja tulokset

Ryhmä 1 – Yle group – Mining the mediatized memory

Ykkösryhmällä oli käytössään Yleisradion Metro TV-arkiston metadata (1.1.1957–31.12.1990), jossa oli n. 97 000 tietuetta. Datassa oli tiedot ohjelmien kestosta ja niiden metatiedot sekä myös tieto siitä milloin metadataa on muutettu. Ryhmä analysoi metadataa sanatasolla tutkien tapausesimerkkeinä mm. Kekkosta ja kylmää sotaa ja ryhmitteli toisiinsa liittyviä aiheita. Ryhmä päätyi pohtimaan voisiko metadata toimia julkisen keskustelun indeksinä – mistä, missä ja milloin keskustelua on käyty. Aineistosta saattaisi olla mahdollista löytää suomalaisen kulttuurin ajankuvaa, ml. päätapahtumat ja aiheet, joilla saa yleiskuvan siihen millaista esimerkiksi vuonna 1957 oli.

Jatkomahdollisuuksia pohtiessaan ryhmä totesi, että metadatan lisäksi olisi tarpeen saada itse sisällöt analysoitavaksi. Lisäksi vertailuaineistoksi kaivattiin myös MTV3:n vastaavaa dataa ja esim. lehtiaineistoja (mm. Katso- ja Antenni-lehdet), jotka antaisivat laajemman näkökulman.

Ryhmä 2 – Exploring Helsinki

Toisena tuloksiaan esitellyt ryhmä tutki Helsinkiä monen erilaisen aineiston voimin. Teemaksi oli valittu Länsi-Pasilan kehitys 1980-luvulla sen kokemien suurten muutosten jälkeen. Aihetta tutkittiin eri aineistolähteiden tarjoamia mahdollisuuksia hyödyntäen. Kansalliskirjaston Finna-palvelun kautta löydetyistä kuvista tehtiin kokeellinen menetelmä, joilla kuvista saa mielikuvan (impression) hyödyntäen kuvien metatietojen avainsanoja.

Ryhmä päätteli, että alueella asuvien ihmisten kuvat ja tarinat kertovat kuinka kaupunkisuunnitteluprojekteissa on käynyt. Tietoja olisi mahdollista hyödyntää uusissa vastaavissa projekteissa, joissa voitaisiin ottaa oppia menneestä.

Ryhmä 3 – Recycling of texts in early English Books

Kolmas ryhmä tutki EEBO-TCP-aineistoa. Ryhmässä sekä kehitettiin menetelmiä että tehtiin samaan aikaan kolme pilottitutkimusta tekstin kierrättämisestä, aiheina

  1. 1500-luvun tekstit: 3052 tiedostoa
  2. Sisällissodan tekstit 1642–1651: 1098 tiedostoa, 2-24 sivua
  3. Shakespearen tekstit

Teksteille luotiin oma yksinkertaistettu muotoilu, jonka avulla samankaltaisuudet löydettiin. Tämän datan perusteella luotiin visualisointeja, joilla pystyi näkemään missä tekstejä oli hyödynnetty. Loppupäätelmissään ryhmä arvioi, että ehdotetun tyyppinen malli voisi toimia aloituskohtana perinteiselle humanistiselle tutkimukselle ja automaattiselle analyysille. Jatkossa olisi kuitenkin mielenkiintoista pohtia myös sitä, miksi aineistoja on kierrätetty ja kehittää menetelmiä, jotka kestävät paremmin aineiston vaihtelua.

Ryhmä 4 – Emigration discourse in the Finnish newspapers in 1870–1910

Sanomalehtiryhmä pohti 1900-luvun vaihteen muuttoliikettä Suomesta mm. Yhdysvaltoihin, jolloin n. 300.000 ihmistä muutti maasta. Ryhmä oli huomannut, että teemaa on tutkittu lehtiaineiston pohjalta jo aiemmin. Tällöin tutkijat olivat käyneet läpi kolmen lehden otsikot ja ingressit.

Nyt ryhmä pyrki laajentamaan käytettyä aineistoa ja löytämään keinoja, joilla voidaan tunnistaa muuttoliikkeeseen liittyvät artikkelit koko aineistosta. Ensimmäinen aineistojoukko koneoppimista varten tehtiin käsin, mutta tämän jälkeen tätä joukkoa käytettiin yliedustettujen sanojen löytämiseen. Tavoitteena oli löytää myös sellaisia artikkeleita, joissa esim. sana ”siirtolaisuus” ei esiinny ollenkaan.

Ryhmän tavoitteet olivat kunnianhimoiset ja käytetty opetusaineiston systemaattista laajentamista tukeva menetelmä vaikutti kiinnostavalta. Ryhmä totesi, että menetelmästä voisi saada yleiskäyttöisemmänkin työkalun. Lisäksi ryhmä oli vertaillut sitä kuinka hyvin sanomalehdissä käyty keskustelu siirtolaisuudesta korreloituu tapahtuneeseen siirtolaisuuteen. Tuloksista näkyi, että alun hitaan kasvun jälkeen lehdissä käsiteltiinkin asiaa suhteessa enemmän, mutta myöhemmin siirtolaisuuden ollessa huipussaan siitä puhuttiin lehdissä jo vähemmän.

Yhteenveto

Kansalliskirjaston kannalta oli mielenkiintoista nähdä, miten erilaisiin tutkimuskysymyksiin ja -aiheisiin aineistoistamme voi löytää kiintoisia näkökulmia. Suuria tekstiaineistoja voi näppärästi käydä läpi koneellisesti, ja aineistojen syövereistä on mahdollista paljastaa uutta tietoa joko hyödyntämällä olemassa olevia algoritmejä tai luomalla uusia.

Kuva 2 Digitaalisten aineistojen visualisointimahdollisuuksia (kuva kehitysympäristöstä)

Kuva 2. Digitaalisten aineistojen visualisointimahdollisuuksia (kuva kehitysympäristöstä)

Jo viime vuonna ryhmien töitä kommentoimaan kutsuttu professori Caroline Bassett Sussexin yliopistosta puhui siitä miten tutkijoiden pitää nykypäivänä pohtia lähi- ja ”kaukolukemisen” (remote reading) suhdetta. Molemmilla on oma käyttötarkoituksensa ja tutkijan onkin pohdittava milloin eri menetelmiä kannattaa soveltaa.

Erityisesti DHH-hackathonit ovat kuitenkin osoittaneet, että digitaalisessa muodossa olevista kulttuuriperintöaineistoista on löydettävissä kiinnostavia ja merkittäviä avauksia. Viime vuonna tutkittiin sosialistisia konsepteja ja tekniikan kehitystä, tänä vuonna mm. muuttoliikettä ja kaupunkikehitystä. Vaikka monet hackathonin aikana esille nousseista menetelmistä tuntuvat nyt kokeellisilta, pitkällä tähtäimellä voisi toivoa, että uusia menetelmiä kehitettäisiin tämän yhden viikon jälkeen myös eteenpäin. DHH16-hackathonin ryhmien esitykset saatetaan lähiaikoina verkkoon, ja viikon aikana tuotettu lähdekoodi löytyy Githubista muidenkin kiinnostuneiden käytettäväksi.

Vaikka viikko oli varmasti monille vaativa, osallistujien innostus ja kiinnostus sekä aineistoja että valittuja teemoja kohtaan oli selkeästi havaittavissa. Kuten Eetu Mäkelä viimeisen päivän alustuksessa sanoikin, vaikka digitaaliset ihmistieteet ovat nyt trendi, pitäisi silti muistaa, että tavoite on luoda aitoa, syvää yhteistyötä eri alojen välille. Professori Mikko Tolonen maalaili myös laajaa visiota, jossa erityisesti Helsingin digitaalisten ihmistieteiden keskuksessa eli HELDIG:ssä pyritään saattamaan eri alojen toimijoita yhteen ja luomaan sellaista ekosysteemiä, jossa voi tapahtua uusia asioita.

Vaikka ryhmät saattoivat joissakin tapauksissa pohtia kuinka päästä tiettyjen aineistoihin sisältyvien epätarkkuuksien yli, kaikista aineistoista saatiin poimittuja kiinnostavia tiedonmuruja. Tärkeintä onkin, että aineistot ovat saatavilla. Laadukkaaseen metadataan, digitointiin ja jälkikäsittelyyn tehdyt sijoitukset ja panostukset tuottavat hedelmää myös jälkikäteen. Aineistojen tuottajien ja tutkimusekosysteemin yhteistyö on tärkeää, jotta voidaan ymmärtää sekä aineistojen syntyhistoriaa että tutkimuksen tarpeita.

Kirjoittaja toimii tietojärjestelmäasiantuntijana Kansalliskirjaston Aviisi-projektissa. Projektissa etsitään pilottien kautta yhteistyössä toimintamalleja, joilla tekijänoikeudenalaisia aineistoja voitaisiin avata erityisesti laajempaan tutkimus- ja opetuskäyttöön. Lue lisää http://blogs.helsinki.fi/digiaviisi.

Kirjoittajan yhteystiedot

Tuula Pääkkönen, tietojärjestelmäasiantuntija
Kansalliskirjasto, digitointi- ja konservointikeskus
Saimaankatu 6, 50100 MIKKELI
tuula.paakkonen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.