NewsEye – tekoäly ihmistieteiden ja sanomalehtiaineistojen käyttäjien palveluksessa

Toivonen H, Tolonen M & Kaukonen M (2020). NewsEye – tekoäly ihmistieteiden ja sanomalehtiaineistojen käyttäjien palveluksessa. Tietolinja, 2020(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe20201217101275

EU:n lippu

This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 770299.

NewsEye-projekti kehittää työkaluja historiallisten digitoitujen sanomalehtien käyttöön ja tutkimukseen digitaalisten ihmistieteiden ja tietojenkäsittelytieteen tutkijoiden sekä kansalliskirjastojen yhteistyönä.  Projektin viimeinen vuosi on alkamassa 2021 alussa, ja kehitettyjä työkaluja on jo testattavissa. Asiantuntijat ovat tiiviissä yhteistyössä kehittäneet muun muassa uudenlaisia automaattisen tekstintunnistuksen, layout-analyysin, artikkelien eristämisen ja sisällön semanttisen rikastamisen algoritmeja sekä edellä mainittuihin algoritmeihin perustuvan henkilökohtaisen digitaalisen tutkimusavustajan. Samalla on tutkittu valittuja sisältöjä sekä luotu tekninen alusta aineistojen, työkalujen ja tutkijoiden kohtaamiselle.

Kuva Uusi Aura -lehden kannesta.

Kuva 1: NewsEye-projekti kehittää työkaluja digitoitujen historiallisten sanomalehtien käyttöön. Kuva: Hanna Arpiainen.

Tekoäly historiallisen datan tutkijana, selittäjänä ja raportoijana

Professori Hannu Toivonen kiittää projektissa tehtyä yhteistyötä.

– Poikkitieteellinen yhteistyö kansalliskirjastojen ja historiantutkijoiden kanssa on tuottanut meille tietojenkäsittelijöille hyviä tutkimusongelmia. Miten esimerkiksi tunnistaa ja kuvata ajan myötä tapahtuneita muutoksia tiettyä aihetta koskevissa kirjoituksissa?

Monipuolinen projektiyhteistyö on mahdollistanut erikoistumisen myös tietojenkäsittelytieteen ryhmien välillä. Kun muut kumppanit tunnistavat tekstiä ja artikkeleita aiempaa paremmin sekä annotoivat tekstiä muun muassa tunnistamalla siitä nimiä, niin Helsingin yliopiston tietojenkäsittelijät ovat voineet keskittyä projektikumppanien valmiiksi prosessoimien lehtien sisältöjen tilastolliseen analysointiin.

– Olemme kehittäneet menetelmiä sanomalehtisisältöjen aihemallinnukseen (engl. topic modeling), Toivonen kertoo. – Mallien avulla voi esimerkiksi vertailla artikkelikokoelmien aiheiden samankaltaisuutta. Aihemallinnusta voi käyttää myös tekstien sisällöissä tapahtuneiden muutosten kuvaamiseen.

Toivosen ryhmä on kehittänyt myös automaattisempaa tutkimusavustajaa seulomaan aineistosta tilastollisia ilmiöitä, jotka voisivat kiinnostaa käyttäjää. Avustaja soveltaa projektissa tuotettuja analyysityökaluja — kuten aihemalleja — käyttäjän antamaan aineistoon, arvioi työkalujen tuloksia, ja raportoi sitten käyttäjälle löydöksistä.

– Perimmäisenä tavoitteena on auttaa käyttäjää tekemään mielenkiintoisia havaintoja, Toivonen muistuttaa. – Tutkimusavustajankin toiminnassa korostuu läpinäkyvyys: käyttäjä saa halutessaan selityksen sille, miksi ja miten avustaja löysi tuottamansa tulokset.

Yhteistyö avaimena tutkimuskentän muutoksessa

Apulaisprofessori Mikko Tolonen näkee sanomalehtien merkityksen digitaalisten ihmistieteiden tutkimukselle välttämättömänä sen kannalta, että laskennallisten metodien käyttö integroidaan osaksi historiantutkimuksen yleistä työkalupakkia. Digitaaliset humanistiset aineistot ovat aina monimuotoisia eivätkä standardoituja, ja siksi tilastollisten menetelmien soveltaminen niihin on lähtökohtaisesti vaativaa.[1] Tutkijat ovatkin viime vuosina heränneet paremman lähdekritiikin sekä aineistojen harmonisoinnin merkitykseen.[2]

Kokonaisvaltaisessa tutkimuskentän muutoksessa tarvitaan aineistoja, jotka yhdistävät useiden eri tutkijaryhmien sekä yksittäisten tutkijoiden työtä. Nimenomaan digitaaliset sanomalehtiaineistot ovat tällainen yhdistävä tekijä. NewsEye-hankkeessa on nähty, että erot eri kielialueilta tulevien aineistojen välillä pystytään ylittämään. Tämä johtuu siitä, että ne ovat kehittyneet globaalissa historiassa samanaikaisesti, minkä lisäksi aineistoista on vuosisatojen kuluessa muodostunut osa yleiseurooppalaista julkista keskustelua. Kun käyttäjät ja perinteiset historiantutkijat sekä menetelmäkehittäjät tietojenkäsittelyn puolelta saadaan toimimaan pitkäjänteisesti yhteisissä hankkeissa yli kielirajojen, saadaan aikaan todella herkulliset lähtökohdat myös tulevaisuuden käytäntöjen viitoittamiseen.

Kirjan kansi esimerkkinä Montpellierin yliopiston lääketieteen kirjaston kokoelmista.

Kuva 2.
Tekoälyn ja digitoinnin avulla painetut historialliset aineistot saadaan käyttöön ajasta ja paikasta riippumatta. NewsEyen projektipartnerin Montpellierin yliopiston historiallisen lääketieteen kirjaston kokoelmaa.
Kuva: Minna Kaukonen / NewsEye.

NewsEye-projekti on yksi monista, joissa tähdätään yhdistettyjen sanomalehtiaineistojen luomiseen. Vastaavaa työtä on tehty esimerkiksi Sveitsin Impresso[3]-hankkeessa, joka päättyy vuoden 2020 lopussa. Projektit ovat jo päässeet yhteistyön alkuun, ja infrastruktuurin kehittämisen kautta aineistot rikastuvat entisestään ja niitä voidaan hyödyntää aiempaa paremmin. Myös laajempi infrastruktuurin kehittäminen on hyvässä vauhdissa erityisesti Dariah- ja Clarin EU-hankkeissa, ja tässä otetaan ilman muuta huomioon jo aiemmin tehty työ esimerkiksi Europeana-hankkeessa. Tätä kautta syntyvään kaikkia hyödyttävään ekosysteemiin on helppo liittää myös ammattitutkijoiden ulkopuoliset intressit sekä opiskelijoiden tarpeet.

Aineiston käytettävyys paranee

Kansalliskirjaston, ja jatkossa sen digitaalisten sanomalehtiaineistojen käyttäjien, suurin hyöty projektista on toistaiseksi ollut tekstintunnistuksen kehitys. Projektissa tunnistettiin uudelleen 500 000 suomen- ja ruotsinkielisen sanomalehtisivun teksti automaattisilla menetelmillä. Tunnistamisessa käytettiin Transkribus-työkaluja[4], koska ne ovat monipuolisia ja soveltuvat sanomalehtiaineistolle. Transkribus on historiallisten painettujen ja käsin kirjoitettujen lähteiden digitointiin, tunnistamiseen ja translitterointiin sopiva tekninen alusta.

Saatujen hyvien tulosten perusteella Kansalliskirjasto on päättänyt käyttää samaa työnkulkua tunnistamaan muut vanhimmat sanomalehtiaineistonsa 1910-luvulle asti. Paremmin tunnistettuja aineistoja tuotetaan yhteensä noin 2 miljoonaa sivua, ja niitä tuodaan digitaalisten aineistojen palveluun digi.kansalliskirjasto.fi:hin vuodesta 2021 alkaen. Käyttäjien hakuosumat paranevat tekstintunnistuksen laadun parantuessa. Projektissa tuotettiin myös esimerkiksi artikkelien erottamisen ja nimien tunnistamisen algoritmejä. Kirjasto tutkii näidenkin mallien hyödynnettävyyttä digi.kansalliskirjasto.fi:n kehityksessä.

NewsEye-projektin tulokset punoutuvat osaksi muita Kansalliskirjaston palveluiden kehittämiseen tähtääviä toimintoja. Näistä hyviä ja laajalti näkyviä esimerkkejä ovat vaikkapa digitoitavista aineistoista tuotettavat opetuspaketit, joita aletaan julkaista vuoden 2021 aikana Finna Luokkahuone -palvelussa.[5]

Kansalliskirjaston laajin digitoitu kokoelma ovat sanomalehdet. Sanomalehdet soveltuvat niin useiden tieteenalojen tutkimukseen kuin historian harrastajan, sukututkijan tai kenen tahansa menneistä ajoista kiinnostuneen käyttöön. Tutkijoita palvelevat toiminnallisuudet hyödyttävät myös muita aineistojen käyttäjiä.

Projekti jatkumassa tammikuuhun 2022

Vuoden 2020 ajan maailmaa ravistellut koronapandemia on vaikuttanut myös NewsEye-projektiin – aivan kaikkea ajateltua ei ole saatu tehtyä. Esimerkiksi tilaisuudet, joissa opastetaan projektissa luotujen työkalujen käyttöä, ovat viivästyneet. Projekti saanee jatkoajan koronatilanteen vuoksi toukokuusta 2020 tammikuuhun 2022. Kehitystyötä ei kuitenkaan juuri tehdä enää huhtikuun jälkeen, vaan mahdollinen jatkoaika käytetään viestinnän tehtäviin ja projektin tuottamien työkalujen jatkuvuuden varmistamiseen.

Projektissa luotujen työkalujen ja työprosessien ylläpito ja kehittäminen on tärkeää. Tällä hetkellä pyritään siihen, että joku toimija ylläpitää NewsEyen tuloksia myös projektin päättymisen jälkeen. Kehitetty Demonstrator-alusta sisältää digitaalisten ihmistieteiden tutkijoiden projektiin valitsemaa sanomalehtiaineistoa, kehitettyjä työkaluja, ohjeita sekä räätälöidyn käyttöliittymän.

NewsEye-projektin verkkosivu

Kuva 3. NewsEye-projektin verkkosivuston etusivu

Kansalliskirjaston ja aineistojen käyttäjien näkökulmasta olisi toivottavaa, että kirjastoille palveluja tarjoavat yritykset ottaisivat projektin tuotoksia myös osaksi omia palveluitaan ja omaa tuotetarjontaansa. NewsEye on tyypiltään tutkimus- ja innovaatioprojekti (RIA). Tämän Euroopan unionin rahoittaman projektityypin tarkoituksena on luoda uutta tietoa tai testata teknologian, tuotteen, prosessin, palvelun tai ratkaisun käytettävyyttä tai soveltuvuutta tiettyihin tarkoituksiin. Projektityyppi ei tähtää kaupallisiin lopputuotteisiin, vaan kaupallistaminen on muiden tehtävä. Toivottavasti tämä toteutuu NewsEyen tuotoksille.

Lähdeviitteet

[1] Eetu Mäkelä, Krista Lagus, Leo Lahti, Tanja Säily, Mikko Tolonen, Mika Hämäläinen, Samuli Kaislaniemi and Terttu Nevalainen. Wrangling with non-standard data. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference: Riga, Latvia, October 21–23, 2020. Editors Sanita Reinsone, Inguna Skadiņa, Anda Baklāne and Jānis Daugavietis. Aachen: CEUR-WS.org, 2020. pp. 81–96.

[2] Mikko Tolonen and Leo Lahti. 2018. Digitaaliset ihmistieteet (”Digital Humanities”) ja historiantutkimus. In M. Hannikainen, M. Danielsbacka, & T. Tepora (Eds.), Menneisyyden rakentajat: teoriat historiantutkimuksessa. Helsinki: Gaudeamus: 235–258.

[3] https://impresso-project.ch/

[4] https://readcoop.eu/transkribus/

[5] https://www.finna.fi/Content/luokkahuone

Kirjoittajien yhteystiedot

EU:n lippu

This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 770299.

Hannu Toivonen, professori
Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen osasto
hannu.toivonen [at] helsinki.fi

Mikko Tolonen, apulaisprofessori
Helsingin yliopisto, humanistinen tiedekunta, digitaalisten ihmistieteiden osasto
mikko.tolonen [at] helsinki.fi

Minna Kaukonen, suunnittelupäällikkö
Kansalliskirjasto, tutkimuskirjasto, Mikkelin toimipiste
minna.kaukonen [at] helsinki.fi

Newseyen partnerit

  • La Rochellen yliopisto, Ranska (koordinaattori)
  • Helsingin yliopisto
  • Innsbruckin yliopisto, Itävalta
  • Rostockin yliopisto, Saksa
  • Montpellier Paul-Valéry yliopisto, Ranska
  • Wienin yliopisto, Itävalta
  • Itävallan kansalliskirjasto
  • Ranskan kansalliskirjasto

Rahoitus

3 miljoonaa euroa eurooppalaisesta Horizon-ohjelmasta 2018–2021

Linkit ja yhteydet:

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.