Lehtileikkeitä digitaalisina – aiheiden ja tyyppien jakaumasta

Pääkkönen T (2019). Lehtileikkeitä digitaalisina – aiheiden ja tyyppien jakaumasta. Tietolinja, 2019(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019041912957

Digi.kansalliskirjasto.fi-palvelussa on jo muutaman vuoden ajan ollut käytössä toiminto, jolla kuka tahansa kirjautunut käyttäjä voi luoda itselleen omaa kiinnostavien asioiden kokoelmaa. Kyseessä on eräänlainen kirjanmerkin ja perinteisen lehtileikkeen fuusio. Käyttäjä voi valita sisältösivulta tietyn alueen, lisätä siihen haluamansa otsikon, leikkeen aiheen, tyypin ja  Leike säilyy palvelussa sekä omassa leikekirjassa että yhteisessä leikevirrassa. Jos käyttöoikeus aineistoon loppuu, niin samalla myös leike häviää näkyvistä, mutta on toki vielä olemassa ja käytettävissä vapaakappalekirjastojen vapaakappaletyöasemilla.

147 000 leikettä

Tällä hetkellä  Digissä on kaikkiaan 147.000 leikettä, joista tätä kirjoittaessa 126.229 on poimittu vapaasti saatavissa olevasta aineistoista ja näkyvissä kaikille. Joillakin käyttäjillä on satoja tai jopa tuhansia leikkeitä, mutta on myös paljon sellaisia käyttäjiä, jotka ovat tehneet vain yhden leikkeen (Pääkkönen 2015). Trendi näyttää joka tapauksessa olevan, että leikkeiden keräämisestä innostuneet käyttäjät ovat jatkaneet niiden keruuta omasta kiinnostuksen kohteestaan. Lisäksi myös tutkijakäyttäjät ovat löytäneet leikkeet. Kokemuksen historian tutkimusprojekti Translocalis on kerännyt paikalliskirjetietokantansa Digin leikkeinä (HEX 2019). Samoin ”Ristiinan sotakoulu”-hankkeessa leikkeitä hyödynnettiin tutkimuksen raaka-aineiston keräämisessä sekä tutkijoiden että aiheesta innostuneiden paikallisten kesken.

Leiketoiminnoilla voisi arviomme mukaan palvella myös yksittäisten tutkijoiden aineistojen keruuseen liittyviä tarpeita – lähdeaineiston voi merkata talteen leikkeinä, minkä jälkeen niitä on mahdollista hyödyntää tutkimusprosessissa. Oman leikelistauksen saa ladattua tiedostona, jossa kerrotaan aineiston viitetiedot. Vaikka käyttöoikeus aineistoon lakkaisi, leikkeet ovat käytettävissä vapaakappalekirjastoissa eri puolella Suomea (Pitkälä 2019).

Leikkeiden tyypit ja aiheet

Käyttäjien poimimat leikkeet jakautuvat  kuvassa 1 esitetyllä tavalla. Hiukan yli puolet leikkeistä (67.212 kpl) on artikkeleita ja uutisia. Ilmoitusten osuus on noin 22 %  (27.644 kpl), kun taas perhetapahtumia koskevien ilmoitusten ja mainosten osuudet ovat kumpikin noin viisi prosenttia. Mielipidekirjoituksia, novelleja, kuvia ja sanaristikoita on kutakin noin kaksi prosenttia aineistosta. Muut aineistotyypit jäävät alle yhden prosentin osuuteen leikkeiden kokonaismäärästä.

Vanhojen lehtien aineistotyypeistä esimerkiksi pääkirjoitusten löytäminen voi olla hankalaa jopa ihmislukijalle, saati sitten tekoälylle. Pääkirjoitus on usein ensimmäisellä sivulla oleva ensimmäinen juttu, mutta välillä sitä ei ehkä ole ollenkaan ja joskus se on vasta myöhempänä lehdessä.

Kuva 1. Leikkeiden tyypit prosentteina (näkyvä aineisto)

Leikkeiden aiheet perustuvat Kansalliskirjaston digissä IPTC:n (International Press Telecommunications Council (IPTC) määrittelemiin sanomalehtimedian pääluokkiin (IPTC 2019). Pääluokat ovat:

  • Elämäntapa ja vapaa-aika
  • Ihmiset, eläimet ja tapahtumat
  • Koulutus ja kasvatus
  • Laki, oikeus ja rikokset
  • Liikenne ja kuljetus
  • Onnettomuudet ja tuhot
  • Politiikka
  • Sodat, konfliktit ja kriisit
  • Sosiaalikysymykset
  • Sää ja luonnonilmiöt
  • Taide, kulttuuri ja viihde
  • Talous
  • Terveys
  • Tiede ja tekniikka
  • Työelämä
  • Urheilu
  • Uskonto ja maailmankatsomus
  • Ympäristö

Aiheiden määrittely on vapaaehtoista leikkeitä luotaessa. Silti noin 70 % leikkeistä sisältää aiheen, jotka jakautuvat kuvan 2 mukaisesti.  30 % aiheista on uutisia ihmisistä ja tapahtumista, 14 % elämäntavoista ja vapaa-ajasta. Yhdeksän prosenttia on taidetta, kulttuuria ja viihdettä. Muihin aiheryhmiin luokiteltujen leikkeiden määrät  jäävät alle seitsemäntuhannen.

Kuva 2. Leikkeiden aiheet (kpl) (näkyvä aineisto)

Mitä seuraavaksi?

Avainsanojen käytössä Paikannimien koostamiseen olemme saaneet myös tutkija-apua. Nyt käytettävissä on 33.000 paikannimeä, mikä kasvattaa aiempaa määrää yli kymmenellä tuhannella. Lisäksi käyttäjillä on myös mahdollisuus luoda omia avainsanoja, vaikka sanastosta valittujen termien osalta on toki todennäköisempää, että niitä käyttää useampi henkilö. Digissä  avainsana, jota aiemmin ei ole käytetty, näkyy leikettä luotaessa sen avainsanan edessä olevan tähden avulla.

Kuva 3. Esimerkki leikkeen luonnista, uuden avainsanan lisäys

Leikkeessä voi olla useita avainsanoja sen mukaan mitä sisällön kuvaileminen vaatii. Leikkeen avulla on myös mahdollista saada tarkka viite tiettyyn juttuun – esimerkiksi kuvan 3 leikkeeseen poimittu Kyöpeli (Kyöpeli 1928) –  jolloin artikkelin voi tallentaa omaan viitteidenhallintaohjelmaan. Leikkeiden määrä alkaa lähiaikoina kasvaa merkittävästi, kun automaattisen artikkelipoiminnan tuotoksia viedään Digissä tuotantokäyttöön, aluksi yhden pilottilehden osalta. Aiheet, tyypit ja avainsanat ovat tämän jälkeen entistäkin tärkeämpiä leikkeiden löytämisessä.

Leiketoiminto on otettu Digissä käyttöön myös sinne tuotujen uusien aineistotyyppien,  kirjojen, nuottien ja karttojen yhteydessä. Onkin kiinnostavaa nähdä, minkälaisia ensimmäisiä lauseita kirjoista löytyy ja syntyykö niistä omanlaisensa leikejoukko. Toinen uusi mahdollisuus voisi olla verrata tekstien käännöksiä ja katsoa kuinka tietty kappale on käännetty ruotsista suomeen ja kuinka samakin uutinen voi olla käännetty hiukan eri tavalla eri puoluekannan lehdissä.

Digin ’leikkeet’-toiminnon avulla on mahdollista seurata miten erilaiset kiinnostuksen kohteet ilmestyvät yleiseen leikevirtaan ja miten ne vaihtuvat yhdenkin päivän kuluessa. Tervetuloa kokeilemaan leikkeiden tekoa!

Viitteet

HEX. 2019. ”Translocalis-tietokanta”. https://research.uta.fi/hex-fi/esittely/translocalis/ (tarkistettu 14. huhtikuuta 2019).

IPTC. 2019. ”Show IPTC NewsCodes”. http://show.newscodes.org/index.html?newscodes=medtop&lang=en-GB&startTo=Show (15. huhtikuuta 2019).

”Kyöpeli”. 1928. Rauman Lehti (101): 2. https://digi.kansalliskirjasto.fi/sanomalehti/binding/1576784/articles/3447639

Pitkälä, Matti. 2019. ”Vapaakappaletoimisto”. Kansalliskirjasto. https://www.kansalliskirjasto.fi/fi/vapaakappaletoimisto (14. huhtikuuta 2019).

Pääkkönen, Tuula Anneli. 2015. ”Crowdsourcing metrics of digital collections”. Liber quarterly 25(2): 41–55. http://doi.org/10.18352/lq.10090 (24. huhtikuuta 2019)

Kirjoittajan yhteystiedot

Tuula Pääkkönen, tietojärjestelmäasiantuntija
Kansalliskirjasto, tutkimuskirjasto
Saimaankatu 6, 50100 Mikkeli
tuula.paakkonen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.