Aaveita koneessa: Automaattisen sisällönkuvailun arviointia Kirjastoverkkopäivillä 2019

Lehtinen M, Inkinen J & Suominen O (2019). Aaveita koneessa: Automaattisen sisällönkuvailun arviointia Kirjastoverkkopäivillä 2019. Tietolinja, 2019(2). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019120445612

Järjestimme vuoden 2019 Kirjastoverkkopäivillä työpajan, jossa tarkasteltiin sisällönkuvailun laatua eri näkökulmista. Tarkemmin ottaen tarkoitus oli vertailla automaattisesti, puoliautomaattisesti ja manuaalisesti tuotettuja erilaisten materiaalien sisällönkuvailuja. Työpaja oli jatkoa vuoden 2017 Kirjastoverkkopäivien Ihmiset vs. robotit -työpajalle; näistä kummatkin liittyvät Kansalliskirjastossa kehitettävän automaattisen sisällönkuvailun työkalun Annifin laatutyöhön. Tässä raportissa esitellään Annif sekä käsitellään viimeisintä työpajaa sekä sen tuloksia ja antia.

Annif

Annif on Kansalliskirjastossa kehitettävä automaattisen asiasanoituksen työkalu. Sen käyttämät algoritmit perustuvat kieliteknologiaan ja koneoppimiseen. (Suominen 2019.) Tässä työpajassa käytettiin algoritmeja TFIDF, fastText, Maui sekä PAV-ensemble, jotka oli koulutettu pääasiassa Finna.fi-palvelun indeksistä kerätyillä dokumenttien viitetiedoilla (nimekkeet, kuvaukset/abstraktit sekä asiasanat).

Annifin käyttämistä algoritmeista Maui on Waikaton yliopistossa kehitetty työkalu, joka vertailee käytetyn sanaston ja dokumentin sanoja ja etsii parhaita vastaavuuksia näiden välillä (Medelyan 2009). Tämä lähestymistapa on leksikaalinen eli sanastoon perustuva, mutta Mauissa on myös koneoppimispuoli: se hyödyntää heuristiikkoja ja pyrkii oppimaan, mitkä mahdollisista vastaavuuksista aineiston ja sanaston välillä ovat parhaita. TFIDF ja Facebookin tutkimusosastolla kehitetty fastText ovat tilastollisia/assosiatiivisia lähestymistapoja. TFIDF etsii korrelaatioita dokumentille annettujen aiheiden ja dokumentin sanojen välillä. fastText on puolestaan tekstiä luokitteleva algoritmi, joka ensin muuntaa sanat vektoreiksi ja sitten ajaa ne lineaarisen luokittimen läpi (Joulin et al. 2017). PAV-ensemblessä arvioidaan ja yhdistetään eri menetelmien tuottamia tuloksia, jotta päästäisiin parempaan lopputulokseen. Annifiin voi tutustua paremmin osoitteissa https://github.com/NatLibFi/Annif tai http://annif.org/.

Osallistujat ja materiaalit

Työpajaan osallistui järjestäjien lisäksi 48 sisällönkuvailun ammattilaista ja (automaattisesta) sisällönkuvailusta kiinnostunutta. Työpajassa arvioitiin 50 eri dokumenttia kuvailuineen (Taulukko 1). Materiaalissa oli mukana graduja, väitöskirjoja, tietokirjoja, sanomalehtiartikkeleita ja raportteja. Kuvailuja dokumenteilla oli yhteensä 523. Annif-työkalun tuottamien kuvailujen lisäksi kuvailuja kerättiin tietokannoista, yleisiltä kirjastoilta (4 kirjastovirkailijaa tuotti sisällönkuvailuja lehtiartikkeleille) sekä vuoden 2017 työpajan osallistujilta (40 osallistujaa). Tämänkertaista työpajaa varten Kansalliskirjaston kirjastoverkkopalveluissa tuotettiin talkootyönä myös lisää kuvailuja, joista osa tehtiin Annifin ehdotusten pohjalta koneen ja ihmisen yhteistyönä.

Osallistujille esitettiin kolme kuvailua koskevaa väittämää, joita heitä pyydettiin arvioimaan asteikolla 1–5:

  1. Kuvailu on kattava
  2. Käytetyt asiasanat ovat sisällön kannalta merkityksellisiä
  3. Kuvailu on laadukas

Arvosana 1 oli huonoin (ei lainkaan samaa mieltä) ja 5 paras (täysin samaa mieltä). Osallistujat saivat myös merkitä kuvailuissa käytettyjä asiasanoja poistettavaksi ja antaa vapaamuotoista palautetta kuvailuista. Työpajassa tuotettiin 2176 arvioita kuvailuille (keskimäärin 4,16 arviota/kuvailu). Työpajan keston aikana kukin osallistuja ehti käydä läpi keskimäärin kuuden dokumentin kuvailut. Raportointiin otettiin mukaan sellaiset kuvailut, joissa oli annettu vähintään yksi arvosana.

Aineistotyyppi Kuvailulähteet
Uusia tietokirjoja (10 kpl) Fennica, talkootyö (manuaali 1 kpl + Annif-avusteinen 2 kpl), Annif
Vuoden 2017 työpajan materiaalia (20 kpl)

●        Väitös- ja tietokirjoja
●        Ympäristökeskuksen julkaisuja
●        Raportteja (ei-monografiasarjat)
●        Digitoituja monografioita

Fennica, vuoden 2017 työpajan osallistujat (40 kpl), Annif
Jyväskylän yliopiston JYX-arkiston vuoden 2019 graduja (10 kpl) JYX (Annif-avusteinen), talkootyö (manuaali 2 kpl + Annif-avusteinen 1 kpl), Annif
Satakunnan kansa -lehden artikkeleita (10 kpl) Yleiset kirjastot (4 kirjastovirkailijaa), Annif

Taulukko 1: Työpajassa käytetyt aineistot ja kuvailulähteet.

 

Työpajan osallistujia, jotka keskittyvät tehtävän suoritukseen tietokoneillaan.

Kuva 1: Työpajan tunnelmaa. Kuva: Mikko Lappalainen.

Kuvailujen laatuerot

Työpajassa erityisen kiinnostuksen kohteena oli siis eri tavalla tuotettujen kuvailujen laadun arviointi. Taulukko 2 kertoo, että koko aineistoa tarkasteltaessa ihmisten tuottamat kuvailut arvioitiin paremmiksi kuin pelkästään koneen tuottamat. Ihmisten tuottamat kuvailut saivat arvosanoja väliltä 3,4–4,1. Annifin arvosanat sijoittuivat välille 2,8–3,2. Annif-avusteisesti eli puoliautomaattisesti tehdyt kuvailut ovat samaa tasoa – tai laatu-arvosanan kohdalla jopa hieman parempia – kuin ilman Annifia tehdyt talkootyönä tai työpajassa tuotetut kuvailut.

Annifin tuottamista asiasanoista keskimäärin yli 20 prosenttia ehdotettiin poistettaviksi. Ihmisten tekemissä kuvailuissa poistettavien asiasanojen keskimääräiset prosenttiosuudet jäivät alle kymmeneen prosenttiin. Talkootyönä tehdyissä kuvailuissa on poistettuja asiasanoja enemmän kuin muissa ihmistyönä tehdyissä kuvailuissa. Käymme seuraavaksi läpi eroja aineistoryhmittäin ja kuvailulähteittäin sekä käsittelemme Annifin eri algoritmien eroja.

Annif (PAV) Annif-avusteinen (JYX/talkoo) ihminen (talkoo) ihminen (Fennica / kirjastovirkailija)
Kattavuus 2,92 3,58 3,41 3,83
Merkityksellisyys 3,22 3,94 3,92 4,09
Laatu 2,80 3,63 3,44 3,76
Poistettuja asiasanoja (%) 21,07 8,13 9,06 8,50

Taulukko 2: Koko aineiston keskimääräiset tulokset kuvailulähteittäin.

Laatuerot aineistoryhmittäin

Graduaineistossa Annifin PAV-ensemblen keskimääräiset laatuarvosanat olivat suunnilleen samalla tasolla kuin ihmisten tuottamien kuvailujen (taulukko 3). JYX-arkiston alkuperäiset kuvailut arvioitiin hieman heikommiksi kuin PAV-algoritmin tuottamat kuvailut. Ero selittyy ainakin osittain sillä, että JYX-arkiston kuvailuihin sisältyi YSO:n ulkopuolisia asiasanoja, jotka jätettiin pois työpajan aineistosta. Tämän takia jäljelle jäänyt kuvailu oli monissa tapauksissa melko suppea. PAV-algoritmin ehdottamista asiasanoista poistettujen osuus oli kuitenkin paljon suurempi kuin ihmisten tuottamissa kuvailuissa.

Satakunnan Kansan artikkeleiden kuvailuissa erot kirjastovirkailijoiden ja PAV-algoritmin tuottamien kuvailujen välillä olivat hyvin selvät. PAV-algoritmin kuvailut arvioitiin selvästi huonommiksi, ja poistettujen asiasanojen osuus oli paljon suurempi kuin ihmisten tuottamissa kuvailuissa. (Taulukko 4.)

Tietokirjojen kuvailuista parhaiksi arvioitiin Fennicasta peräisin olevat kuvailut. Talkootyönä tuotetut kuvailut olivat jonkin verran parempia kuin PAV-algoritmin tuottamat kuvailut. Erot eivät kuitenkaan olleet tällä aineistolla kovin suuria, eli myös koneellisesti tuotetut kuvailut pärjäsivät melko hyvin. (Taulukko 5.)

Vuoden 2017 työpajan aineistoilla erot PAV-algoritmin ja ihmisten tuottamien kuvailujen välillä olivat melko suuria. Fennican kuvailut arvioitiin yleisesti parhaiksi ja edellisessä työpajassa tehdyt kuvailut jonkin verran Fennica-kuvailuja heikommiksi. (Taulukko 6.)

Taulukoista 3–6 huomataan, että eniten poistettuja asiasanoja Annifin kohdalla on vuoden 2017 dokumenteissa ja sanomalehtiaineistossa, vähiten taas graduaineistossa. Yleisestikin ottaen erot automaattisen ja ihmiskuvailun välillä ovat pienimmät graduissa. Ihmisten tuottamissa kuvailuissa poistettujen asiasanojen prosenttiosuus on melko tasainen kaikissa aineistotyypeissä; eniten poistettuja asiasanoja oli tietokirjoissa ja vuoden 2017 työpajan aineistoissa.

JYX-gradut Annif (PAV) Annif-avust. (JYX) Annif-avust. (talkoo) ihminen (talkoo)
Kattavuus 3,45 3,16 3,98 3,66
Merkityksellisyys 3,82 3,75 4,40 4,19
Laatu 3,46 3,29 4,07 3,81
Poistettuja asiasanoja (%) 11,58 4,60 4,46 5,0

Taulukko 3: Keskimääräiset arvosanat JYX-graduaineistolla kuvailulähteittäin.

 

Satakunnan kansan artikkelit Annif (PAV) ihminen (kirjastovirkailija)
Kattavuus 2,84 3,76
Merkityksellisyys 3,02 4,01
Laatu 2,70 3,74
Poistettuja asiasanoja (%) 24,58 9,40

Taulukko 4: Keskimääräiset arvosanat Satakunnan kansan aineistolla kuvailulähteittäin.

 

Tietokirjat Annif (PAV) Annif-avust. (talkoo) ihminen (talkoo) ihminen (Fennica)
Kattavuus 3,09 3,59 3,25 4,11
Merkityksellisyys 3,49 3,78 3,73 4,21
Laatu 3,02 3,56 3,27 3,91
Poistettuja asiasanoja (%) 13,57 12,58 10,49 9,53

Taulukko 5: Keskimääräiset arvosanat tietokirja-aineistolla kuvailulähteittäin.

 

KiVePa-2017 työpajan dokumentit Annif (PAV) ihminen (talkoo) ihminen (Fennica)
Kattavuus 2,55 3,32 3,82
Merkityksellisyys 2,87 3,82 4,18
Laatu 2,33 3,31 3,73
Poistettuja asiasanoja (%) 26,76 10,66 6,42

Taulukko 6: Keskimääräiset arvosanat vuoden 2017 työpajan aineistolla kuvailulähteittäin.

Annifin eri algoritmien väliset erot

Annif käyttää useita eri algoritmeja, joista tässä yhteydessä mukana olivat fastText, TFIDF, Maui sekä näitä kolmea algoritmia yhdistelevä PAV-ensemble. Parhaimmat arviot sai viimeksi mainittu PAV-ensemble. Poistettujen asiasanojen määrässä kyseenalaisen ykköspaikan saa TFIDF: yli kolmannes sen ehdottamista asiasanoista poistettiin. (Taulukko 7.)

Annif (PAV) Annif (fastText) Annif (TFIDF) Annif (Maui)
Kattavuus 2,92 2,41 2,14 2,63
Merkityksellisyys 3,22 2,75 2,47 2,80
Laatu 2,80 2,37 2,06 2,49
Poistettuja asiasanoja (%) 21,07 25,23 34,33 26,81

Taulukko 7: Keskimääräiset arvosanat koko aineistolla algoritmeittain.

Erottuuko ihminen algoritmeista?

Työpajan hengessä palkitsimme myös osallistujan, joka teki suurimman eron ihmisten ja Annifin tuottamien kuvailujen välille. Ero laskettiin vertaamalla keskimääräistä arvosanojen (laatu, kattavuus ja merkityksellisyys) erotusta Annifin PAV-ensemblen ja ihmisten tuottamien kuvailujen välillä. Mukana oli koko työpajassa käytetty aineisto.

Kuvassa 2 näkyy ihmisten ja PAV-algoritmin tuottamien kokonaisarvosanojen erotus osallistujittain. Keskimäärin ihmiset ovat saaneet kuvailuistaan 0,7 arvosanayksikköä parempia arvosanoja kuin Annifin PAV-ensemble. Oheisessa kuvassa näkyy myös osallistujittain, millainen ero Annifin ja ihmisten tuottamien kuvailujen välille muodostui sekä kuinka monta dokumenttia arvioijat kävivät läpi. Aineistoon otettiin mukaan tapaukset, joissa vähintään yksi dokumentin kuvailu oli arvosteltu. Näitä oli siis keskimäärin 6 kappaletta / osallistuja). Palkinnon sai lopulta arvioija numero 4, koska suurimpaan erotukseen yltänyt arvioija numero 3 oli poistunut työpajasta kesken arvioituaan vain kaksi dokumenttia. Näissä dokumenteissa Annifin tuottamat kuvailut olivat poikkeuksellisen huonoja, joten ero ihmisten tuottamiin kuvailuihin muodostui valtavaksi.

Kuva 2: Annifin ja ihmisten tuottamien kuvailujen erot arvioijittain.

Esimerkkejä kuvailuista ja arvioista

Työpajassa esittelimme myös muutaman esimerkin eri dokumenttien kuvailuista ja niiden saamista keskimääräisistä laatuarvosanoista (keskiarvo kolmesta laatumittareista). JYX-graduaineistolla (kuva 3) Annifin tuottamat kuvailut vaikuttavat olevan suppeampia kuin ihmisten itsenäisesti tai Annif-avusteisesti tekemät. Suppein ihmisen Annif-avusteisesti tekemä kuvailu JYX-aineistosta käyttää neljää asiasanaa ja on päätynyt samaan pistemäärään parhaimman algoritmin kanssa. Annifin asiasanoissa näkyy myös enemmän toisteisuutta (TFIDF:n asiasanoista ¾ sisältää sanan organisaatio). Myös tieto- ja viestintätekniikka puuttui TFIDF:n ja fastTextin ehdotuksista, jotka ovatkin saaneet alhaisimmat laatupisteet. Annif on kuitenkin suoriutunut graduaineistolla keskimäärin hyvin.

Kuva 3: Esimerkki graduaineistosta.

Kuvassa 4 olevan Veljeni, supersankari -kirjan kuvailussa Annif on ehdottanut asiasanaksi muun muassa dinosaurusta. Niistä kyllä puhutaan kirjassa, mutta ihmiskuvailija ei käyttäisi tuota sanaa kirjan yhteydessä. Kirjan aiheena on kertojan pikkuveli, jolla on Downin oireyhtymä. Tämä mainitaan teoksessa vain ohimennen, sen sijaan kirjassa keskitytään kuvaamaan veljen elämäniloa ja kiinnostuksen kohteita kuten dinosauruksia ja supersankareita. Kaikki ihmiskuvailijat ovat nostaneet Downin oireyhtymän kirjan keskeiseksi aiheeksi, mutta algoritmeilta tämä vivahde on jäänyt täysin huomaamatta. Algoritmien kuvailut tästä kirjasta arvioitiinkin erittäin huonoiksi ja ihmisten tuottamat kuvailut taas erinomaisiksi.

Kuva 4: Esimerkki tietokirja-aineistosta.

Työpajan anti ja Annifin tulevaisuus

Automaattisen kuvailun taso verrattuna ihmisen tekemään kuvailuun vaikuttaa parantuneen viime työpajasta, mutta ihmisen tekemät kuvailut saivat kuitenkin paremmat arviot silloin, kun arvioinnin kohteena oli kuvailun laatu. Aineiston tyypillä on huomattavan suuri Annifin algoritmien suorituskykyyn.

Parhaimmat arvosanat Annifin sisällönkuvailut saivat tässä kokeessa opinnäytetyö- ja tietokirja-aineistoissa. Kaikkein parhaimpiin tuloksiin päästään ensemble-mallilla eli eri algoritmien yhdistelmällä. Tämä on jo huomioitu Annifin kehityksessä; uusimmassa Annifin versiossa on mukana neuroverkkoihin perustuva ensemble-malli. Alustavien kokeilujen perusteella se saattaa tuottaa vieläkin parempia tuloksia kuin työpajassa käytetty PAV-ensemble. Hyviin tuloksiin päästään puoliautomaattisella kuvailulla, jossa ihminen on tarkistanut ja muokannut Annifin antamia ehdotuksia.

Aiemmin Annifia on arvioitu lähinnä numeerisesti saantia ja tarkkuutta vastaavien lukujen suhteen, joten työpajassa annetut arviot täydentävät käsitystä Annifin suorituskyvyn kehityksestä ja sen algoritmien toimivuudesta. Nyt saatuja tuloksia voidaan hyödyntää myös Annifin kehittämisessä, muun muassa opettamalla sille, millainen kuvailu on määritelty hyväksi ja millaisia asiasanoja on ehdotettu poistettavaksi. Myös vapaassa kentässä annettua palautetta voidaan vielä laajemmin hyödyntää kuvailujen laadukkuuden arvioinnissa.

Kuvailun laadukkuutta arvioitaessa tulee pitää mielessä aiheeseen sisältyvä subjektiivisuus. Sisällönkuvailut eroavat toisistaan paljon: keskimääräinen sisällönkuvailijoiden saman mielisyys on useissa tutkimuksissa ollut noin 30–50 prosentin luokkaa; vuoden 2017 työpajassa se oli 33 prosenttia. Samakin kuvailija saattaa kuvailla saman teoksen eri tavalla eri kerroilla. Myös tässä tapauksessa kuvailuille annettujen arvosanojen keskihajonta on melko reipasta, eli kuvailut kyllä jakoivat mielipiteitä.

Työpajan osallistujilta saadussa palautteessa toistui kaksi pääteemaa. Työpajan järjestelyihin oltiin yleisesti tyytyväisiä ja aihe koettiin mielenkiintoiseksi. Toisaalta työpajatyöskentelylle varattua aikaa pidettiin liian lyhyenä, mikä toi kiireen tuntua tekemisiin. Kuvailujen arviointiin olisi toivottu enemmän aikaa, jotta sen olisi voinut tehdä laadukkaammin ja huolellisemmin. Samankaltaista palautetta annettiin myös vuoden 2017 työpajasta. Palaute huomioidaan – totta kai – seuraavan työpajan järjestelyissä.

Kiitämme lämpimästi työpajaan osallistuneita!

Lähteet

Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2017). Bag of tricks for efficient text classification. In M. Lapata, P. Blunsom, & A. Koller (Eds.), Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL), Volume 2, short papers (pp. 427–431). Stroudsburg, PA: ACL. Noudettu 6.11.2019 http://aclweb.org/anthology/E17-2068.

Medelyan, O. (2009). Human-competitive automatic topic indexing. Doctoral thesis, University of Waikato, Hamilton, New Zealand. Noudettu 6.11.2019 https://hdl.handle.net/10289/3513.  

Suominen, O. (2019). Annif: DIY automated subject indexing using multiple algorithms. LIBER Quarterly, 29(1), 1–25. DOI: http://doi.org/10.18352/lq.10285

www.annif.org

https://github.com/NatLibFi/Annif

Kirjoittajien yhteystiedot

Mona Lehtinen, tietoasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
mona.lehtinen [at] helsinki.fi

Juho Inkinen, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
juho.inkinen [at] helsinki.fi

Osma Suominen, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
osma.suominen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Theme by Anders Norén