Ontologiat kirjastoihin – miten, miksi, milloin

Laila Heinemann
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe200912102412

Ontologioihin suhtaudutaan edelleen suurella tunteella – niitä sekä halutaan käyttöön että vastustetaan hyvin intohimoisesti. Kuitenkin niistä on useimmiten puhuttu vain periaatteellisella tasolla tai teemaportaalien esimerkkien valossa, ei kirjastojen käytännön työn näkökulmasta.

Käytännössä edessämme on klassinen kana-muna -ongelma, jonka pääargumentit ovat:

  • Ontologioita ei kannata ottaa käyttöön, koska hakujärjestelmämme eivät tue niitä
  • Ontologisia hakujärjestelmiä ei kannata kehittää, koska aineistoja ei ole kuvailtu ontologisesti

Kansalliskirjasto järjesti lokakuussa koko kirjastoverkolle suunnatun seminaarin, jonka tarkoituksena oli valottaa ontologioiden käyttöönoton käytännön merkitystä, edellytyksiä ja reunaehtoja nimenomaan kirjastojen kannalta.

Aihe herätti todella paljon kiinnostusta, paikan päälle oli saapunut yli 250 henkeä ja lisäksi 120 seurasi tilaisuutta verkon välityksellä eri puolilla Suomea.

Aamupäivän aikana selvitettiin reunaehtoja, lounaan jälkeen käytännön kehitystyötä ja päivän päätti paneelikeskustelu, jossa vastakkain olivat ”uskovaiset” ja ”epäilijät”.

Sisällönkuvailijan ja tiedonhakijan maailmat – kaksi eri planeettaa?

Päivän aluksi visiopuheenvuoron piti Jaana Kekäläinen Tampereen yliopiston Informaatiotutkimuksen ja interaktiivisen median laitokselta otsikolla Ontologioista ja tiedonhausta. Hän otti aiheeseen kolme näkökulmaa: tiedon organisointi, palvelujen tuottajat ja tiedonhakijat.

Tiedon organisoinnissa keskeistä ovat käsitteet, luonnollinen kieli ja aboutness -problematiikka. Käsitemallit ja (käyttäjien suosima) luonnollinen kieli ovat hyvin erityyppisiä, mutta tallennuksen ja haun yhdenmukaistamiseen tarvitaan käsitemalleja. Ontologioiden kohdalla ongelma on kolmitahoinen: maailman malli vs erityisalan kuvaus vs henkilökohtainen käsitteistö.

Kaikilla palveluja tuottavilla muistiorganisaatioilla on käytännössä sama ongelma: kuvailla vai ei. Kannattaako ontologinen kuvailu ylipäätään? Keskeisiä kysymyksiä ovat: kuinka paljon aikaa ontologinen kuvailu vie verrattuna perinteiseen, kuinka vaikeaa se on ja miten ontologia evaluoidaan.

Lisäksi on tiedostettava kenelle kuvailua tehdään ja mitä voidaan ja mitä kannattaa kuvailla? Web 2.0-maailmassa voidaan kysyä myös kuka kuvailee. Ontologioiden rinnalla toinen uusi ilmiö ovat folksonomiat, eli käyttäjäyhteisön itse luomat käsitteistöt.

Kekäläisen mukaan loppukäyttäjän asennetta luettelointiin ja aineistojen kuvailuun voi kuitenkin usein kuvata ilmaisulla E.V.V.K. eli ”ei vois vähempää kiinnostaa”. Käyttäjälle tiedonhaku saattaa olla vain välttämätön paha, ja suurella työllä rakennettuja järjestelmiä käytetään vähimmän vaivan periaatteella.

Viime kädessä tarve (motivaatio?), aika ja raha ratkaisevat sekä tiedon tallentajien että hakijoiden kiinnostuksen hakuvälineisiin.

Kirjastojärjestelmät ja kuvailusäännöt – kolmas maailma

Järjestelmien näkökulman ontologioihin tarjosi Ere Maijala Kansalliskirjastosta.

Käytännössä kirjastojärjestelmien ongelmat kiteytyvät seuraaviin kysymyksiin: miten tunniste saadaan talteen bibliografiseen dataan (MARC ei tue sitä kunnolla), miten hakujärjestelmä saadaan ymmärtämään ontologia ja miten käyttöliittymä saadaan hyödyntämään sen tarjoamia uusia mahdollisuuksia.

Toisaalta vanha aineisto, jota kirjastoissa on valtavat massat, on myös suuri ongelma. Vanha materiaali on hyvin heterogeenistä ja vain osa siitä voidaan ontologisoida automaattisesti.

Parhaillaan käynnissä olevassa muistiorganisaatioiden yhteisessä asiakasliittymähankkeessa on vaatimusmäärittelyssä huomioitu myös ontologiat. Se edellyttää kuitenkin, että taustajärjestelmät on ontologisoitu, käsityö ei ole mahdollista. Haasteena on se, että metadataa käytetään tuhansista lähteistä, ja mukana on myös kansainvälisiä aineistoja. Palvelut on suunniteltava niin, että ne tukevat käyttäjää aiheuttamatta sotkua.

Marjatta Autio-Tuuli Kansalliskirjastosta valotti asiaa puolestaan luettelointisääntöjen ja -käytäntöjen näkökulmasta. Luetteloinnin ohjeistuksessa ollaan siirtymässä RDA (Resource Description and Access) -malliin, joka korostaa nimenomaan aineistojen löytyvyyttä. Se sisältää periaatepohjaiset ohjeet kaikenlaisten aineistojen ja sisältöjen kuvailuun. Se on suunniteltu digitaaliseen ympäristöön ja yhteensopivaksi niin kirjastojen kuin myös museoiden, arkistojen ja julkaisualan standardien kanssa. Se tukee myös FRBR ja FRAD -käsitemalleja.

Semanttisen webin kannalta RDA ja FRBR tarjoavat uusia mahdollisuuksia nykyisiin luettelointikäytäntöihin verrattuna. Tietokoneet pystyvät hyödyntämään ja käsittelemään tietoa paremmin – linkitetyt ”kuvailutietojen ryhmät”, jotka heijastavat entitetti-relaatio-mallia, saattavat jopa korvata Marc-tietueet tulevaisuudessa. Kuvailutietojen tuottaminen, poimiminen ja liittäminen uusiin yhteyksiin on vaivattomampaa ja taloudellista yli järjestelmä- ja yhteisörajojen. Käyttäjä voi paremmin omista lähtökohdistaan löytää tietoa/aineistoja, kun tarjotaan etsittyyn aineistoon liittyviä lisätietoja.

Menee kuitenkin vielä aikaa ennen kun RDA on lopullisesti valmis ja yleisesti käytössä.

YSO – maailman malli?

Katri Seppälä ja Tuomas Palonen FinnONTO-hankkeen tutkimusryhmästä kertoivat iltapäivällä Yleisen suomalaisen asiasanaston kehitystyön tilanteesta. Kuilu YSOn ja YSAn ajantasaisuuden välillä on kurottu umpeen ja myös YSAn uudet termit on nyt kaikki saatu ontologisoitua. Englanninkielisten termien käännöstyö on loppusuoralla ja Allärsin ontologisointi ruotsinkieliseksi Allso-ontologiaksi on aloitettu.

Vellovaan YSO-keskusteluun Katri Seppälä vastasi listaamalla, mitä YSO ei ole: Se ei ole kaikenkattava maailmankuva, vaan käsitevalikoima on muotoutunut asiasanoituksen tarpeiden mukaan. Se ei myöskään ole hierarkialtaan täydellinen. Hierarkia on tehty karkealla tasolla ja sitä voidaan korjata ja täydentää yksilöityjen tarpeiden mukaan. Se ei liioin ole ainoa oikea ratkaisu. Vaikka asioita voidaan tarkastella monesta näkökulmasta, voidaan silti sopia yhteisesti käytettävästä mallista. Esimerkiksi yhdistelmäontologioissa esiin tuleva erikoisalojen näkökulma käsitteisiin voi olla erilainen kuin YSOssa.

Suurin hyöty ontologiatyöstä tällä hetkellä on, että se vähentää eri aloilla tehtävän työn päällekkäisyyttä, kun erikoisalojen ontologioita kehitetään entistä tiiviimmin suhteessa YSOon ja ne on ONKI-palvelussa kaikki linkitetty toisiinsa (yhdistelmäontologia KOKO). Myös eri kieliversiot tulevat valmistuessaan tarjoamaan arvokkaan apuvälineen, kun yhdellä haulla voidaan saada kaikki relevantit viitteet riippumatta siitä, millä kielellä aineistot on kuvailtu.

Tuomas Palonen kertoi käännöstyön ongelmista. Käännettäessä käsitteitä kielestä toiseen törmätään ei vain lingvistisiin vaan myös kulttuurisiin ongelmiin. Tarkan vastineen löytämiseen toisesta kielestä voidaan käyttää erilaisia apuvälineitä, mutta entäpä kun koko käsite on kulttuurisidonnainen? Esimerkiksi sosiaalialan termit kuten erikoisnuorisotyö, lähikasvattajat jne. samoin kuin ammatit ja oppiarvot (hallintopäälliköt, kunnanlääkärit, kandidaatit, leipurimestarit) liittyvät kiinteästi paikallisiin yhteiskuntarakenteisiin. Suomalaisen kulttuurin spesifeille käsitteille, kuten esimerkiksi kalterijääkärit, korpelalaisuus tai heimoaate on jo täysin mahdotonta löytää vastinetta toisista kielistä. On tehtävä valintoja, kuinka pitkälle käsitettä yritetään kääntää ja missä vaiheessa se on vain jätettävä kääntämättä.

Kuten asiasanastot, myös ontologiat edellyttävät jatkuvaa kehitys- ja ylläpitotyötä ollakseen toimivia. Ontologioiden ylläpito on mahdollista toteuttaa hyvin organisoidulla yhteistyöllä. Tähän tarvitaan kuitenkin virallinen vastuutaho ja resursointi, jotka on ratkaistava FinnONTO -hankkeen päättyessä.

Se pyörii sittenkin – käytännön sovelluksia

Kaisa Hypén Turusta esitteli kirjastojen ontologiasovellusta Kirjasampoa, joka on kehitetty Turun ja Vaasan kaupunginkirjastojen, kirjastot.fi:n, BTJn, Opetusministeriön ja FinnONTO-hankkeen yhteistyönä. Se on kaunokirjallisuuden verkkopalvelu, joka perustuu lukemisen yhteisöllisyydelle – tietoa tuottavat sekä kirjastoammattilaiset että kirjallisuuden lukijat. Se on myös tiedonhaun apuneuvo ja kirjallisuuteen liittyvä inspiraation ja innoituksen lähde. Siinä sovelletaan semanttisen webin tekniikoita (ontologiat, annotointityökalu SAHA).

Aineistot on kuvailtu kaunokirjallisuuden Kaunokki-sanaston avulla. Tavalliseen asiasanastoon verrattuna se on jo sinänsä haasteellinen johtuen kaunokirjallisuuden luonteesta – teos on omalakisensa taideluomus, jossa suuri merkitys on kielen eri tasoilla (metaforisuus, konnotaatiot, vertaukset). Se antaa aina mahdollisuuden monitulkintaisuuteen. Kaunokirjallisuuden sisällönkuvailussa keskeistä on nimenomaan jo avauspuheenvuorossakin vilkasta keskustelua herättänyt käsite aboutness, jota ei edes pysty kunnolla suomeksi kääntämään. Kaunokissa on käytössä myös fasetit: Genre/laji/tyyli, Teema, Henkilö/toimija, Paikka/miljöö, Aika.

Kaunokki on ontologisoitu osana Kirjasampo -projektia TKK:n ohjauksessa. Kaunokki-ontologia on yhdistelmäontologia, jossa ovat mukana Kaunokin ja YSA:n termit ontologisoituna. Kaunokin fasetit on myös huomioitu ontologiassa.

Aineiston kuvailu Kirjasampoon on tehty FinnONTO-hankkeessa kehitetyn SAHA-annotaatioeditorin avulla. Lähtökohtana ovat olleet kaunokirjallisuuden erityispiirteet. Erityistä huomiota on kiinnitetty sisällönkuvailuun, osakohteiden tallennukseen ja teosten välisten yhteyksien esilletuomiseen (intertekstuaalisuus). Kirjasampo-SAHA soveltaa funktionaalisen luetteloinnin ominaisuuksia: Kukin teos on yhtenä abstraktina teoksena ja fyysiset ”manifestaatiot” kytketään abstraktiin. Mukana on myös kirjailijoihin liittyvää tietoa, joka taas tarjoaa kehittyneemmät ja monipuolisemmat hakuehdot.

Kokemuksen perusteella sisällönkuvailutyön perusteet eivät muutu, tiedontallennuksen ja -esittämisen välineet kyllä. Kaisa Hypén kiteytti eron tanskalaisen Litteratursiden.dk:n projektipäällikön Lise Vandborgin sanoin ”Content no longer king, context is!

Toisenlaisen näkökulman ontologioiden tuomiin mahdollisuuksiin tarjosi Minna Tarkka m-cultista esitellessään pian valmistumassa olevaa mediaontologiaa, jonka kohteena ovat mediakulttuuri ja mediataide.

Kun kirjastomaailman mahdollisuus on pitkälle kehitetyt sanastot ja taakka valtavat vanhat tietovarannot, mediakulttuurin maailmassa tilanne on täysin päinvastainen: minkäänlaisia sanastoja ei ole ollut olemassa, mutta toisaalta aineistoakaan ei vielä ole mielettömiä määriä joten kuvailussa voidaan jo alkuvaiheessa ottaa käyttöön uusimmat työkalut. Erityisiä haasteita tuovat monialainen toimiala ja yhteistoiminnallinen tuotantomalli, muuttuva teknologia-alusta ja jatkuvasti uudistuvat lajityypit.

Mediaontologiassa on n. 3000 käsitettä kattaen mediakulttuurin genret ja taidelajit. Käsitteet on kytketty YSOon. Kehitystyötä on tehty aineistolähtöisesti vuodesta 2003 alkaen, aineistoina ovat olleet mm. verkkojulkaisut ja toimijahaastattelut. Tavoitteena on ollut tehdä median ja nykykulttuurin ilmiöt näkyväksi kansallisessa tietoinfrastruktuurissa.

Soveltamiskohteena ovat olleet Drupal-pohjaiset video- ja tietopalvelut, joissa taksonomiat luovat tagiavaruuksia eri sisältötyypeille. Kokemus on osoittanut, että ontologiatyö on tuottanut hyviä käytäntöjä myös tagitykseen.

Taivaallinen ja maallinen näkökulma

Päivän päätti paneelikeskustelu, jossa pääpuhujina olivat ”epäuskoisten” edustajana informaatiotutkimuksen lehtori Vesa Suominen Oulun yliopistosta ja ”uskovaisten” edustajana FinnONTO-tutkimusryhmän johtaja Eero Hyvönen. Päivän muut puhujat olivat mukana kommentoimassa ja vastaamassa lisäkysymyksiin kukin omalta alueeltaan.

Vesa Suominen aloittikin keskustelun taivaallisista sfääreistä esittämällä kysymyksen, mihin Jumala ja enkelit sijoittuvat Yleisessä suomalaisessa ontologiassa. Hänen näkökulmansa oli ennen muuta filosofinen ja lopuksi hän peräänkuulutti ”blissiläistä realismia”. Eero Hyvösen puolustuspuheenvuoro pysyi maallisemmalla tasolla ja hän esitteli runsaasti esimerkkejä erilaisista käytännön sovelluksista.

Väittely ei kuitenkaan yltynyt kovin sotaisaksi – molemmat puhujat totesivat, etteivät he välttämättä edusta vastakkaisia näkökulmia, ainoastaan erilaisia. Muut panelistit toivat keskusteluun mukaan kirjastomaailman arkirealismin.

Kaiken kaikkiaan päivän aikana saatiin hyvin monia eri näkökulmia kysymykseen miksi. Niiden pohjalta on toivottavasti tukevampaa jatkaa keskustelua konkreettisista kysymyksistä: miten ja milloin. Ontologioiden täysimittainen hyödyntäminen vaatii muutoksia sekä työprosesseihin että järjestelmiin, eikä kumpikaan tapahdu yhdessä yössä. Eräs osallistuja kiteytti tuntojaan palautelomakkeella sanoen ”en silti menettänyt uskoani – vai pitäisikö seminaarin kokeneena sanoa lapsenuskoani 🙂 – onnistuneisiin kytköksiin”. Epäilevämpi kuulija puolestaan pohdiskeli, että ”ontologian käyttöön sisältyy mahdollisuuksia, jotka on mahdollista myös hukata”.

Keskustelua on siis syytä jatkaa edelleen eri foorumeilla, jotta aikanaan tehtävät päätökset ovat realistisesti resursoituja. Tiedon kuvailijalle ontologiat tuovat lisää työtä, tai ainakin muuttavat työprosessia – siihen puolestaan tarvitaan uusia työvälineitä, niin teknisiä kuin normatiivisiakin. Tiedon hakija taas ei välttämättä huomaa mitään eroa – eikä hänen periaatteessa tarvitsekaan – koska häntä ei kiinnosta muuta kuin hakulaatikko ja tuloslistaus. Avainkysymykseksi jää onko ontologioiden avulla mahdollista parantaa jälkimmäisen laatua siinä määrin, että se on panostuksen arvoista.

Lisätietoa

Paneelikeskustelu on kokonaisuudessaan taltioituna verkossa ja löytyy osoitteesta http://www.kansalliskirjasto.fi/kirjastoala/asiasanastot/ontologiaseminaari2009.html
Myös muiden päivän esitysten PowerPoint-kalvot löytyvät samasta paikasta.

Kansallinen ontologiapalvelu ONKI

Kirjasampo -hanke

Kirjoittajan yhteystiedot

Laila Heinemann, atk-erikoistutkija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: laila.heinemann (at) helsinki.fi

Theme by Anders Norén