Ontologioiden siltaamisesta, peilaamisesta, ripustamisesta, mäppäämisestä ja linkittämisestä

Matias Frosterus
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe2014052225982

 

Linkitetyn datan ja semanttisen webin keskeinen lupaus on, että tiedon suljetuista siiloista päästään eroon, jolloin samalla haulla päästään käsiksi useisiin tietovarantoihin. Keskeinen komponentti tämän lupauksen lunastuksessa on ontologia, joka määrittelee aineistojen kuvailuun käytettävien käsitteiden väliset suhteet koneluettavalla tavalla. Jotta eri ontologioilla kuvaillut aineistot saadaan harmonisoitua, pitää ontologiat sillata toisiinsa, eli eri ontologioiden käsitteiden väliset suhteet on eksplikoitava.

Lyhyesti Ontologioista

Semanttisen webin tutkimus kasvoi tekoälyn tutkimuksesta ja sen keskeinen lupaus onkin, että kone saataisiin ymmärtämään tarjoilemaansa dataa ja tällöin päästäisiin tehokkaampaan automaatioon ja parempiin hakutuloksiin. Käytännössä tämä tarkoittaa, että asioiden väliset yhteydet eksplikoidaan ja mahdollistetaan päättely niiden avulla. Viime vuosina semanttisen webin ikään kuin nimenvaihdos linkitettyyn dataan alleviivaa juuri tätä: avain on linkeissä.

Ontologiat pyrkivät mallintamaan käsitteellisiä luokkia ja luokkien sekä näiden ilmentymien ominaisuuksia ja suhteita toisiinsa. Käsitteet voivat samalla toimia myös luokkina, joista voidaan luoda ilmentymiä ja luokkien suhteita hyödyntäen päätellä, mitkä ominaisuudet periytyvät käsitehierarkian mukana ilmentymille. Toisin sanoen suhteisiin sisällytetään tieto siitä, miten niitä voidaan käyttää koneellisessa päättelyssä. Yksinkertainen esimerkki on haun laajennus, joka voidaan määritellä toimimaan alaluokkasuhteiden mukaan, jolloin esimerkiksi haku ‘linnut’ tuottaa tulokseksi myös dokumentit, jotka on annotoitu käsitteellä ‘kotkat’, koska kotkat-käsitteellä on yläluokkasuhde lintuihin.

Ontologioihin voidaan siis sisällyttää koneymmärrettävää tietoa jonkin aihealueen käsitteiden välisistä suhteista. Siltaamalla kaksi eri ontologiaa toisiinsa määritellään samalla niillä kuvailtujen aineistojen suhteita toisiinsa. Siltaamisella siis ymmärretään tässä sitä, että ontologioiden väliset suhteet eksplikoidaan. Tällöin mahdollistetaan eri ontologioilla annotoitujen aineistojen yhteiskäyttö ilman, että itse aineistot tarvitsisi suoraan linkittää toisiinsa.

 

Siltaamisesta

Rakkaalla lapsella on monta nimeä ja siltaamisesta käytetään monia eri nimityksiä kuten peilaaminen, ripustaminen, mäppääminen tai ihan vain linkittäminen. Hienoisia vivahde-eroja eri nimityksillä toki on – esimerkiksi ripustaminen herättää mielikuvan ripustettavan ontologian alisteisuudesta ontologialle, johon sitä ollaan ripustamassa, eli että ripustettavaa ontologiaa käytetään täydentämään yleisempää ontologiaa. Käytännössä eri nimityksiä käytetään kuitenkin iloisesti ristiin, eikä kovin pitkälle vietyjä johtopäätöksiä linkittämisen luonteesta kannata vetää pelkän nimityksen perusteella.

Mistä sitten käytännössä on kyse? Aalto-yliopiston ja Helsingin yliopiston FinnONTO projektissa (http://www.seco.tkk.fi/projects/finnonto/) ontologisoitiin joukko käytössä olleita tesauruksia. Sama termi voi eri aloilla tarkoittaa eri asioita, mutta pureutumalla termiin syvemmin ja löytämällä sen takaa käsitteen ja merkityksen voidaan paljon helpommin muodostaa yksiselitteisiä suhteita käsitteiden välille. YSA ontologisoitiin YSOksi ja samalla sen hierarkia täydennettiin niin, että kaikilla käsitteillä on ylä-alaluokkapolku ylimpiin kantaluokkiin. Luotua ylärakennetta haluttiin hyödyntää myös erikoisalojen sanastojen ontologisoinnissa ja YSOn yleisyyden vuoksi se valittiin yläontologiaksi, johon erikoisalojen ontologiat ripustettiin.

Lopullinen visio käsittää ontologiapilven, jossa ontologiat on sillattu toisiinsa yläontologian kautta. Tämän pilven suhteiden avulla voitaisiin sitten hakea useista aineistoista samalla haulla ontologisoitujen sisällönkuvailun käsitteistöjen kautta. Rajoittamalla linkitykset vain erikoisalojen ontologioiden ja yleisontologian välille mahdollistetaan käytännössä erikoisontologioiden ylläpito, kun niiden kehittäjien tarvitsee huolehtia vain yhdestä joukosta linkkejä. Tämä on erityisen tärkeää, kun kehitysvastuu halutaan pitää kunkin erikoisalan asiantuntijaorganisaatiossa, joiden kehitystyöhön käytettävissä olevat resurssit vaihtelevat.

 

Siltaus käytännön tasolla

Siltaaminen itsessään siis tarkoittaa suhteiden eksplikointia kahden ontologian välillä, mikä voidaan tehdä raskaammin tai kevyemmin. Perusteellisempi tapa on, että sillattavan ontologian kaikki käsitteet tutkitaan, niille suoritetaan täydellinen käsiteanalyysi ja niitä käsitellään samalla tavalla kuin ontologian omiakin käsitteitä, eli kaikki suhteet kirjataan ontologioiden välille samalla tarkkuudella kuin ontologioiden sisälläkin. Tämä on kuitenkin erittäin työlästä ja vaatii suuren panostuksen, toki riippuen ontologioiden koosta ja niiden sisältämien suhdetyyppien määrästä. Tyypillisempi tapa on koettaa löytää kahden ontologian yhtymäkohdat ja merkitä nämä jollakin tapaa samoiksi tai toisiaan vastaaviksi. Tällöin, jos ontologioiden hierarkiat ovat täydelliset, saadaan muodostettua vähintäänkin melko hyvä pohja ontologioiden yhteiskäytölle.

Yksinkertaisin tapa lähteä etsimään mahdollisia vastaavuuksia on koneellisesti merkkijonoja vertaamalla. Tässä apua voi saada käyttämällä ontologian rakennetta hyödyksi eli jos samalla termillä nimitettyjä käsitteitä löytyy molemmista ontologioista ja näiden välillä on toisiaan vastaavat suhdeketjut, voidaan olla melko varmoja, että kyse on samasta käsitteestä. Tyypillisesti kuitenkin käsityön osuus on merkittävä, jos halutaan, että siltaus on luotettava ja paikkansapitävä. Tosin ontologiat siltaamalla lupaus on, että myös niillä annotoidut aineistot yhdistyvät, eli saavutettu hyöty voi olla huikea.

Vastaavuuden määrittämiseen on siihenkin useita suhteita. Alla on esitelty neljä jotakuinkin “vaarallisuuden” mukaan järjestyksessä. Siltaaminen kun kuitenkin on semantiikaltaan kaksisuuntaista, eli siltaamalla oman ontologiasi toiseen, tulet samalla väittäneeksi asioita myös tästä toisesta ontologiasta.

Seuraavassa on esitelty neljä yleistä vastaavuussuhdetta OWL-ontologiakielestä (http://www.w3.org/TR/owl2-overview/) sekä SKOS-standardista (http://www.w3.org/2004/02/skos/) asiasanastojen, tesaurusten ja kevyiden ontologioiden esittämiseen.

  • owl:sameAs on voimakkain siltaussuhde ja tarkoittaa, että kaikki mitä ensimmäisestä resurssista sanotaan pätee myös toiselle
  • owl:equivalentClass määrittää molempien luokkien ilmentymäjoukot samoiksi (ja käytännössä määrittää luokat toistensa alaluokiksi koneellisen päättelyn suhteen), eli kaikki alaluokkasuhteen mukaan periytyvät ominaisuudet ovat voimassa molemmille
  • skos:exactMatch määritellään tiedonhaun kannalta ja sinällään sanoo vain, että jos käytät käsitettä tiedonhaussa, niin suhteen toisessa päässä oleva käsite on yhtä validi, eli käsitteiden merkitykset ovat samat
  • skos:closeMatch on vastaava kuin skos:exactMatch, mutta löyhempi, eli toisen käsitteen sanotaan olevan validi tiedonhaullinen vastine ensimmäiselle joissain tapauksissa

Keskeinen vaara, etenkin sillattaessa monia ontologioita toisiinsa, on mahdollisten ristikkäisyyksien luominen. Eli jos ontologian A käsitteet A1 ja A2 merkitään molemmat vahvalla vastaavuussuhteella ontologian B käsitteeseen B1 tullaan samalla oikeastaan todenneeksi, että A1 ja A2 ovat vahvasti samoja keskenään. Kahden ontologian tapauksessa nämä on usein helppo todeta, mutta usean ontologian siltaamisessa virheiden mahdollisuus on huomattavasti suurempi.

Semanttinen web lupaa koneluettavuutta, mutta usein päättelykoneen käyttäminen vaatii tarkkaa harkintaa. Esimerkiksi avoimen linkitetyn datan pilvi, joka on valtava yhteenlinkittyneiden tietovarantojen kokoelma, ei ole hedelmällinen kohde konepäättelylle, vaikka sen periaatteessa mahdollistaakin. Tilanne saattaa olla joiltain osin jo korjautunut, mutta ainakin vielä jokunen aika sitten oli pilven linkkien perusteella mahdollista löytää yläkäsitteitä owl:Thingille, joka siis on looginen ⊤ eli kaikki olemassaoleva. Näiden yläkäsitteiden joukossa oli esimerkiksi Itävallan jalkaväki, joka tuntuu yllättävältä kaiken olevan yläluokkana.

 

Kirjoittajan yhteystiedot

Matias Frosterus, tietojärjestelmäasiantuntija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: matias.frosterus [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.