Sisällönkuvailuontologiat tiedon jakamisen mekanismeina

Yleinen suomalainen ontologia YSO ja eräs yhdistetyn tiedon visio

Mikko Lappalainen
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe2014120552179

 

Informaatioalan ontologioiden lähtökohdista

Suljetuissa ympäristöissä toimivat tietämyspohjaiset järjestelmät rakentuvat usein laajan implisiittisen informaation varaan: asioista käytetään nimityksiä, joiden taustalla piilevät merkityssisällöt ovat vain tietyn rajatun joukon tiedossa. Informaatiotieteiden ontologiat syntyivät alun perin ratkomaan tätä siiloutuneen tiedon ongelmaa. Tiedon jakamisen mahdollistamiseksi haluttiin tehdä näkyväksi se, missä merkityksessä kukin käytti käsitteistöään. Tässä yhteydessä ontologioilla tarkoitetaan siis tietyn aihealueen (tai järjestelmän sisäisen) ”käsitteistön eksplisiittistä määrittelyä”.[1] Gruberin klassista ontologian määritelmää on sittemmin tarkennettu tiedon jakamisen ja koneluettavuuden aspekteja korostaen, ja yleisesti hyväksytty määritelmä voisikin suomeksi kuulua: ”ontologia on formaali, eksplisiittinen jaetun käsitteistön määrittely”.[2]

Yläontologiat

Termillä yläontologia (engl. upper ontology, upper-level ontology, top-level ontology, foundational ontology) puolestaan viitataan tämän käsitteistön hierarkkisen kokonaisuuden ylimpiin tasoihin. Tämä taso koostuu yleensä muutamasta laaja-alaisesta luokasta (class) tai käsitteestä (concept) ja niiden ominaisuuksia kuvaavista määritteistä, sekä koneluettavista loogisista säännöistä.[3] Yläontologioita on kehitetty varsinaisesta kuvailukäsitteistöstä erillisinä kokonaisuuksina, mutta ne voivat olla myös erottamaton osa laajaa kuvailuontologiaa.

Yläontologian tarkoituksena on tehdä näkyväksi valittujen tiedonalojen yleisimmät käsiteluokat ja täten mahdollistaa osaltaan semanttinen yhteentoimivuus eri tietoresurssien välillä. Suljetuissa ympäristöissä tämä taso on yleensä hiljaisen ja julkilausumattoman tiedon verhon peittämä. Voidaan esimerkiksi ajatella että sekä julkisten palveluiden että arkkitehtuurin asiasanastosta löytyy käsite uimahallit. Eri tiedonaloilla sama merkkijono voi kuitenkin tarkoittaa käsitteellisesti hyvin eri asioita: palveluiden näkökulmasta kansalaisille tarjottuja virkistystoimintoja ja arkkitehtuurin näkökulmasta tiettyyn käyttöön rakennettua rakennusta. Kun halutaan saada molemmat resurssit keskustelemaan keskenään, voidaan yläontologian avulla määrittää, mikä kunkin käsitteen sisällöllinen merkitys on. Yläontologia voisikin esimerkiksi kertoa, että julkisten palveluiden asiasanaston uimahallien yläkäsite on julkiset palvelut ja arkkitehtuurin puolestaan julkiset rakennukset ja täten käsitteet eivät vastaa toisiaan merkkijonoyhtäläisyydestä huolimatta.[4] Kyse onkin pohjimmiltaan tietyn sanastoresurssin käsitteiden ontologisen sitoumuksen (engl. ontological commitment)[5] ilmaisemisesta formaalissa muodossa niin, että se on ymmärrettävissä ja hyödynnettävissä myös koneellisesti.

Koska yläontologioiden kehittämisessä työskennellään yleisimpien ajateltavissa olevien ryhmittelyjen parissa, on niihin usein haettu innoitusta filosofisen ontologian, eli nk. yleisen metafysiikan perinteestä, jossa maailmaa ja eri tiedonaloja on kategorisoitu läpi historian.[6] Sisällöllisenä erona on kuitenkin se, että informaatiotieteen ontologiat eivät yleensä pyri luokittelemaan kaikkea olevaa tai maailmaa yleensä, vaan tietyn rajatun aihealueen yhteisten käsitteistöjen sisältöjä,[7] ja näin mahdollistamaan tietojen vaihdon eri järjestelmien välillä. Lisäksi näissä ontologioissa ei oteta kantaa siihen, onko luokiteltuja asioita ”todellisuudessa” olemassa; jos luokittelu on toimiva tiedonjakamisen kannalta, se täyttää tehtävänsä.

Toki jotkut tahot ovat kunnianhimoisuudessaan pyrkineet kuvaamaan koneluettavilla ontologioilla maailman perusolemusta, usein tavoitteena jonkinlaisen tekoälyn mahdollistaminen. Esimerkiksi Japanissa kehitetty YAMATO, Yet Another More Advanced Top-level Ontology pyrkii kehittäjiensä mukaan ”paljastamaan todellisuuden salaisuudet niin hienovaraisesti kuin mahdollista”. Myös mahdollinen kritiikki on ennakoitu:

Some might see YAMATO is too large and complex. I believe such a criticism does not apply to YAMATO which tries to reveal secrets of reality as fine as possible under the condition of maximization of its utility in practice. Many of the existing upper ontologies are too simple to explain the reality and to guide domain people to build their ontologies.[8]

Tunnettu on myös tapaus Cyc, jonka tavoitteena on ollut koota kattava koneluettava ”maalaisjärjen” ontologia ja tietokanta, jota voitaisiin hyödyntää erilaisissa tekoälyä tarvitsevissa yhteyksissä. 1980-luvulla alkaneessa projektissa on määritelty ihmistyönä yli miljoona käsitettä, väittämää ja loogista sääntöä. Cyciä on kritisoitu sen monimutkaisuudesta ja sen käytännön soveltamisen hankaluudesta.

Helpommin ymmärrettäviä ja monessa yhteydessä hyödynnettäviä yläontologioita on kuitenkin saatavilla vapaasti verkosta standardisoiduissa muodossa. Tunnetuimpia näistä ovat muiden muassa BFO (Basic Formal Ontology), jota on hyödynnetty erityisesti biolääketieteen piirissä, SUMO (Suggested Upper Merged Ontology), ja DOLCE, jota on käytetty esimerkiksi WordNetin ontologisoimiseen. Suomessa Yleisen suomalaisen asiasanasto YSAn pohjalta kehitetty Yleinen suomalainen ontologia YSO sisältää yläontologian, jonka ylimmät luokat on esitetty kuvassa 1.[9]

Kuva 1. YSOn ylärakenne

Kuva 1. YSOn ylärakenne

YSOn yläluokkajako perustuu WonderWeb-projektissa[10] alun perin kehitettyyn DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) yläontologiamalliin. DOLCEn tarkoituksena selventää olemassa olevien ontologioiden ja lingvististen resurssien piileviä olettamuksia ja paljastaa luonnollisen kielen ja ”arkipäiväisen” havaintomaailman implisiittiset ontologiset kategoriat. DOLCE ei siis näin ollen ota kantaa kategorisoitavien asioiden tai kategorioiden itsensä olemassaoloon filosofisessa mielessä.[11]  ONKI-projektin piirissä onkin katsottu DOLCEn olevan hyvä pohja YSOlle, joka on pohjimmiltaan ontologisoitu versio olemassa olevasta sanastosta (YSA).[12]

 

YSAsta YSOon: kohti linkittyviä ja uudelleenkäytettäviä sisällönkuvailuresursseja

YSOn yläontologiaa ei pidä nähdä maailman kategorisointina, vaan käytännön tarpeesta kummunneiden sanastotyökalujen käsitteiden yleisimpinä luokkina. YSO on ensisijaisesti sisältöjen kuvailun ja sitä kautta tiedonhaun työkalu.

YSOn ylähierarkian avulla voidaan esimerkiksi tehdä näkyväksi se, missä merkityksessä YSAn käsitteitä on kirjastojen bibliografisen aineiston viitetietokannoissa käytetty. Kun tiedetään, missä merkityksessä jokin käsite on esimerkiksi kansallisbibliografia Fennicassa ymmärretty, on Fennican aineistot helpompi linkittää muita kuvailusanastoja käyttäviin järjestelmiin, tai vaikkapa Wikipedian kaltaisiin tietoresursseihin. Suuri osa YSOa kehittävän ONKI-projektin sisältöasiantuntijoiden työstä meneekin YSAn implisiittisten merkitysten selvittämiseen ja niiden esiintuomiseen, sekä tulevan kehitys- ja ylläpitotyön ohjaamiseen urille, jossa se täyttää tuotantovaiheesta lähtien avoimen ja jaettavan tiedon vaatimukset. YSAn käsitteistö on myös nähty hyvänä pohjana yleiskäyttöiselle ontologialle, sillä sen käsitteenmuodostus pohjautuu hyvin laaja-alaisen aineiston pohjalta kummunneisiin sisällönkuvailutarpeisiin.

YSOn käsitehierarkia on ilmaistu semanttisen webin standardien mukaisesti, ja näin ollen se täyttää ontologian formaalisuuden vaatimuksen. YSO on julkaistu avoimena datana Finto-palvelun[13] kautta, mikä puolestaan mahdollistaa sen jakamisen ja uudelleenkäytön.

YSOa kehittävän ONKI-projektin ja sen edeltäjän FinnONTO-hankeen visiossa YSOn ylähierarkiaa voitaisiin käyttää yhtenäisen sanasto- tai ontologiapilven ”liimana”, jonka avulla eri muistiorganisaatioiden ja julkisen sektorin toimijoiden tietämysjärjestelmät saataisiin keskustelemaan keskenään. YSOn ylähierarkia olisi siis se tapa, jolla sanastojen ontologinen sitoumus tehtäisiin näkyväksi. Tämän vision toteutumiseksi vaaditaan kuitenkin tämänhetkisten prosessien laajahkoja uudistuksia ja toisaalta organisaatiorajat ylittävää yhteisymmärrystä tavoitteista ja niiden saavuttamiseen vaadittavista toimenpiteistä.

Tietoa hakevan kansalaisen kannalta erittäin järjestelmien yhteentoimivuus olisi tietenkin tavoiteltavaa. Nykytilanteessa tieto ei ole yhteismitallista välttämättä edes yhden organisaation eri osien sisällä, ja kansalaisen voi olla hyvin vaikea löytää tietoa jostain tietystä, eri tahojen vastuualueisiin kuuluvasta asiasta.


Viitteet

  1. Gruber 1993, s. 1-2
  2. Guarino et al 2009, s. 1-3.
  3. Ontologian ylimmille luokille määritellyt ominaisuudet periytyvät useimmissa tapauksissa kaikille luokkien alakäsitteille.
  4. Kuvailuontologioissa yläontologian käsitteet on yleensä erotettu varsinaisista kuvailukäsitteistä, eikä niitä ole tarkoitettu käytettäväksi kuvailuun.
  5. Gruber 1993, s. 2, Guarino 1994.
  6. Masolo 2003, s. 7-12.
  7. Smith 2003.
  8. Mizoguchi 2010, s. [2].
  9. YSOn ylärakenteesta tarkemmin, ks. Lappalainen 2014.
  10. http://wonderweb.man.ac.uk/dissemination.shtml
  11. Masolo et al 2003, s. 13.
  12. Lappalainen et al. 2014, s. 2-6.
  13. Finto.fi

 

Lähteet

  • Borgo, Stefano; Masolo, Claudio 2009: “Foundational Choices in DOLCE”, teoksessa Handbook on Ontologies, Second Edition.
  • Gruber,Tom 1993: “Toward Principles for the Design of Ontologies Used for Knowledge Sharing.”
  • Guarino, Nicola; Oberle, Daniel; Staab, Steffen 2009: “What is an Ontology?”, teoksessa Staab & Studer (ed.) Handbook on Ontologies, Second Edition.
  • Guarino, Nicola; Carrara, Massimiliano; Giaretta, Pierdaniele 1994: “Formalizing Ontological Commitments.” http://www.aaai.org/Papers/AAAI/1994/AAAI94-085.pdf
  • Lappalainen, Mikko 2014: “Yläontologiat ja Yleisen suomalaisen ontologian ylärakenne”. http://urn.fi/URN:ISBN:978-951-51-0347-5
  • Lappalainen, Mikko; Frosterus, Matias; Nykyri, Susanna 2014: “Reuse of library thesaurus data as ontologies for the public sector.” http://library.ifla.org/819/1/086-lappalainen-en.pdf
  • Masolo, Claudio et al 2003: “WonderWeb Deliverable D18: Ontology Library (final).” http://www.loa-cnr.it/Papers/D18.pdf
  • Mizoguchi, Riichiro 2010: “YAMATO: Yet Another More Advanced Top-level Ontology.” http://www.ei.sanken.osaka-u.ac.jp/hozo/onto_library/YAMATO101216.pdf
  • Smith, Barry 2003: ”Ontology”, teoksessa Blackwell Guide to the Philosophy of Computing and Information.

 

Kirjoittajan yhteystiedot

Mikko Lappalainen, tietoasiantuntija
Kansalliskirjasto / Tutkimuskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: mikko.lappalainen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.