KOKO ja linkitetyn datan harmonisointi

Takala J (2022). KOKO ja linkitetyn datan harmonisointi. Tietolinja, 2022(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2022121571945

Kapellimestari johtamassa orkesteria.

Dublin Philharmonic Orchestra. Kuva: Derek Gleeson. Alkuperäistä kuvaa rajattu (CC-BY-3.0).

Linkitetty data mahdollistaa tiedon siirtämisen järjestelmästä toiseen ilman, että sen tulkinta muuttuu tai merkitystä hukataan. Keskeistä tässä lähestymistavassa on, että tietueilla on pysyvät tunnisteet, joihin voidaan linkittää ulkoapäin. Lähestymistavan hyötynä pidetään parempaa ylläpidettävyyttä ja koneluettavuutta. Linkitettyn datan teemaan kuuluu myös keskeisesti tiedon strukturointi kontrolloitujen sanastojen tai ontologioiden avulla. Sen lisäksi, että metadataa linkitetään ontologioihin, sanastoja ja ontologioita tietomalleineen voidaan liittää toisiinsa.

Linkitetyn yhdistelmäontologia KOKO:n tapauksessa tarkoituksena on tarjota yleistajuisen Yleisen suomalaisen ontologian (YSO) yhteydessä myös erikoisalan käsitteitä sisältävä yhdistelty ontologia, jota voidaan käyttää hyvin monimuotoisen aineiston kuvailuun. Näin mahdollistetaan aineiston yhteiskäyttö ympäristössä, jossa halutaan löytää yhteyksiä hyvin erikaltaisten kuvailukohteiden välillä. Samalla KOKO mahdollistaa erilaisten kuvailunäkökulmien käytön myös homogeenisen aineiston tapauksessa.

Siiloja rikkomassa

Linkitystyön yksi sudenkuoppa liittyy metatiedosta tehtyihin tulkintoihin. Järjestelmän tietoja on teknisessä mielessä mahdollista hakea ja linkittää toisiinsa ulkoisista järjestelmistä käsin, mutta linkitetyn datan käyttäminen ei vielä itsessään takaa sen ymmärryksen pysymistä samana. Myös käytettyjen tietomallien täytyy olla jaettuja ja jokseenkin laajasti käytettyjä, että mallin mukaista dataa osataan varmasti tulkita oikein. Muussa tapauksessa on vaarana, että sisällönkuvailu rakentaa tietosiiloja. Ne ovat toki rikkaasti linkitettyjä ja yhteentoimivia tiettyjen rajojen sisällä, mutta siilon seinien ulkopuolelta katsottuna kokonaisuutta on vaikeaa tulkita ja uudelleen käyttää samassa määrin. Tämä haaste huomioiden linkitetyn datan tietomallien on hyvä olla laajasti tunnettuja ja jokseenkin yksinkertaisia, jotta dataa olisi helpompi tulkita, käyttää ja ymmärtää myös ulkomaailmasta käsin.

Sanastojen ja ontologioiden mallintamisessa linkitetyn datan periaatteiden mukaisesti Simple Knowledge Organization System (SKOS) toimii hyvin, sillä se on rakenteeltaan nimensä mukaisesti yksinkertainen tietomalli, jolla on kokolailla laaja käyttäjäkunta. Juuri tarpeeksi ilmaisuvoimaisena ja tarpeeksi geneerisenä tietomallina sillä voidaan kuvailla erilaisia sanastoja ja muuta rakenteellista dataa. Asiasanoittaja pystyy linkittämään yksittäisiä SKOS-käsitteitä kuvailutietoihin pysyvien tunnisteiden kautta.

Myös tietomallin laajentaminen onnistuu tarvittaessa linkitetyn datan periaatteiden mukaisesti: Aivan kuten asiasanoitusta voi tehdä linkittämällä kuvailutietoja SKOS-käsitteiden URI-tunnuksiin, kuvailutietomallin määrittelyä voidaan myös laajentaa viittaamalla muualla käytettyjen tietomallin osien URI-tunnuksiin. Tällä tapaa eri tietomallit saavat yhteisiä vertailukohtia, jolloin kuvailutietojen pitäisi luonnostaan siiloutua vähemmän.

Tämäntyyppisessä datassa oleellisinta on ymmärtää, kenen vastuulla on ylläpitää mitäkin osaa koostetusta tiedosta, jotta ylläpitäjät ja datan julkaisijat voivat linkittää ajantasaiseen tietoon ja koostaa tällä tavoin omaan käyttöönsä sopivan tietoaineiston. Tällä tavalla ei välttämättä poisteta tietosiiloja, mutta ainakin niiden yhdistely helpottuu. Samaa lähestymistapaa voidaan soveltaa erilaisten erikoisalojen sanastojen ja ontologioiden kohdalla. Kun erikoisalan ontologia on SKOS-muodossa, sitä on helpompi uudelleenkäyttää osana yleistajuista käsitteistöä. Tällä tavoin erikoisalan asiantuntijoiden työ on helpompi ottaa järjestelmätasolla sisällönkuvailukäyttöön.

Ylläpitokysymykset

KOKO on siis ontologia, jossa käsitteitä on linkitetty sinne tänne. Vaikka linkittämisessä on käytetty yhteistä tietomallia, on mahdollista päätyä ei-toivottuun kaoottiseen tilaan, jossa yksittäisen lähdeontologian ulkopuoliset käsitteistöt lisäävät sen rakennetta koskevia väittämiä. Tilanne muistuttaa karkeasti ottaen salia, jossa usea pöytäseurue huutelisi vieraisiin pöytiin. Tällöin etenkin muutosten aiheuttaman ylläpitotyön hallinta vaikeutuu. Jos sallitaan tilanne, jossa kaikki vaikuttaa kaikkeen, eri puolilla järjestelmää tehdyt samanaikaiset muutokset saattavat aiheuttaa vaikeasti hallittavaa dynamiikkaa.

Jotta ylläpitotyön määrää voidaan pitää hallittavana, KOKO rajoittaa sisäisten linkitysten määrää siten, että kukin erikoisontologia kytkeytyy vain KOKO:n keskusrunkona toimivaan Yleiseen suomalaiseen ontologiaan. Erikoisontologia käyttää YSO:n hierarkiaa ylätasonaan ja jatkaa sitä yksityiskohtaisemmiksi alihierarkioiksi. Näin toimien erikoisontologiassa tapahtuvat muutokset johtavat harvoin ylläpitotoimenpiteisiin YSO:ssa. Etenkin erikoisontologioiden välisiä linkityksiä pyritään välttämään. Tällaisen järjestelyn etuna on se, että vain YSO:n tarvitsee jatkuvasti kommunikoida muutoksistaan erikoisontologioille.

Järjestelmän ylläpidon vastuunjakoa voidaan siis selkeyttää tähän tapaan. Sen jäljiltä käytössämme on järjestelmä, joka tekee linkitettyjen ontologioiden käsitteiden tason yhdistelystä SKOS:in ansiosta vaivatonta. Toisaalta kehitystyössä voidaan keskittyä laajempien merkitysten yhdistelyyn, kokonaisuuden yhteentoimivuuteen ja tiedon harmonisointiin ilman, että samalla aiheutuu sekasotkua. Ainakin periaatteessa.

Yhteentoimivuus

Miltä KOKO:n kehitystyö loppuviimein näyttää, jos kyseessä on tusinan verran erikoisontologioita ja saman verran ylläpitotahoja, yhteensä vajaalle sadalle tuhannelle käsitteelle, joista kootaan kuudenkymmenen tuhannen käsitteen hierarkia? Voiko lopputulos olla muuta kuin kaaosta ja kakofoniaa? Kokeillaan päinvastaista olettamusta – mitä jos kyseessä onkin sinfonia.

Jos otamme avuksi vertauksen, missä yksittäinen erikoisalan ontologia on ikään kuin pitkään omaa alaansa harjoittanut muusikko, joka on omaksunut soittimelleen tyypillisen tavan tulkita musiikkia. Tässä tapauksessa käytetyt linkitetyn datan teknologiat sekä SKOS edustaisi nuotistoa tai partituuria. Lopputuloksena syntyvä linkitetty ontologia olisi luonnollisestikin vertauksen musiikkiesitys. Jokaisella soittimella on oma annettavansa teoksen esityksessä, mutta sen kantavana melodiana toimii kuitenkin yleistajuinen YSO.

KOKO:n julkaisija haluaa edes jollain tapaa tahdittaa eri instrumentteja toimimaan samanaikaisesti, jotta musiikkiesityksen kuulija pystyisi seuraamaan yhteistä melodiaa paremmin. Tätä varten erikoisontologioiden aputyökaluksi on kehitetty YSO:aan linkittämistä avustava muutoksenhallintatyökalu MUTU. Sen tehtävänä on esittää erikoisontologian kehittäjälle, mitkä tietyllä aikavälillä YSO:ssa tapahtuneet muutokset ovat relevantteja erikoisontologian kannalta ja minkälaisia päivitystarpeita ne aiheuttavat. Muusikotkin tarvitsevat harjoitellessaan metronomia, jotta he voivat omaksua esitystä varten tietyn tahdin. Tällä kokoonpanolla olisi jo orkesterillinen erikoistuneita instrumentteja tuomassa oman lisänsä yhteiseen melodiaan. Mitä tärkeintä, kaikilla olisi jokin käsitys nuoteista sekä tahdista.

Tämäkään ei vielä takaa meille korvia hivelevää sinfoniaa. Ontologioiden ylläpidosssa saattaa tapahtua kömmähdyksiä ja toisaalta myös täysin tarkoituksenmukaisia valintoja, jotka ovat kuitenkin ristiriidassa valitun SKOS-tietomallin – siis esimerkkimme partituurin – kanssa. Tätä varten käytämme KOKO:n rakennetta silmällä pitäen konfiguroitua Skosify-ohjelmistoa. Se takaa, että lopputulos on loogisesti eheää ja täyttää SKOS:in rakenteelliset vaatimukset. Kutsuttakoon sitä esimerkin autotune-säätimeksi. Toki idealistin mielestä tällaisia apuvälineitä ei tarvittaisi, mutta on kuitenkin selvää, että korjausautomatiikan käyttö tekee sanastokehitystyöstä paljon helpompaa.

Orkesterimonttu sisältää nyt valikoiman soittimia – yhteensä kaksitoista kontrolloitua sanastoa, täkäläisittäin ontologiaa – toivottavasti sopivassa suhteessa, jotta yleisö voi nauttia harmonisesta musiikista. Jokainen soittaja saa tuotua oman musiikillisen tulokulmansa esille osaksi teosta kuulijoiden riemuksi ja sivistykseksi. Tämä vertauskuvallinen kokoonpano vastaisi KOKO:a. Lopputuloksena syntyvä ontologia sisältää noin 900000 väittämää koskien 60000 käsitettä, joille on kerrottu noin 260000 termiä suomeksi, ruotsiksi, pohjoissaameksi ja englanniksi – kieliriippumattomassa esitysmuodossa.

Vaikka kukin soittaja saa keskittyä osaltaan melodian ja musiikillisten teemojen kuljettamiseen – siis YSO:aan linkittymiseen – orkesterimontussa harjoitellessaan, tilanne, missä jokainen instrumentti sointuisi yhteen saumattomasti, vaatii melko paljon jokaiselta muusikolta. Tämän takia vielä kokonaisuutta johtaa muutama asiantuntija Kansalliskirjastolla. Kutsuttakoon heitä kollektiivisesti kapelimestariksi. Heidän tehtävänään on kirkastaa yhteisiä valintoja ja huolehtia että musiikki – siis ontologioiden kehitystyö – etenee johdonmukaisesti ja noudattaa yhdessä sovittuja periaatteita.

Jatkokehitys

Erikoisontologioiden sekä YSO:n kehittämiskäytäntöjä on hedelmällisempää tarkastella ja jatkokehittää, kun nähdään samalla, minkälaisen dynaamisen kokonaisuuden osiensa summasta voi saada aikaan. Tätä voisi ajatella silläkin tavoin, että kapelimestari voi tarkentaa ohjeistusta yksittäisille muusikoille tai soitinryhmälle sinfonian kokonaisuutta huomioiden. Tällöin on saavutettu tilanne, jossa ontologioiden linkitysmahdollisuudet luovat parempia käytäntöjä ja ohjeistusta sellaisesta kokonaisuuden näkökulmasta, jota olisi hyvin vaikea muodostaa vain yhden erikoisalan sanaston tai pelkän YSO:n tarpeista käsin tarkasteltuna. Kun linkitetyn datan teknologia tarjoilee puitteet yhdistellä tietoa tähän tapaan, asiantuntijat voivat ihannetapauksessa keskittyä matalan tason yhteentoimivuuden ongelmien ratkaisun sijaan paremmin itse käsitetyöhön.

Hajautetun järjestelmän ylläpitämisessä linkitetyn ontologian muodossa on sekä vahvuuksia että heikkouksia. Yhtäältä jokainen erikoisontologia on näin laadittuna oma eheä kokonaisuutensa ja silti toimiva osa laajempaa rakennetta. Toisaalta verkottuneisuus vaikeuttaa ylläpitovastuiden hahmottamista, kun toimitaan alueilla, jossa useampi taho vaikuttaa lopputulokseen. Eri lähdeontologiat voivat edustaa myös erilaisista näkökulmistaan johtuen keskenään huonosti yhteen nivoutuvia hierarkioita. Voidaan toki luottaa, että niin kauan, kun jokaiselle käsitteelle on kuvailussa ollut tarvetta, KOKO:n käsitehierarkia saakin muodostua tähän tapaan orgaanisesti ja kasvaa yhteen.

KOKO:n testiautomaatiosta saadun palautteen avulla, sanastokokousten päätösten myötä ja Kansalliskirjaston Finto-palvelun yhteistyöllä tehtyjen yleisten linjauksien avulla lukuisat erikoisontologiat on mahdollista linkittää yhteen harmoniseksi kokonaisuudeksi. Linkittyvä tieto mahdollistaa yksittäisissä tapauksissa tehtyjen päätösten tarkastelemisen kokonaisuuden kannalta. Täytyyhän sinfoniaorkesterinkin harjoitella säännöllisesti, jotta he voivat esittää teoksia yhdessä.

Kirjoittaja

Joeli Takala
finto.fi
[email protected]

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.