Tiedonorganisoinnin uudet haasteet : miten globalisoituva yhteisö hakee tietoa

Laila Heinemann
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe20072115

 

Suomen tieteellisen kirjastoseuran kansainvälinen työryhmä järjesti marraskuun lopussa Helsingissä seminaarin otsikolla The challenge of the electronic environment to the organization of knowledge. Tämä oli jo toinen aihepiirin Subject access to information teemasta järjestetty kansainvälinen seminaari, ensimmäisen sama työryhmä järjesti vuonna 2004. Seminaarissa pyrittiin esittelemään, tutkimaan ja tulkitsemaan tiedonorganisoinnin menetelmien ja välineiden muutoksia, jotka yhä kehittyneempi teknologia tekee mahdollisiksi ja jotka yhä elektronisempi ja interaktiivisempi tietoympäristö tekee välttämättömiksi.

 

Seminaari oli tarkoitettu kirjastoissa, arkistoissa ja museoissa työskenteleville kirjastonhoitajille ja informaatikoille, sovellussuunnittelijoille sekä informaatiotutkimuksen opiskelijoille ja tutkijoille. Kiinnostusta riittikin, osallistujia oli pitkälle toistasataa. Eniten oli (luonnollisesti) suomalaisia, mutta ruotsalaisiakin oli runsaasti ja esimerkiksi Romaniasta oli saapunut hyvin innokas ryhmä.

Seminaari oli suunniteltu keskustelevaksi ja pohjaksi oli heitetty seuraavanlaisia poleemisia kysymyksiä:

Verkkoa haravoivat yhä monimutkaisemmat hakukoneet

  • Tarvitsemmeko me enää lainkaan perinteisiä tiedonorganisoinnin välineitä kuten luokituksia, tesauruksia ja muita kontrolloituja sanastoja?
  • Ovatko perinteiset tietorakenteet yhä käyttökelpoisia järjestettäessä ja haettaessa tietoa sähköisessä ympäristössä? Vai tarvitsemmeko uusia rakenteita ja välineitä?
  • Tuoko Web 2.0n yhteisöllinen tiedontuottamistapa myös uusia yhteisöllisiä rakenteita, välineitä, työtapoja ja -malleja?
  • Olemmeko tiedon globalisoituessa aivan uudessa tilanteessa?
  • Kuinka verkossa olevan tiedon massiivinen määrä vaikuttaa tapaamme ajatella, ilmaista ajatuksiamme, järjestää tietoa ja välittää merkityksiä?
  • Miten tähän liittyvät dokumenttien ja kokoelmien semanttiset sisällöt?
  • Entä monikieliset ja monikulttuuriset sisällöt?

Ulkomaisina puhujina olivat Marcia Lei Zeng Kent State Universityn informaatiotutkimuksen laitokselta Ohiosta, Yhdysvalloista, Maja Zumer Ljulbljanan yliopistosta ja Slovenian kansalliskirjastosta, Douglas Tudhope Glanmorganin yliopiston tietojenkäsittelytieteen laitokselta Walesistä sekä Dennis Nicholson Strathclyden yliopiston digitaalisen kirjaston tutkimuskeskuksesta Glasgowsta, Skotlannista. Funktionaalisen luetteloinnin osudessa esiintyi myös Eeva Murtomaa Kansalliskirjastosta. Muut kotimaiset puhujat edustivat FinnONTOn (Suomalaisen semanttisen webin ontologiat) eri osahankkeita.

Kotimaisista hankkeista ja funktionaalisesta luetteloinnista on kirjoitettu Tietolinjassa jo aiemmin (ks. esim. artikkeli YSOsta numerossa 1/2007, http://urn.fi/URN:NBN:fi-fe20071264 ja FRBRstä ja FRANARista numerossa 2/2005, http://urn.fi/URN:NBN:fi-fe20051935). Laajasta tarjonnasta keskitynkin tässä ulkomaisten vieraiden osuuteen, ja niistä erityisesti Marcia Lei Zengin selkeisiin ja innostaviin esityksiin. Hän urakoi kolme erillistä sessiota ja toimi vielä loppupaneelin vetäjänä – silti kukaan ei väsynyt kuuntelemaan häntä.

Kohti verkottuneita tiedonorganisoinnin järjestelmiä

Kaksipäiväisen seminaarin aluksi professori Zeng loi katsauksen nykyisin käytössä oleviin tietorakenteisiin ja tiedonorganisoinnin välineisiin. Hän korosti sitä että käsitteen KOS, joka alun perin on lyhenne sanoista Knowledge Organization Systems, viimeinen S olisi syytä laajentaa kattamaan myös termit Structures ja Services, eli järjestelmien lisäksi myös rakenteet ja palvelut.

Tiedonorganisoinnin välineitä käytetään
1) erottamaan termin eri merkityksiä (esim. termilistat)
2) kontrolloimaan synonyymejä ja vastineita (esim. auktoriteettitietueet, synonyymikehät),
3) ilmaisemaan selkeitä semanttisia suhteita (esim. taksonomiat ja luokitukset; jossain määrin myös asiasanastot) ja
4) kuvaamaan sekä käsitteiden suhteita että ominaisuuksia (esim. ontologiat).
Mitä monipuolisempi niiden käyttö on, sitä monimutkaisemmaksi käy myös niiden rakenne.

Nykyisessä verkottuneessa maailmassa tiedonorganisoinnin järjestelmiä ei käytetä enää ainoastaan luettelointiin ja tiedonhakuun, vaan niitä sovelletaan yhä enenevässä määrin myös oppimisympäristöissä, tiedon mallinnuksessa ja vastaavissa yhteyksissä. Niitä ja/tai osia niistä voidaan kierrättää eri tarkoituksissa erilaisissa verkkopalveluissa – Zeng korosti monessa yhteydessä periaatetta use and re-use.

Perinteisestä käsitteestä KOS on kehittynyt NKOS (Networked KOS). Se käyttää hyväkseen yli sadan vuoden perinteitä ja kehittää niitä edelleen. Ensimmäisessä vaiheessa järjestelmistä kehitettiin konelukuisia, nyt ollaan jo seuraavassa vaiheessa, jossa koneiden pitäisi myös itse ymmärtää niitä (termit machine-processable ja machine-understandable).

Monikielisyyden ja monikulttuurisuuden haasteet

Monikielisissä ja monikulttuurisissa yhteyksissä on kolme suurta haastetta. Ensiksikin on pystyttävä luomaan tiedon organisointijärjestelmä, jonka kattavuus, termien valinta ja suhteet ovat mahdollisimman riippumattomia (paikallisesta) kulttuurista. Toiseksi on pystyttävä saamaan erilaiset järjestelmät yhteensopiviksi. Lopuksi on vielä varmistettava, että eri järjestelmät pystyvät mahdollisimman hyvin ja helposti jakamaan tietoa keskenään erilaisten teknisten rajapintojen kautta. Keskeisessä roolissa on tällöin semanttinen yhteensopivuus.

Tässä on kyse sekä ihmisten että koneiden käyttämistä kielistä ja sanastoista. Tiedonorganisoinnin järjestelmiä kehitettäessä kulttuuririippumattomat ratkaisut ovat aina olleet tietoisena tavoitteena, mutta verkottuneessa teknisessä ympäristössä nämä vaatimukset korostuvat entisestään.

Esimerkkinä kulttuurisidonnaisista tiedonorganisointijärjestelmistä professori Zeng otti kiinalaisen lääketieteen. Kiinassa lääketieteellisen tiedon perusluokitus on tietenkin sen mukainen, kun taas länsimaissa kiinalainen lääketiede kaikkine eri muotoineen menee yleensä kaatoluokkaan ”vaihtoehtoiset hoidot”. Vielä hajanaisemmaksi maailma muuttuu, kun luokitellaan koulutusasteita. Niissä eroja on jopa Yhdysvaltojen eri osavaltioiden välillä. Maailmanlaajuisesti termi ”keskiasteen koulutus” ei kerta kaikkiaan voi olla yksiselitteinen.

Kulttuurierojen lisäksi yksiselitteisyyttä vaikeuttavat myös erilaiset sosiaaliset ympäristöt, kielten ja kirjoitusjärjestelmien erot sekä moninaiset tekniset sovellukset.

Sillanrakennusta

Tiedonorganisointijärjestelmien välille voidaan rakentaa siltoja monin eri tavoin ja useissa eri vaiheissa. Kokemus on osoittanut, että parhaisiin tuloksiin päästään, kun tämä tehdään mahdollisimman aikaisin ketjussa. Sanastoja on huomattavasti helpompi vertailla keskenään kuin kokonaisia auktoriteettitietokantoja, puhumattakaan siitä, että vertailu tehtäisi vasta yksittäisten bibliografisten tietueiden tasolla.

Professori Zeng esitteli myös erilaisia malleja linkittää eri alojen sanastoja yhteen satelliittisanastoiksi, termihaarojen laajennuksiksi, verkostoiksi tai ”ripustamalla” erikoissanastot sateenvarjona toimivan yleissanaston alle – viimeksi mainittua mallia on käytetty esimerkiksi Suomessa YSOa rakennettaessa.

Teknisemmissä esityksissä korostuivat samat ajatukset ja toistuivat sellaiset ilmaukset kuin bridging ja crosswalks. Ilman näitä ei mitään yhteishakujärjestelmää voi toteuttaa. Standardoidut palvelukuvaukset näyttelevät keskeistä roolia silloin kun tekniset järjestelmät keskustelevat suoraan keskenään, ilman ihmistulkkia välissä. Ensimmäiset yritykset tehdä sanastoista ja luokituksista koneymmärrettäviä tehtiinkin puhtaasti tietoteknisistä lähtökohdista, internetyhteisö W3Cn piirissä. Vasta myöhemmin aloitteita on tehty myös kirjastoammattilaisten puolelta.

Tiedonorganisoinnista tiedon mallinnukseen

Maja Zumer viittasi FRSAR-esityksessään siihen, että ongelmana on ollut kaikille tiedonorganisointijärjestelmille yhteisen käsitemallin puuttuminen. Olisi tärkeää erottaa itse aihe (teema) siitä, millä termillä tai nimellä (nomen) sitä kutsutaan. Sekä Maja Zumerin että Marcia Lei Zengin esityksissä toistui myös käsite aboutness, joka on lähes mahdoton suomentaa näppärästi, mutta joka kiteyttää hyvin tarvittavan uuden näkökulman.

Yksi yritys ratkaista tämä käsitelmallien ongelma ovat ontologiat. Alun perin ne syntyivät biolääketieteen piirissä, mutta ovat viime aikoina levinneet myös muille tieteen aloille. Niiden avulla on pyritty luomaan sekä ihmisille että koneille yhteinen käsitys tiedon rakenteesta.

zeng_kaavio1

Kaavio Marcia Lei Zengin esityksen mukaan

Tämä tiedon mallinnus ontologioiden avulla auttaa myös käsitteiden kierrätystä – luokituksia ja asiasanastoja voidaan uudelleenkäyttää ontologioiden materiaalina (kuten esimerkiksi YSOssa on tehty). Näin pyörää ei tarvitse koko ajan keksiä uudelleen. Lisäksi standardointi ja sen myötä yhteentoimivuus helpottuvat.

Teoriasta käytäntöön

Brittiläiset puhujat Douglas Tudhope ja Dennis Nicholson esittelivät useita aiheeseen liittyviä brittiläisiä ja kansainvälisiä hankkeita, mm. STAR-hanketta, jossa on testattu arkeologian alan asiasanaston yhteensopivuutta museopuolella käytössä olevan CRM-järjestelmän kanssa.

Toisena seminaaripäivänä suomalaiset esittelivät aiheeseen liittyviä hankkeitamme: Yleistä suomalaista ontologiaa, Agriforest-sanaston ontologisointia, sekä Semanttisen laskennan tutkimusryhmässä ja Tampereen yliopiston informaatiotutkimuksen laitoksella kehitettyjä käytännön demosovelluksia. Nämä meille suomalaisille jo hyvin tutut hankkeet herättivät ulkomaisissa kuulijoissa – sekä seminaarin osallistujissa että puhujissa – todella suurta kiinnostusta. Harvoin on suomalaisessa seminaarissa kyselty niin paljon, sekä salissa että käytävillä ja lounas- ja kahvitauoilla.

Globaali yhteisö

Skotlantilaisen Digitaalisen kirjaston tutkimuskeskuksen johtajan Dennis Nicholsonin esityksen punainen lanka oli yhdessä tekeminen. Parhaaseen tulokseen päästään eri tahojen yhteistyöllä ja työn jakamisella yhteisesti sovittujen linjojen ja standardien mukaisesti. Mutta myös asiakasnäkökulma korostui hänen esityksessään. Aivan yhtä tärkeää kuin rakentaa siltoja eri tiedonorganisointijärjestelmien välille on helpottaa käyttäjän siirtymistä järjestelmästä toiseen.

Mutta mitä tapahtuu, jos laajennetaan itse tiedonorganisointityötä kattamaan myös käyttäjät? Jos jo perinteisten ja kontrolloitujen järjestelmien yhteensovittaminen on ongelmallista, miten kuvaan istuvat Web 2.0n sosiaalisen taggayksen synnyttämät aivan villit sanastot?

Positiivisimmillaan nämä maallikkojen luomat folksonomiat voivat tietenkin helpottaa sisällönkuvailijoiden työtä. Täysin ne eivät toki sitä voi korvata, mutta niistä voi saada lisäarvoa sekä tiedonhakuun että kirjaston ja asiakkaiden väliseen vuorovaikutukseen. Professori Tudhopen tutkimusryhmät ovat testanneet mm. yleisen kymmenluokituksen yhdistämistä sosiaaliseen taggaykseen hakutulosten parantamiseksi.

Sosiaalinen taggays nousi esille varsinkin seminaarin päätöspaneelissa, johon osallistuivat Marcia Lei Zengin johdolla Maja Zumer, Dennis Nicholson, Douglas Tudhope sekä FinnONTO-ryhmän Osma Suominen.

Dennis Nicholson muistutti, että yleisön luomista tageistä saa arvokasta tietoa siitä, miten käyttäjät itse asiassa tietoa hakevat. Erilaiset sanastot ja ontologiat voivat olla pullollaan hienoja termejä ja käsitteitä, joista yhtäkään asiakas ei osaa intuitiivisesti käyttää. Tagit ovat juuri niitä termejä, joita elävässä elämässä kirjoitetaan hakulaatikkoihin. Tässäkin pitäisi olla avoimin mielin ja tutkia, olisiko näiden sosiaalisten tagien joukossa arvokkaita lisiä sanastoihin.

Toinen ainutlaatuinen piirre tageissä on niiden personifiointi – sisällönkuvailija on aina anonyymi, taggaajat voi useimmiten jäljittää. Näin muodostuu yhteisön sisäinen yhteisö: tämä henkilö pitää samanlaisista kirjoista kuin minä, tämä henkilö on kiinnostunut samoista asioista kuin minä, tämän henkilön suosituksesta olen ennenkin löytänyt erittäin hyödyllisiä aineistoja. Kirjastomaailmassa tämä henkilökohtainen suosittelu voi vielä toimia elävässä asiakaspalvelutilantessa, mutta verkossa tarjolla olevien suurten tietokantojen sisällönkuvailijat ovat käyttäjille tuntemattomia.

Kaiken kaikkiaan loppukeskustelussa todettiin, että yhä on valtava juopa nykyisten kirjastoluetteloiden ja seminaarin aikana esitettyjen erilaisten skenaarioiden välillä. Tarvitsemme uusia asioita, mutta ennen muuta uusia näkökulmia vanhoihin asioihin.

Dennis Nicholson kiteytti kuitenkin päivien annin sanoihin: Ongelma on suuri mutta suunta on oikea!

Anti oli todella runsas ja tässä on siitä vain jäävuoren huippu. Suosittelen lämpimästi perehtymistä kaikkiin esityksiin tarkemmin. Ne ovat saatavilla Terkon julkaisuarkistossa osoitteessa http://tds.terkko.helsinki.fi/dspace/handle/10250/132141?locale=en.

Seminaarin ulkomaiset puhujat

Lisää kotimaisista hankkeista

 

Kirjoittajan yhteystiedot

Laila Heinemann, atk-erikoistutkija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26 (Teollisuuskatu 23),
000140 HELSINGIN YLIOPISTO
Sähköposti: laila.heinemann (at) helsnki.fi