Semanttista webiä ihmisille!

Maistiaisia SWIB 2013 -konferenssista

Laila Heinemann
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe201312137636

 

Mikä ihmeen SWIB?

SWIB on lyhenne sanoista Semantic Web in Libraries – tai oikeastaan konferenssin alkuperäisestä nimestä Semantic Web im Bibliotheken. Konferenssi, joka järjestettiin nyt viidennen kerran, oli alkujaan saksankielinen. Koska ensin ulkomaisten puhujien ja sitten myös ulkomaisten osallistujien määrä kasvoi vuosi vuodelta, kieleksi vaihdettiin vuosi sitten englanti. Sen jälkeen SWIBistä on tullut ELAGin ohella yksi tärkeimmistä teknispainotteisista kirjastokonferensseista.

Suomesta paikalla oli tänä vuonna ONKI-projektia ja Kirjastoverkkopalvelujen Tietovarannot -yksikköä edustava joukkue Kansalliskirjastosta ja kahden hengen delegaatio Helsingin yliopiston kirjastosta. Voimme suositella muillekin!

Provokatiivisia näkökulmia…

Kongressin räväkän amerikkalaistyylisen keynote -esityksen piti Dorothea Salo, joka kouluttaa kirjastonhoitajia University of Wisconsin-Madisonissa, USAssa. Hänen otsikkonsa oli Soylent SemWeb Is People! Bringing People to Linked Data. Termin Soylent SemWeb hän oli johtanut 70-luvun kulttielokuvasta Soylent Green, jossa ravinnon raaka-aineena käytettiin ihmisiä. Hänen teesinsä oli, että myös semanttinen web tarvitsee ihmisiä – ja ennen muuta kirjastonhoitajia – toimiakseen.

Tim Berners-Lee kaavaili alunperin semanttista webiä koneita ja vain koneita varten. Salon mukaan tämä näkyy edelleen myös esimerkiksi RDF-skeemoissa. Kuitenkin data ilman ihmisiä on pelkkää hälyä. Ihmiset mallintavat dataa, joskus jopa tietämättään. Ihmiset linkittävät dataa. Ihmiset suunnittelevat ja konfiguroivat datan tallennus-, säilytys-, haku- ja analysointijärjestelmiä. Ihmiset myös tutkivat, keskustelevat, oppivat, opettavat, edistävät ja omaksuvat – tai eivät omaksu – näitä järjestelmiä. Viimeisessä kohdassa tulemme hänen pääteesiinsä: miksi ihmiset eivät omaksu näitä järjestelmiä?

Salo peräänkuulutti parempia työvälineitä niille, jotka eivät ole nörttejä, mutta joutuvat päivittäin silti käyttämään näitä sovelluksia. Jokapäiväisessä työssään kirjastonhoitajia ei kiinnosta mihin teknologiaan tai millaisiin ontologioihin järjestelmät perustuvat, heitä kiinnostaa vain se toimivatko ne ja onko niitä helppo käyttää. Jos semanttisen webin pohjalle rakennetut järjestelmät kaatuilevat ja niiden käyttöliittymät ovat huonoja, kirjastonhoitajat eivät pidä semanttisesta webistä. Jos ne taas helpottavat heidän työtään, he innostuvat asiasta heti. Dataongelman sijaan on kyse ihmisongelmasta.

Hän puhui myös ns. negatiivisen polun riippuvuudesta, negative path dependence. Usein huonompi teknologia, kuten esimerkiksi MARC-formaatti, sanelee käytänteet, koska sen korvaaminen uudenaikaisemmalla vaihtoehdolla tulee yksinkertaisesti liian kalliiksi. Tämäkin on meille enemmän kuin tuttua!

Toinen provosoiva puhuja oli monille suomalaisillekin jo tuttu teknologiaevankelista Richard Wallis, joka nykyisin työskentelee OCLCn Euroopan toimistossa. Hänen otsikkonsa oli Linked Data for Libraries: Great Progress, but What Is the Benefit? (http://swib.org/swib13/slides/wallis_swib13_108.pdf). Hän peräänkuulutti nimenomaan hyötyjä loppukäyttäjille.

Semanttisen webin kirjastosovellusten kehitys on viime vuosina siirtynyt yksittäisistä kokeiluista laajempiin kansainvälisiin hankkeisiin, joista esimerkeiksi Wallis nosti BIBFRAMEn, Schema.orgin ja WikiDatan. BIBFRAME-hankehan pyrkii kehittämään MARC-formaatille seuraajaa, joka noudattaisi RDA- ja FRBR-malleja. Schema.orgin puitteissa toimii Wallisin johtama W3C Group Schema Bib Extend, joka pyrkii esittämään bibliografista dataa muodossa, joka on paremmin yhteensopiva suurten hakukoneiden käyttämän teknologian kanssa. WikiData puolestaan pyrkii luomaan formaattia, jossa kaikki Wikipedian sisältö – mukaanlukien bibliografiset entieetit – voitaisi esittää.

Wallis heitti kuitenkin ilmaan kysymyksen, mitä hyötyä tästä kaikesta on? Onko kyse vain nörttimaailman trendistä, vai voivatko myös kirjastojen loppukäyttäjät todella saada näin parempaa palvelua? Hänen mukaansa kirjastojen olisi rohkeammin yritettävä tarjota omaa dataansa hakukonejättien tapaan. Esimerkiksi Googleen viime aikoina ilmestyneet knowledge graphit, taustatietoruudut, sisältävät usein dataa, jota kirjastoilla olisi nyt jo valmiina, jos vain olisimme itse keksineet esitellä sitä samalla tavoin. Jos ette vielä ole huomanneet tätä trendiä, hakekaapa Googlesta vaikkapa Aleksis Kiveä, ja katsokaa mitä ruudun oikeaan laitaan ilmestyy mainosten sijasta. Harva kirjaston auktoriteettitietue näyttää yhtä informatiiviselta… Wallis peräänkuulutti ”taustietokortteja”. Zepheiraa siteeraten hän yllytti kirjastoja siirtymään from cataloguing to catalinking, perinteisestä luetteloinnista luettelotietojen linkittämiseen. Kirjastojen omat hakuliittymät hän näkee tulevaisuudessa vain laskeutumispaikoiksi, joihin muista palveluista voidaan viitata ja joiden kautta kirjastodataa voidaan tarjota linkitettäväksi muualle.

Samoilla linjoilla oli toisen (varsinaisen) konferenssipäivän avauspuheenvuoron pitänyt Martin Malmsten Ruotsin kansalliskirjaston LIBRIS-toimistosta, joka ylläpitää ja kehittää Ruotsin kansallisbibliografiaa ja yhteisluetteloa. Vaikka hänen esityksensä oli enemmän teknispainotteinen, hänen teesinsä oli silti, että linkitetty data on oikeasti hyödyllistä vasta käyttäjäkokemukseen liitettynä.

Hän kuvasi Ruotsin LIBRIS-hankkeen lähtökohtia ja suunnittelua ja sen kuluessa kantapään kautta opittuja läksyjä. Hän esitteli myös periaatteita, joiden varaan uusi linkitettyyn dataa perustuva LIBRIS XL -järjestelmä on rakennettu. Perusideana on, että kaikki formaatit ja vastaavat pidetään oman järjestelmän ulkopuolella, jolloin ulkoisiin muutoksiin on helpompi reagoida. Yhtenäisiä formaatteja tarvitaan vain tiedonsiirtoon. Data voidaan rajapinnan kautta tarjota ulos monessa eri formaatissa – myös vanhanaikaisena MARCina – rikkomatta sisäistä tietovarantoa.

Myös hän korosti sitä, että kirjastojen on muutettava tapaansa käsitellä tietoa. Edelleen trendinä on – myös dataa avattaessa – siirrellä suuria tietuemääriä dumppeina paikasta toiseen. Usein haasteena on vakuuttaa organisaation johtoporras muutoksen tarpeesta – kun johto on ymmärtänyt asian, toteutus on jo puoliksi tehty.

 

… ja käytännön toteutuksia

Dorothea Salon peräänkuuluttamia käteviä työkaluja olikin tarjolla monessa esityksessä. Esimerkiksi Mannheimin yliopiston kirjastossa oli kehitelty hyvin kevyellä tekniikalla mash up -sovellus aineiston hankinnan apuneuvoksi. Stuttgartin mediayliopistossa oli rakennettu automaattisia mappauksia luokitusjärjestelmien ja bibliografisen datan välille ja Cornellin yliopistossa sovellus datan kopiointiin ja synkronointiin julkaisuarkistoissa (toim. huom. viimeksi mainitusta enemmän Jyrki Ilvan artikkelissa tässä samassa Tietolinjan numerossa).

Myös ad hocina pidetyissä salamapuheenvuoroissa kuvailtiin monia pieniä sovelluksia, jotka olivat yksinkertaisia mutta toimivia – ja avoimina tarjolla kaikkien käyttöön. Muutamaa niistä saatetaan ehkä kokeilla täälläkin.

Yksi hyvä esimerkki mittavammista hankkeista oli Ranskan kansalliskirjaston Agnès Simonin esittelemä prototyyppi nimeltä OpenCat, joka on kehitetty yleisten kirjastojen tarpeisiin. Lähtökohtana oli se, että kansalliskirjaston erittäin korkealaatuista FRBR-mallinnettua avointa ja linkitettyä bibliografista dataa tuntuivat käyttävät muut organisaatiot enemmän kuin kirjastot. Pienissä kirjastoissa aherretaan edelleen työläästi vanhojen MARC-tietueiden kanssa vanhanaikaisten kirjastojärjestelmien ehdoilla. Pilottihanketta rahoitti Ranskan kulttuuriministeriö ja partnereina olivat pieni Fresnes’n kunnankirjasto ja ohjelmistotalo Logilab.

Yhdessä rakennettiin prototyyppi, jonka avulla dataa voidaan esittää ja paikallista OPACia räätälöidä. Se perustuu pysyviin tunnisteisiin ja jäsenneltyyn dataan, joka on peräisin kansalliskirjaston data.bnf.fr -palvelusta. Tähän on rakennettu linkkejä digitaalisiin dokumentteihin ja kuviin. Kirjaston omasta tietokannasta haetaan hyllymerkinnät, saatavuustiedot ja linkit asiasanoihin. Avoimen datan pilvestä taas haetaan esimerkiksi aikajana ja Académie Françaisen ylläpitämiä elämäkertatietoja. Prototyyppi on toteutettu avoimen lähdekoodin ohjelmistoilla ja demoa voi selailla verkossa osoitteessa http://demo.cubicweb.org/opencatfresnes/. Kaikki tämä on tehty koskematta lainkaan paikalliseen kirjastojärjestelmään. Seuraava askel on kokeilla prototyyppiä myös muissa kirjastoissa.

Keskeiseksi ongelmaksi oli hyvin monissa esitellyistä hankkeista noussut entiteettien tunnistaminen ja disambiguointi. Auktoriteettitietokantaan liittyviä projekteja vetäneenä kiinnitin mielihyvällä huomiota siihen, että nimiauktoriteettien tunnisteet vilahtivat lähes joka esityksessä. Puhujat viittasivat tuon tuosta ISNIin, ORCIDiin ja VIAFiin – tai kuvailivat sitä, kuinka vaikeaa oli ollut löytää sopivia tunnisteita henkilöentiteeteille. Haastavinta henkilöentiteettien tunnistaminen lieni kuitenkin keskiaikaisten käsikirjoitusten digitointiprojektissa – miten tunnistetaan tekijä, jota ei välttämättä tunneta?

Tunnisteiden merkitystä korostettiin niin ontologioiden rakentamista koskevissa esityksissä kuin käytännön sovellushankkeiden esittelyissäkin.

Tästä näkökulmasta mielenkiintoinen puhuja oli Nadine Steinmetz Hasso Plattner Instituutista, Saksasta, joka puhui auktoriteettitietojen monikielisestä mappaamisesta. Yksi semanttisen webin keskeisistä sovelluksista on Named Entity Mapping (NEM). Nämä nimetyt entiteetit ovat teksteistä tunnistettuja entiteettejä, jotka on annotoitu vastaavilla entiteeteillä jostakin tietämyskannasta. Koska luonnollinen kieli ei koskaan ole yksiselitteistä, disabiguointiin tarvitaan myös kontekstitietoa, jotta pystytään valitsemaan oikea useasta mahdollisesta vastaavuudesta. Vaikeuskerroin kasvaa, kun vastaavuuksia yritetään hakea monikielisessä ympäristössä. Hänen esittelemänsä hanke käytti pohjana Saksan kansalliskirjaston auktoriteettitietokantaa, Die Gemeinsame Normdateita (GND). Sen ongelmana on kuitenkin tekstuaalisen sisällön ja suhteiden vähyys sekä yksikielisyys. Yhteisöllisesti tuotettu DBpedia puolestaan voi olla osittain epäluotettava. Näiden kahden kannan linkittämisestä kuitenkin voidaan päästä molempia rikastuttavaan lopputulokseen. Steinmetz esitteli yksityiskohtaisia esimerkkejä menetelmistä, joita he olivat kehittäneet monikieliseen mappaukseen.

 

Lopuksi

Tässä vain vähän maistiaisia, esityksiä oli joka tarpeeseen, niin kirjastonpalvelujen, ontologiakehittämisen kuin teknisten sovellustenkin näkökulmista. Suomalaisen puheenvuoron piti Matias Frosterus ONKI-hankkesta, joka sekin herätti laajaa kiinnostusta (http://swib.org/swib13/slides/frosterus_swib13_120.pdf). (toim. huom. Lisää tästä aiheesta seuraavassa Tietolinjassa).

Koko konferenssi videoitiin ja sitä voi seurata myös jälkikäteen verkossa (vaikka linkissä lukeekin ”Livestream”). Kannattaa katsoa!

Konferenssin sivut löytyvät osoitteesta http://swib.org/swib13/index.php.
(Linkki videoihin on etusivun oikeassa laidassa.)

 

Kirjoittajan yhteystiedot

Laila Heinemann, tietojärjestelmäasiantuntija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26 (Teollisuuskatu 23)
00014 HELSINGIN YLIOPISTO
sähköposti: laila.heinemann [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.