SWIB17: avointa ja linkitettyä dataa kirjastoissa

Saarikko J, Suominen O (2018). SWIB17: avointa ja linkitettyä dataa kirjastoissa. Tietolinja, 2018(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201802133371

Järjestyksessään yhdeksäs Semantic Web in Libraries -konferenssi järjestettiin Hampurissa joulukuun alussa 2017. Aiheena oli entiseen tapaan linkitetty avoin data kirjastoissa ja muissa muistiorganisaatioissa. SWIB kokoaa IT-henkilöstöä, kehittäjiä, tietoammattilaisia ja tutkijoita yhteen keskustelemaan datan avaamisesta ja linkittämisestä sekä työkalujen ja ohjelmistojen kehittämisestä. Tänä vuonna järjestävä organisaatio oli ZBW – Leibniz-Informationszentrum Wirtschaft ja kokouspaikkana toimi Katholische Akademie Hamburg

Ennen kaksipäiväistä konferenssia järjestettiin yhden päivän aikana useita työpajoja erityisesti linkitetystä datasta. BIBFRAME-työpajaan osallistui useita suomalaisia. Suomi olikin varsin hyvin edustettuna noin kymmenellä osallistujalla, joista puhujina olivat Osma Suominen Kansalliskirjastosta ja Joonas Kesäniemi Helsingin yliopiston kirjastosta.  Osma ja Kansalliskirjastossa kehitettävä oleva Skosmos-ohjelmisto mainittiin myös useassa konferenssin esityksessä.

Keynote-puhujat

George Oates, yrittäjä ja käytettävyyssuunnittelija, käsitteli esityksessään metadatan laatua ja toi esimerkeillään (mm. Flickr, OpenLibrary ja Wellcome Trust) esille miten eri tyyppisistä metadata-aineistoja voi tarkastella eri fasettien näkökulmista ja tuoda esiin ongelmia datan visualisoinnin avulla. Tämä auttoi näkemään kokoelmat aivan uudessa valossa. Analyysejä varten perustettua sivustoa kannattaa käydä vilkaisemassa. Sieltä voi saada hyviä ideoita omien metadata-aineistojen tarkasteluun. Oatesin ‘take home’ -viesti: “‘Asettaa saataville’ on todellakin eri asia kuin ‘yhdistää aktiivisesti’”.

Dario Taraborelli, Wikimedia Foundationin tutkimusjohtaja, kertoi Initiative for Open Citations (I4OC) -hankkeesta, jonka tavoitteena on koota ja julkaista tieteellisen julkaisujen viiteluettelot vapaasti tutkijoiden saataville. Se kattaa jo 16 miljoonaa julkaisua ja noin 500 miljoonaa viitettä. Tavoite on saada viitetiedot suoraan kustantajilta. Perusteluna keräyksen onnistumiseksi on viitteiden vapaa saatavuus, joka lisää näin löydettyjen artikkelien käyttöä ja viittaamista niihin.

Joitakin poimintoja sessioista

Erikoiskokoelmien sessiossa esiteltiin ranskalainen DOREMUS-tutkimusprojekti, jossa pyrittiin kehittämään musiikkiaineistojen alun perin MARC-muotoista metadataa uusien tietomallien ja sanastojen avulla. University of Illinois at Urbana-Champaignissa on tutkittu digitoitujen kokoelmien kuvailuaineiston tallettamista RDF-muotoon. Tiedot upotettiin teatteriaiheisia valokuvia näyttävälle HTML-sivulle ja yhdistettiin lennosta mash-uppina muualta linkitettyyn aineistoon kuten henkilöihin (näyttelijät, säveltäjät, ohjaajat), paikkoihin (teatterit), teoksiin (näytelmät) ja esityksiin (tapahtumat).

Europeana Data Model hyödyntää schema.org-tietomalleja metadata-kuvailuissa ja niitä suositellaan myös muille Europeanan tiedontuottajille, koska ne lisäävät tiedon siirrettävyyttä. Ray Denenberg Kongressin kirjastosta esitteli BIBFRAME-pilottia, jossa BIBFRAME 2.0 -tietomallia sovelletaan käytäntöön tietokantana. Kongressin kirjaston MARC-tietueet on muunnettu RDF-muotoon ja luetteloijat kuvailevat uudet teokset uuden mallin mukaan. Lisäksi Ray esitteli BIBFRAME-mallin laajennuksia esim. musiikkiaineistoihin.

Toinen kokouspäivä sattui Suomen 100-vuotisjuhlapäiväksi. Osma Suominen aloitti päivän esitykset keynoten jälkeen ja juhlisti päivää esittelemällä ensimmäistä kertaa julkisesti Suomen kansallisbibliografia Fennican Linked Open Data -palveluna. Fennican aineisto, joka kattaa miljoona julkaisua, 125.000 henkilönimeä ja 40.000 organisaatiota, on muokattu ensin BIBFRAME 2.0 -muotoon ja siitä edelleen schema.org-tietomallin mukaiseksi. Aineisto on julkaistu RDF-muodossa ja on haettavissa SPARQL-kyselyjen avulla sekä selailtavissa käyttöliittymän kautta (palvelu on englanninkielinen). 

Belgiassa on kehitetty EU-rahoituksella työkaluja erilaisten tietomallien ja sanastojen mäppäykseen linkitetyn datan tuotannossa ja julkaisemisessa. Tässä on työkaluna Anastasia Dimoun kehittämä RDF Mapping Language (RML). Työkalut eivät ole vielä avoimesti saatavilla. Joonas Kesäniemi Helsingin yliopiston kirjastosta esitteli tuloksia ATTX-projektista, jossa on kehitetty ohjelmistokomponentteja tutkimusaineistojen jakamiseen ja tiedon hallintaan, erityisesti alkuperän varmistamiseen.

Saksan teknillinen kansalliskirjasto Technische Informationsbibliothek (TIB) Hannoverissa on tutkinut menetelmiä sisällön automaattiseen tunnistamiseen. Tällä kertaa esiteltiin tieteellisten videoiden portaaliin liittyvää automaattista sisällöntunnistusta ja metadatan rikastusta, jolla pystyttiin erittelemään tekstin, äänen ja kuvan lisäksi eri mittaiset erilliset videosegmentit. Osien tunnistamisen jälkeen niille annetaan automaattisesti tunnisteet, joiden avulla eri elementit pystytään linkittämään ja julkaisemaan tiedon uudelleen jakoa varten. TIB on myös alkanut hyödyntää Kansalliskirjastossa kehitettävää Skosmos-ohjelmistoa sisällönkuvailussa käytettyjen luokitusten ja sanastojen julkaisemisessa omissa VIVO- ja DSpaceCRIS-palveluissaan.

Biodiversity Heritage Library on selvittänyt GNA:n (Global Names Architecture) soveltamista eliöiden tieteellisiin nimiin tiedonhaussa sekä aineiston linkittämisessä muihin biologisiin tietokantoihin. LD4P (Linked Data for Production) -projekti Cornellin yliopistossa kehittää työkaluja auktoriteettitietojen kokoamiseen, laadunvarmistukseen ja linkittämiseen. Projektissa kehitteillä oleva VitroLib-luettelointityökalu hyödyntää Samvera-ohjelmistoon perustuvassa palvelussa olevaa linkitettyä dataa auktoriteettitietojen haussa. Tämä työkalu voi tehostaa huomattavasti luettelointiprosessia.

SWIB17:n kokousjärjestelyt Hampurissa onnistuivat erinomaisesti. Viisto auditorio takasi kaikille hyvän näkyvyyden ja kuuluvuuden. Vaikka ohjelmaa oli runsaasti, tauot olivat riittävän pitkiä keskusteluja varten ja aulatiloissa oli myös koko kongressin ajan saatavilla virvokkeita, kahvia ja hedelmiä.

Konferenssin esitykset videoitiin ja ne on julkaistu konferenssin YouTube-kanavalla. Kommentteja esityksistä on myös Twitterissä tunnisteella #swib17. Lisätietoja ohjelmasta ja linkit esitysvideoihin löytyvät konferenssin sivustolta osoitteesta http://swib.org/swib17.

Kirjoittajien yhteystiedot

Jarmo Saarikko, tietoasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
jarmo.saarikko [at] helsinki.fi

Osma Suominen, tietojärjestelmäasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4), 00014 Helsingin yliopisto
osma.suominen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.