Research Data Alliance vuonna 2019

Hakala J (2019). Research Data Alliance vuonna 2019. Tietolinja, 2019(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019041912956

Vuonna 2013 perustettu Research Data Alliance eli RDA (jolla ei ole mitään tekemistä nykyisten kuvailusääntöjemme kanssa) on toiminut jo yli viisi vuotta. Sillä oli huhtikuussa 2019 56 organisaatiojäsentä ja noin 8200 henkilöjäsentä 140 maasta. Käytännön työtä tehdään 103 ryhmässä, joista noin kolmasosa on määräaikaisia työryhmiä ja loput periaatteessa pysyviä intressiryhmiä. Parisen vuotta sitten henkilöjäseniä oli noin 4300 110 maasta ja ryhmiä kaikkiaan 73, joten sekä jäsenmäärä, maantieteellinen kate että toimiala ovat kasvaneet nopeasti. Vuonna 2016 toimineista työryhmistä monet ovat jo ehtineet lopettaa toimintansa (ks. https://www.rd-alliance.org/groups/historical-groups).

Toimintansa aikana RDA on jo ehtinyt hyväksyä ja julkistaa 10 suositusta eri aloilta (https://www.rd-alliance.org/recommendations-and-outputs/all-recommendations-and-outputs) ja lisää on tulossa. Yleisten suositusten lisäksi on olemassa eri työryhmien laatimia ohjeita, kuten Libraries for Research Data –intressiryhmän 23 Things: Libraries for Research Data1, joka on käännetty 12 kielelle. RDA-työryhmät ovat tuottaneet muutakin kirjastojen kannalta relevanttia aineistoa, kuten metadatahakemiston2, johon on tallennettu erityisesti tutkimusdatan kuvailuun soveltuvia metadataformaatteja ja tallennusvälineitä.

Kun ohjeita luetaan ja suosituksia sovelletaan, RDA-yhteistyöstä on konkreettista hyötyä. Ja tämä hyöty on varmin tae sille, että RDA:n tuottamia välineitä ylläpidetään jatkossakin, ja itse RDA säilyy tärkeänä toimijana tutkimusdatan areenalla.

Tietolinjan numerossa 2016(3) julkaistussa artikkelissa3 kuvataan RDA:n organisaatio, joka on edelleen pääpiirteittäin sama. Merkittävin uutuus on alueellinen jäsenyys (RDA regional engagement), jonka kautta valtiot tai valtioliitot voivat liittyä RDA:n jäseniksi BKT:hen perustuvalla vuosimaksulla. Suomelle jäsenyys maksaisi vuonna 2019 13.000 $ ja esimerkiksi Japanille jo 123.000 $. Nähtäväksi jää, miten RDA pystyy sementoimaan taloudellisen perustansa alueellisten jäsenten tuella; esimerkiksi Dublin Core Metadata Initiativeen on 20 vuodessa liittynyt vain muutamia maita. RDA ei tosin suuria tarvitse – organisaation keskitettyyn ylläpitoon käytetään nykyään 2.5 htv / vuosi.

Plenary-kokoukset

RDA järjestää konferenssin kaksi kertaa vuodessa. Näissä plenary-tapaamisissa on sekä yhteistä että ryhmäkohtaista ohjelmaa. Syksyllä 2018 pidettiin 12. plenary Botswanan pääkaupungissa Gaboronessa. Kevään 2019 kokous järjestettiin 2.-4. huhtikuuta Philadelphiassa, ja seuraavana on vuorossa Suomi: neljästoista plenary pidetään Dipolissa 23.-25. lokakuuta 2019. Vastuuorganisaatioita ovat Aalto-yliopisto, CSC, Helsingin yliopisto, Ilmatieteen laitos ja Tieteellisten seurain valtuuskunta. Lisätietoa löytyy osoitteesta https://www.rd-alliance.org/plenaries/rdas-14th-plenary-helsinki-finland; kirjastoille tämä Suomessa järjestettävä kokous avaa mainion mahdollisuuden perehtyä RDA:n toimintaan.

Jotta plenary-kokouksesta saisi kaiken irti, on hyvä selvittää etukäteen, mitkä ryhmät kokoontuvat konferenssin aikana, ja mitä niiden kokousagendalla on. Ryhmien suuren määrän vuoksi niihin perehtymisen voi aloittaa esimerkiksi RDA:n palvelimen sivulta RDA for Disciplines (https://www.rd-alliance.org/rda-disciplines), josta löytää ainakin kaksi kirjastojen kannalta mielenkiintoista kategoriaa, RDA and the Digital Humanities (https://www.rd-alliance.org/rda-disciplines/rda-and-digital-humanities) sekä RDA and Librarianship, Archival Science and Information Science (https://www.rd-alliance.org/rda-disciplines/rda-and-librarianship-archival-science-and-information-science), johon kuuluu muun muassa intressiryhmä Libraries for Research Data (https://rd-alliance.org/groups/libraries-research-data.html). Sen agenda huhtikuun 2019 plenary-kokousta varten julkistettiin jo tammikuussa 2019 (https://rd-alliance.org/ig-libraries-research-data-rda-13th-plenary-meeting). Kaikki ryhmät eivät valmistele tapaamisiaan yhtä tunnollisesti. Huhtikuun kokouksesta laadittiin myös keskustelupöytäkirja, joka on linkitetty kokouksen kotisivuun. Sieltä voi lukea esimerkiksi sen, että sovimme 23 Things –ohjeen päivittämisestä.

Plenary-kokouksissa myös kaikille osallistujille suunnatut yhteiset puheenvuorot voivat olla mielenkiintoisia. Syksyn 2018 tapaamisessa Google julkisti betaversion tutkimusdata-aineistojen hakupalvelustaan. Valmistuttuaan siitä saattaa tulla kova kilpailija esimerkiksi European Open Science Cloudin globaaliksi palveluksi pyrkivälle B2FIND-järjestelmälle. Niiden toimintaa voi vertailla osoitteissa http://b2find.eudat.eu/ ja https://toolbox.google.com/datasetsearch.

Mitään dokumentoitua vertailua näistä järjestelmistä ei tietääkseni ole vielä tehty. Menemättä yksityiskohtiin voi sanoa, että mikä tahansa eurooppalainen julkisrahoitteinen projekti joutuisi koville Googlen kaltaisen globaalin toimijan kynsissä, eikä EOSC ole muhkeasta rahoituspotistaan huolimatta poikkeus säännöstä.

Samassa sessiossa jossa Googlen palvelu lanseerattiin kerrottiin myäs SoBigData-tutkimusinfrastruktuurista (http://sobigdata.eu/index), jonka ala on ”big data and social mining”. Sen alaa ovat esimerkiksi hyvinvointia, taloutta ja muuttoliikkeitä koskeva tutkimus.

RDA-kokouksia voidaan käyttää myös tiedottamiseen. Syksyn 2018 kokouksessa oli esimerkiksi Birds of Feather –tapaaminen4, jossa esiteltiin SWORD-protokollan kehitteillä olevaa versiota 3. SWORD on tuotantojärjestelmien ja digitaalisen aineiston pitkäaikaissäilytysjärjestelmien rajapinta, joka saattaa tulevaisuudessa olla esim. CSC:n ylläpitämien PAS-palvelujen kannalta relevantti. RDA ei osallistu tämän Iso-Britanniassa laaditun standardin päivittämiseen, mutta monet RDA-kävijät ovat kiinnostuneita kuulemaan hankkeen etenemisestä, ja voivat luoda kontakteja projektin vastuuhenkilöihin.

RDA-ryhmistä

Olen seurannut useiden vuosien ajan muutamien RDA-ryhmien toimintaa, ja osallistunut niiden työskentelyyn mahdollisuuksien mukaan. Ryhmästä riippuen kokemukset ovat hyviä, vähän vähemmän hyviä ja pahimmillaan turhauttavia. Tehokkaita työryhmiä yhdistävät selkeä tavoite, mandaatti ja aktiiviset & diplomaattiset vetojuhdat, vähiten tuloksellisilta ryhmiltä voivat puuttua ne kaikki.

Positiivisia esimerkkejä ovat esimerkiksi dataan viittaamiseen ja sanastotyöhön keskittyneet ryhmät.

Andreas Rauberin vetämällä Data Citation –työryhmällä on selkeä tavoite:

The RDA Working Group on Data Citation (WG-DC) aims to bring together a group of experts to discuss the issues, requirements, advantages and shortcomings of existing approaches for efficiently citing subsets of data.

Ryhmä kehitti ratkaisun ongelmaan jo 2016, ja tällä hetkellä keskitytään suositusten toteuttamiseen käytännössä. Ratkaisuna oli linkittää pysyvä tunnus hakulauseeseen, jonka avulla dynaamisesta data-aineistosta voidaan poimia tutkimuksessa käytettyä aineistoa vastaava osajoukko. PID-linkin avulla kyseiseen aineiston viittaamisesta tulee periaatteessa helppoa.

Sanastotyössä RDA on keskittynyt tutkimusaineistoihin ja niiden käsittelyyn. Data Foundation and Terminology –työryhmän5 laatima ydintermien luettelo ja muu sanastotyö on otettu huomioon informaatiopalvelualan ydinsanastoa eli ISO 5127:ää kehitettäessä. RDA:sta oli paljon apua, sillä tutkimusdataa ja sen käsittelyä ei enää olisi voitu sivuuttaa ISO-standardissa.

Hyödyllistä työtä on tehnyt myös data-arkistojen auditointiin ja sertifiointiin keskittyvä työryhmä, joka on soveltanut työssään Data Seal of Approval – ja ICSU World Data System -ohjeistuksia6. Tässä työssä yksi hyvistä piirteistä on ollut se määrätietoisuus, jolla pyörän keksimistä uudelleen on vältetty.

RDA:n suosituksissa on alusta lähtien korostunut pysyvien tunnisteiden merkitys. PIDeistä vahvimmin ovat olleet esillä DOI ja Handle, ja alun perin niistä erityisesti jälkimmäinen, kiitos Peter Wittenburgin lobbauksen. Viimeisimmissä PID-intressiryhmän7 kokouksissa DOI:n valta-asema on otettu selviönä, mikä on minusta OK. Mielenkiintoinen laajennus muualla tehtyyn PID-työhön on PID Kernel Information –työryhmä8, jonka tavoitteena oli

to advance a small change to middleware infrastructure by injecting a tiny amount of carefully selected metadata into a Persistent ID (PID) record.

Toisin sanoen pyrkimyksenä oli monipuolistaa PID-resoluutiota määrittelemällä metatietoelementtejä, joita tulisi tallentaa (Handle-)resolverille. Tuhansista mahdollisista metatietoelementeistä ryhmä valitsi loppujen lopuksi 15. Suositus ydinmetatietoelementeiksi, joka on poimittavissa ryhmän kotisivulta, on periaatteessa valmis mutta on käytettävissä luonnoksena, koska teksti odottaa tätä kirjoitettaessa vielä RDA:n hyväksyntää. En osaa arvioida, miten helposti ryhmän suositukset olisivat toteutettavissa muiden PID-järjestelmien resoluutiopalveluissa.

Parhaita työryhmiä heikommin sijoittuvat ne, joilla on relevantti ja ratkaistavissa oleva ongelma, mutta joiden ratkaisu ei täysin tyydytä, ainakaan Suomessa. Tätä ryhmää edustaa Research Data Repository Interoperability –työryhmä9, jonka toiminta on päättymässä. Ryhmän Final Recommendations -suosituksissa10 kuvataan tavoite:

lack of interoperability between research data repository platforms causes research data not to be used to their full potential. The goal of the RDA Research Data Repository Interoperability WG (RDRIWG) was to achieve consensus on an adoptable approach to facilitating research data repository interoperability for a defined set of initial use cases.

Ratkaisuksi kehitettiin:

a general exchange format based on the well-known BagIt specification complemented with BagIt Profiles, another specification defining how to describe the internal structure of BagIt-based packages.

BagItin11 avulla voidaan luoda data-arkistoon lähetettäviä yksinkertaisia siirtopaketteja, jotka sisältävät data-aineiston ja metatietoja. Standardina se on oleellisesti yksinkertaisempi kuin Suomessa myös data-aineistojen paketointiin käytettävä METS. Oletan että ryhmä valitsi BagItin koska sen käyttöönotto on yksinkertaista. Suomen kannalta linjaus merkitsee sitä, että CSC:n rakentamaan METS-pohjaiseen paketointipalveluun tulisi lisätä myös BagIt-tuki, jos tutkimusdataa aiotaan siirtää Research Data Alliancen suositusten mukaisesti.

Data Fabric Interest Group: onko maailma muutettavissa

RDA:n ”murheenkryyni” on mielestäni Data Fabric –intressiryhmä (DFIG)12, jonka kunnianhimoisena tavoitteena oli luoda ei enempää eikä vähempää kuin

a new platform for data science that is easy enough to use by the scientific users yet flexible enough to cope with different interests and new emerging technologies

Yhteisen alustan luonti oli tarkoitus aloittaa empiirisellä tutkimuksella, jolla olisi kartoitettu kaikkien tieteenalojen tarvitsemat yhteiset palvelut. Tässä ei kuitenkaan ole edistytty, sillä use case –kuvauksia on saatu vain viisi. DFIG onkin keskittynyt pysyvien tunnisteiden käytön edistämiseen, mikä toki liittyy sen toimenkuvaan. Alkuperäistä tavoitetta ei kuitenkaan ole unohdettu, sillä DFIG:n kotisivulla kerrotaan seuraavaa

Excellent scientists working on date [sic] intensive science tasks are forced to spend about 75% of their time to manage, find, combine and curate data. What a waste of time and capacity. The DFIG is therefore looking at the data creation and consumption cycle to identify opportunities to optimize the work with data, to place current RDA activities in the overall landscape, to look what other communities are doing in this area and to foster testing and adoption of RDA outputs.

Väite data-aineistojen ylläpidon raskaudesta nykytekniikan turvin olisi uskottavampi lähdeviitteiden kera tarjoiltuna. Kunnianhimoisten tavoitteiden uskottavuutta syö se, ettei ryhmässä tapahdu kokousten välillä oikeastaan mitään. Plenary-tapaamisten hedelmällisyyttä on ulkopuolisten vaikea arvioida, koska viimeinen RDA:n sivustolle tallennettu kokousmuistio on kahden vuoden ja kolmen plenaryn takaa, 9. kokouksesta. DFIG-ryhmän kokous syksyn 2018 plenaryssä oli silkkaa ajan hukkaa harvalukuiselle osallistujakaartille. Tapaamisessa esiteltiin aluksi DFIG:n omaksuma digitaalisten objektien arkkitehtuuri (DOA), ja sen jälkeen kiisteltiin yksittäisen tutkijan kanssa pitkään siitä, onko kyseinen arkkitehtuuri ylipäätään relevantti data-aineistojen kannalta. Tästä kinastelusta ei kaksista kokousmuistiota olisi syntynytkään.

Peter Wittenburg et. al. kuvaavat DOA-arkkitehtuurin tammikuussa 2019 julkaistussa artikkelissa Digital Objects as Drivers towards Convergence in Data Infrastructures13. Tekstiä voi luonnehtia kunnianhimoiseksi, tavoitteena kun on korvata Internetin DNS-nimipalvelu ja World Wide Web. Tämän paradigmamuutoksen taustavoima on Handle Systemistä vastuun ottanut DONA Foundation, mutta sen arkkitehti on TCP/IP:n kehittäjä Robert Kahn, joka on Handle Systemin keskeinen taustahahmo. Hän on valinnut myös DONA Foundationin johtokunnan ja vastaa yhdistyksen säännöistä.

Vallankumous on tarkoitus toteuttaa näillä välineillä:

  1. The Identifier and Resolution Protocol (IRP), also known in an earlier version as the Handle System Protocol, is used for creating, updating, deleting, and resolving digital object identifiers.
  2. The Digital Object Interface Protocol (DOIP)14, is defined for use by digital object services more generally, of which the repository and registry systems are specific instances. Digital object services are intended to implement the DOIP and its basic required features.

DOIP-protokollan versio 2.0 julkistettiin marraskuussa 2018. Handlen seuraajaksi ajateltu IRP-protokolla on rakenteilla, mutta toistaiseksi siitä ei ole saatavilla edes luonnosta. Sisäpiiristä saamani tietojen mukaan mitään oleellisia teknisiä muutoksia ei ole tulossa, vaan uuden version pihvi on standardin hallintorakenteen muuttuminen.

Handle-tekniikkaan voi perehtyä Handle Systemin määrittelevissä RFC-julkaisuissa, jotka ovat RFC 365015, RFC 365116 ja RFC 365217. Keskeistä on se, että Handle tarvitsee Internetin nimipalvelua vain resolveriverkoston osoitetta (https://doi.org, http://hdl.handle.net) varten. Verkoston sisällä oikea resolveri löytyy Handle- tai DOI-etuliitteen avulla. Ja toisin kuin domain-nimet kuten helsinki.fi, Handle systemin etuliitteet ovat pysyviä ja ainutkertaisia. Niitä ei vuokrata, vaan myydään. Tästä syystä voi sanoa, että Handle System tarjoaa pitävän perustan pysyville tunnisteille, toisin kuin domain-nimet, jotka ovat cool URIen petollinen perusta. Handle on myös vaihtoehto IETF:n jo ennen Handlea hyväksymälle URN-tunnukselle, joka on periaatteessa täysin teknologiariippumaton – URN-tunnuksiin ei periaatteessa tarvitse tallentaa edes resolverin osoitetta, toisin kuin Handle- ja DOI-tunnuksiin.

RFC 3650-3652 eivät ole Internet-standardeja, ja Handle Systemin tarjoamasta vaihtoehtoisesta verkkoarkkitehtuurista ei sen houkuttelevuudesta huolimatta oltu IETF:ssä yksimielisiä, kaukana siitä. Jokaisen Handle-RFC:n alussa on seuraava Internet Engineering Steering Groupin poikkeuksellinen huomautus:

Several groups within the IETF and IRTF have discussed the Handle System and its relationship to existing systems of identifiers. The IESG wishes to point out that these discussions have not resulted in IETF consensus on the described Handle System, nor on how it might fit into the IETF architecture for identifiers. Though there has been discussion of handles as a form of URI, specifically as a URN, these documents describe an alternate view of how namespaces and identifiers might work on the Internet and include characterizations of existing systems which may not match the IETF consensus view.

Handle Systemin IETF:ltä saama kylmä kohtelu selittää osittain sen, miksi Handle Systemiä kehitetään DONA Foundationissa. DONA Foundation perustelee pesäeroa myös maantieteellisillä syillä18:

In the late 2000s, following the many years of discussion about “Internet Governance,” it was clear that a system for managing information in digital form that was rooted in the U.S. would have limited global acceptance. Specifically, many countries and organizations interested in developing and deploying components of the Digital Object Architecture (DOA), including in particular the identifier/resolution mechanism were basically reluctant to do so. It was subsequently determined that such an information system rooted in a neutral forum would be a good alternative; and Geneva was selected for that purpose.

Epäilevä Tuomas päätynee myös siihen tulokseen, että DONA Foundationissa Robert Kahn voi jatkaa järjestelmän kehittämistä oman mielensä mukaan. Koko verkkoliikenteestä Handle Systemin osuus on vielä pieni, mutta kuitenkin miljardeja käyttökertoja vuodessa. DOIP-protokollan myötä DONA Foundationin DOA-arkkitehtuurin IETF:lle ja W3C:lle asettama haaste on entistäkin selkeämpi.

Handle System tuskin syrjäyttää Internetin nimipalvelua, tutkimusdatan osalta RDA ja sen Data Fabric –intressiryhmä pyrkivät pienimuotoiseen kumoukseen. Mitään äänestystä tai edes yleistä keskustelua tästä linjauksesta ei ole pidetty. Lupaukset siitä, että DOA-arkkitehtuurin omaksuminen tehostaisi data-aineistojen käsittelyä tavattomasti nykyisestä on hyväksytty lähes ilman kritiikkiä. Arkkitehtuurihan on täysin yleinen, eikä ota data-aineistoja huomioon muista aineistoista poikkeavalla tavalla. Ehkä juuri siksi Data Fabric –kokouksessa arkkitehtuuria arvostelleelle professorille ei kyetty kertomaan riittävän konkreettisesti, millä tavalla DOA hänen elämäänsä helpottaisi.

Joka tapauksessa pidän hyvänä asiana sitä, että tutkimusdata-aineistoille annetaan pysyviä tunnisteita eikä niin sanottuja Cool URI –tunnuksia. Useimmat Handle- ja DOI-tunnuksia jakavat tahot tuskin tietävät mitään tunnisteiden takana olevasta arkkitehtuurista ja ideologiasta, eikä niiden tarvitse siitä mitään tietääkään.

Lopuksi

Research Data Alliancesta on muutamassa vuodessa kehittynyt todennäköisesti tärkein kansainvälinen data-aineistoihin keskittyvä yhteistyöorganisaatio. Sen toiminta on monipuolista, ja myös tulosten laatu vaihtelee. Vaikka henkilöjäseniä on tuhansittain, työ- tai intressiryhmissä yksittäisen henkilön panos voi olla erittäin suuri.

Lähes kaikki ne työryhmät, joissa olen itse ollut mukana, ovat olleet melko passiivisia kokousten välillä. Puheenjohtajien rooli korostuu silloin, kun kaikki osallistuvat työskentelyyn o.t.o. Heidän aktiivisuudestaan ja asenteestaan riippuu, miten ryhmä tehtävässään onnistuu.

Paljon on jo saatu aikaan, mutta puuttuuko vielä jotakin? Jokaisella RDA-kävijällä on tästä varmasti oma näkemys, mutta itse toivon, että RDA jatkossa panostaa nykyistäkin enemmän tutkimusaineistojen metadatan semanttisen yhteismitallisuuden kehittämiseen. Metadata Interest Group on jo julkaissut kotisivullaan19 muun muassa metadataperiaatteet ja listan data-aineistojen kuvailussa suositeltavista tietoelementeistä sekä näiden elementtien kuvaukset. Mutta ryhmä ei ole esimerkiksi vertaillut olemassa olevia erityisalojen data-aineistojen kuvailuformaatteja kuten DDI:tä20 yleiseen DCAT-määritykseen, tai arvioinut W3C:n kehittämän DCAT-ratkaisun21 käyttökelpoisuutta ylipäätään. Riippuvuus vapaaehtoistyövoimasta asettaa toki rajoja sille, mitä RDA ylipäätään pystyy tekemään, mutta sama haaste on oikeastaan kaikilla standardointijärjestöillä. Vaikka niillä on palkattua työvoimaa yleensä enemmän kuin RDA:lla, standardit kirjoitetaan aina asiantuntijatyönä, oman toimen ohessa.

Lähdeviitteet

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1) 00014 Helsingin yliopisto
sähköposti: juha.hakala [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.