Tutkimusyhteistyötä avoimella datalla – Kuulumisia ONB symposiumista

Näpärä L (2021). Tutkimusyhteistyötä avoimella datalla – Kuulumisia ONB symposiumista. Tietolinja 2021 (2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2021121661238

Itävallan kansalliskirjasto järjesti marraskuun 2021 lopussa ONB Labin symposiumin ja juhlisti samalla labin kolmivuotista taivalta. Tapahtumaan osallistuneet saivat kuulla ONBläisten näkökulmia tutkimukseen ja opetukseen, minkä lisäksi kuultiin kokemuksia myös muista kansainvälisistä labeista.

Labien tarkoitus

Labit tuottavat dataa kirjasto-, arkisto- ja museoaineistoista. Lisäksi ne tarjoavat työkaluja ja ohjeita näiden aineistojen käyttämiseen, jotta dataa voidaan hyödyntää esimerkiksi tutkimuksessa. Yksi esimerkki työkaluista on tutkimustarkoituksiin muokattavat Jupyter-työkirjat. Lisäksi labeissa pidetään olennaisena sitä, että ne luovat ja pitävät yllä mahdollisuuksia yhteistyölle datan tarjoajien ja datan käyttäjien välillä.

Symposiumissa kuultujen puheenvuorojen mukaan yhteistyömahdollisuuksia ja datan käyttäjien tarpeita oli kerätty monissa labeissa käyttäjälähtöisellä tiedonkeruulla. Lisäksi oli hyödynnetty palvelumuotoilua. Myös tiedonvaihtoa asiantuntijoiden välillä korostettiin: sillä tavoin pystytään peilaamaan omia toimintoja kansainvälisiin verrokkeihin.

Yhteistyö perustuu vuorovaikutukseen

Päivään johdateltiin ONB labin tutkimus- ja kehitysosaston johtaja Max Kaiserin esittämien kysymyksien johdolla: Mitä muuta avoimuus tarkoittaa kuin avointa dataa? Mitkä ovat avoimuuden vaatimukset? Mitä avoimuus tarkoittaa eri käyttäjäryhmille?

Osallistujia heräteltiin pohtimaan näitä Mentimeterissä ja siitä jatkettiin Itävallan OpenGLAMin Sylvia Petrovic-Majerin vetämään vuorovaikutteiseen avoimuutta ja yhteistyötä käsittelevään esitykseen, jossa korostui jaetut tavoitteet ja uuden tiedon luominen.

Digiaineistojen pimeät vuosikymmenet ja sanomalehtien tutkimus

Eva Pfanzelter Innsbruckin yliopistosta kertoi digitaalisten aineistojen pimeistä vuosikymmenistä ja keinoista, miten niihin liittyviä pulmia voisi ratkaista. Pimeillä vuosikymmenillä tarkoitetaan Euroopan laajuisesti usein 1950-luvulta alkavaa digitaalisten aineistojen puutetta. Tähän on monia syitä. Merkittävät ovat kuitenkin se, että materiaalia ei ole digitoitu tai sitä ei ole saatavissa tekijänoikeudellista syistä. Tutkimuksellisista intresseistä tarkasteltuna ajanjakso kattaa esimerkiksi kylmän sodan, Euroopan Unionin synnyn sekä lukuisia yhteiskunnallisia kysymyksiä. Pimeiden vuosikymmenien tutkimukseen ei ole vielä yhtä oikeaa ratkaisua, mutta Pfanzelter pitää olennaisena yhteistyötä datan tarjoajien ja eri alojen tutkijoiden välillä, jotta erilaisia vaihtoehtoja pimeyden vähentämiseen pystyttäisiin löytämään.

Sarah Oberbichler kertoi tutkijan näkökulmasta, mitkä asiat ovat olennaisia digitaalisten sanomalehtipalveluiden käytössä. Hän mainitsi kuusi seikkaa:

  1. Datan saatavuus, jotta tutkimus on ylipäätään mahdollista.
  2.  Metadatan laatu mahdollistaa sekä datan löydettävyyden että sen tutkimisen itsessään.
  3. Tarkennettu haku tietokannassa mahdollistaa datan otoksen tarkentamista omaan tutkimusintressiin.
  4. Artikkelierottelu helpottaa haun kohdentamista ja datan muodostamista isommasta kokonaisuudesta tarkemmaksi.
  5. Omien datasettien muodostaminen helpottaa tutkimukseen käytettävän datan hallintaa.
  6. Datan lataaminen itselle helpottaa datan työstämistä.

Esimerkkejä kansainvälisistä labeista

Kansainvälisten labien osuudessa kuultiin neljästä eri labista. Ensimmäiseksi kuultiin Belgian datasta ja siihen liittyvistä monitieteisistä tutkimusasetelmista. Tärkeäksi nähtiin datan jakamiseen liittyvien tapojen kehittäminen. Vaihtoehtoina ovat esimerkiksi datan jakaminen silloin, kun tutkijat sitä pyytävät ja erilaiset sopimusmenettelyt. Tulevaisuudessa myös erilaiset suljetut virtuaaliset labit, joissa dataa jaetaan suljetuissa ympäristöissä tutkimuskäyttöön, voisivat olla mahdollisia, jos kaikki juridiset kysymykset saadaan selvitettyä.

Kongressin kirjasto esitteli omaa digitaalista strategiaansa, jossa tavoitteena on tarjota dataa eri käyttäjäryhmille ja avata kokoelmat laskennallisia menetelmiä hyödyntäville tutkijoille. Kongressin kirjastossa on toiminut jo muutaman vuoden ajan kilpailulla haettuja innovaattoreita, jotka ovat kehittäneet kokoelmien käyttöä lab-ympäristössä. Massiiviseen määrään dataan perustuva Benjamin Leen kehittämä Newspaper Navigator hakee kuvista samankaltaisuuksia, ja käyttäjä voi luoda oman kuvakokoelmansa erillisessä käyttöliittymässä.

Luxemburgin labin esityksessä keskityttiin siihen, miten digitoinnista syntyy dataa ja millaisia työkaluja sen käyttöön on saatavilla. Toistaiseksi työkalut ovat keskittyneet datan laadun parantamiseen. Esimerkiksi automaattista tekstintunnistusta ja nimien tai paikkojen erottelua aineistoon on kehitetty.

Viimeisessä lab-esityksessä palattiin Itävallan ONB labiin ja eri tapoihin, miten dataa on tarjolla, mitä standardeja käytetään sekä miten käyttäjien kanssa vuorovaikutetaan. Haasteiksi todettiin moninainen ja käyttörahoitettu data. Toisaalta tekniset haasteet sekä henkilöstön osaamisessa että siinä, mihin tällä hetkellä erilaiset työkalut taipuvat heikensivät datakokonaisuuksien täysimittaista hyödyntämistä.

Lopuksi

Symposiumin anti oli kiinnostava. Eri vaiheissa olevat labit painivat samankaltaisten haasteiden parissa, vaikka yksityiskohtaiset dataa tarjoavat tavat ja sen käyttöön saatavilla olevat työkalut vähän vaihtelevat. Kaikki ne kuitenkin pyrkivät käyttäjiensä kanssa yhteistyöhön ja löytämään uusia toimintatapoja hyödyntää dataa eri tarkoituksiin.

Kirjoittaja

Liisa Näpärä, tietoasiantuntija
Kansalliskirjasto, tutkimuskirjasto, Mikkelin toimipiste
liisa.napara [at] helsinki.fi

 

 

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.