Digi.kansalliskirjasto.fi:n lataustyökalun kehitys ja uudet ominaisuudet

Liukkonen E. (2023). Digi.kansalliskirjasto.fi:n lataustyökalun kehitys ja uudet ominaisuudet. Tietolinja, 2023(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe20231218155444

Digin lataustyökalua on kehitetty useamman vuoden ajan. Työkalun tarkoitus on tehdä mahdolliseksi tekijänoikeudesta vapaan aineiston lataaminen digi.kansalliskirjasto.fi-palvelusta. Ladatun aineiston jatkokäsittelyä varten työkaluun on kehitetty myös tarkastelutyökalu, jolla on esimerkiksi mahdollista tarkastella, hakea ja poistaa ladattuja aineistoja. Tämän vuoden aikana työkaluun kehityt uudet leikeominaisuudet mahdollistavat lisäksi digi.kansalliskirjasto.fi-palvelussa luotujen leikkeiden lataamisen ja jatkokäsittelyn lataustyökalun avulla.

Työkalun kehityksen historiaa

Ensimmäinen versio lataustyökalusta kehitettiin osana Digitaalinen avoin muisti (DAM) -hanketta vuosina 2020–2021. Hankkeen aikana käyttäjille tehdyssä kyselyssä nousi toiveita digitaalisten aineistojen käytön helpottamisesta ja työkalu kehitettiin osaltaan vastaamaan näihin toiveisiin. Työkalun ensimmäisen version testausvaiheessa testaajiksi valikoitui tutkijoita ja tutkijoihin rinnastettavia käyttäjiä. Testaajien arvokkaan palautteen avulla työkalun ominaisuuksia paranneltiin ennen julkaisua. Saatu palaute toi myös uusia ideoita työkalun myöhempää jatkokehitystä ajatellen.

Toinen versio työkalusta kehitettiin vuonna 2022. Uudessa versiossa työkalun käyttöliittymään integroitiin selainnäkymä helpottamaan ladattavien aineistojen hakua ja rajausta Digin käyttöliittymää hyödyntäen. Lisäksi toinen versio sisälsi uudistuksena tarkastelutyökalun, jonka avulla voi tarkastella ja käsitellä ladattuja aineistoja. Työkalun toista versioita kehitettiin ja ideoitiin Kansalliskirjaston Mikkelin toimipisteessä vuonna 2022 olleen tutkijaresidenssipilotin aikana ja tarkastelutyökalun kehittäminen lähti erityisesti näiden keskustelujen pohjalta liikkeelle.

Työkalun uuden version ominaisuudet

Tänä vuonna julkaistulla työkalun uusimmalla versiolla voi ladata leikkeitä, joita käyttäjät ovat luoneet digi.kansalliskirjasto.fi:n aineistoista. Leikkeiden lataamisesta työkalun avulla keskusteltiin jo DAM-hankkeen aikana. Leikkeiden latausta varten työkalun käyttöliittymään on lisätty ”Leikkeet”-välilehti. Sen toimintojen ja työkaluun integroidun Digin hakunäkymän avulla leikkeiden lataaminen on mahdollista. ”Leikkeet”-välilehdeltä voi valita, ladataanko sekä leikkeiden tekstit että leikkeiden kuvat. Lisäksi voidaan valita tallennussijainti ja hakemistorakenne, johon leikkeet tallennetaan. Työkaluun integroidussa Digin leikkeiden hakunäkymässä rajataan ladattavat leikkeet, jonka jälkeen leikkeet ovat ladattavissa. Tavalliset aineistot ladataan vastaavasti työkalun ”Aineistot”-välilehden kautta.

Leikkeiden tarkastelua ja muuta käsittelyä voi jatkaa latauksen jälkeen leikkeiden tarkastelutyökalussa. Leikkeiden sisältämään tekstiin ja muuhun metadataan voi tehdä hakuja, poistaa tarpeettomilta vaikuttavia leikkeitä ja lisätä leikkeisiin liittyviä muistiinpanoja. Jokaisen leikkeen kohdalla on myös painikkeet, joiden kautta voi avata hakemistot, joihin leikkeiden ladatut teksti- ja kuvatiedostot on latauksen jälkeen tallennettu. Jokaisen leikkeen kohdalla on myös linkki leikkeen sivulle Digissä, jossa voi esimerkiksi tarkemmin tarkastella, millaisessa kontekstissa leikkeen sisältämä teksti on esitetty.

Ladattujen leikkeiden sisältämälle tekstille voi antaa asiasanoja tarkastelutyökalussa Finto AI -rajapintapalvelun avulla. Palvelu perustuu Annif-työkaluun. Tarkastelutyökalun kautta saa käynnistettyä erillisen työkalun, joka lähettää leikkeiden tekstin rajapintapalveluun. Rajapintapalvelu palauttaa asiasanaehdotukset jokaiselle ladatulle leikkeelle. Palvelu käyttää esimerkiksi suomenkielisten leikkeiden asiasanojen tunnistuksessa suomenkielistä mallia ja lataustyökalun suomenkielisessä versiossa asiasanat esitetään suomeksi. Asiasanaehdotuksia voi käsitellä tarkastelutyökalussa ja jokaisesta asiasanasta on linkki Fintoon. Lisätietoja saa palvelun sivuilta.

Kuvassa 1 on kuvattuna lataustyökalun sisäiset datan latauksen ja tarkastelun vaiheet ja riippuvuudet ulkoisiin Digin ja Finto AI:n rajapintoihin. Ennen latauksen aloitusta käyttäjä valitsee joko aineistojen tai leikkeiden latauksen. Sen jälkeen ladattava data rajataan Digin käyttöliittymän avulla. Myös ladattavat tiedostoformaatit, tallennussijainti ja hakemistorakenne on mahdollista valita. Data ladataan työkalun käyttöä varten Digiin kehitettyjen aineisto- ja leikerajapintojen avulla. Latauksen jälkeen datan käsittelyä on mahdollista jatkaa aineistojen ja leikkeiden tarkastelutyökaluissa. Leikkeiden tarkastelutyökalussa leikkeiden sisältämää tekstiä voi asiasanoittaa Finto AI:n rajapintapalvelun kautta. Myös muiden työkalujen integroiminen lataustyökaluun olisi mahdollista rajapintojen avulla tai muut työkalut voitaisiin myös suoraan integroida osaksi lataustyökalua.

Graafinen esitys Digin lataustyökalun toiminnasta.

Kuva 1. Digin lataustyökalun datan latauksen ja tarkastelun vaiheet ja riippuvuudet Digiin ja Finto AI-rajapintapalveluun.

Tavoitteena helppokäyttöisyys ja laaja käyttäjäkunta

Lataustyökalun kehittämisessä on pyritty työkalun helppokäyttöisyyteen. Sen on tarkoitus soveltua mahdollisimman hyvin teknisiltä taidoiltaan erilaisille käyttäjille, joilla on erilaisia menetelmällisiä tarpeita ja osaamista. Kaikki työkalun käyttöön vaadittava tulee työkalun mukana, eikä se vaadi esimerkiksi erillistä Python-asennusta toimiakseen. Työkalun mukana on kattavat käyttöohjeet työkalun eri toiminnallisuuksien käyttämiseksi. Lisäksi on laadittu työkalun käyttöä opastavia ohjevideoita aina työkalun uuden version julkaisun yhteydessä. Työkalusta ja sen käyttöohjeista on myös saatavilla versiot englanniksi ja ruotsiksi. Työkalun lähdekoodi on saatavilla GitHubista, jotta teknisiltä taidoiltaan edistyneimmät käyttäjät voivat halutessaan tehdä omia muutoksia työkalun tarjoamiin ominaisuuksiin. GitHub ei kuitenkaan ole työkalun ensisijainen latauspaikka, vaan työkalu on ladattavissa Digin avoimen datan sivulta helposti käyttöön otettavana pakettina. Näin madalletaan työkalun käyttöönottokynnystä ja vältetään tilanne, jossa GitHub jäisi ainoaksi latauspaikaksi. Työkalun uudistuksista on myös tiedotettu kattavasti eri kanavia pitkin, jotta työkalun potentiaaliset käyttäjät tavoitettaisiin mahdollisimman hyvin.

Siihen nähden, että työkalu on uusi, on lataustyökalu löytänyt jo käyttäjiä ja aineistoja on ladattu. Kuvassa 2 on nähtävissä tarkemmat latausmäärät.

Kaksi taulukkoa lataustyökalulla suoritetuista latauksista vuonna 2022.

Kuva 2. Lataustyökalun kahdella ensimmäisellä versiolla vuoden 2022 aikana tehdyt lataukset.

Lataustyökalua kehitetään edelleen ja kaikki palaute ja kehitysideat ovat tervetulleita. Työkalu on ladattavissa Digin avoindata-sivulta kohdasta DAM 2019–2021. Tarkemmat ohjeet työkalun käyttöön tulevat työkalun mukana. Lataustyökalun leikeominaisuuksia esittelevä video on nähtävissä Kansalliskirjaston YouTube-kanavalla.

Vipuvoimaa EU:lta -logo ja Mikkelin yliopistokeskuksen logo alekkain.Lataustyökalun ensimmäinen versio on kehitetty osana Digitaalinen avoin muisti (DAM) -hanketta, jota rahoitti Euroopan aluekehitysrahasto Vipuvoimaa EU:lta 2014–2020. Tutkijaresidenssipilotin rahoittajana toimi Mikkelin yliopistokeskus.

 

Kirjoittaja

Erno Liukkonen, tietojärjestelmäasiantuntija
Kansalliskirjasto, tutkimuskirjasto, Mikkelin toimipiste
erno.liukkonen [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.