Uusi käyttöliittymä julkaisuarkistojen digitaalisiin aineistoihin

Tommi Jauhiainen ja Nicholas Volk
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe201106081714
 

Kansalliskirjastossa on kehitetty julkaisuarkistoihin yhdistettävä uusi digitaalisten aineistojen käyttöliittymä. Tällä hetkellä käyttöliittymä on ensimmäisessä tuotantovaiheessaan ja käytössä juuri julkaistussa Suomen osuudessa EuropeanaTravel -kokoelmaan, johon on digitoitu matkailuaiheisia teoksia 1600-1800-luvuilta. Käyttöliittymän suurimpana etuna Doriassa normaalisti käytettyihin pdf:iin verrattuna on, että se ei lataa koko teosta kerralla käyttäjän koneelle vaan näyttää teoksen sivu kerrallaan. Tällöin vältytään pitkiltä latausajoilta mahdollisesti hyvinkin isojen tiedostojen kohdalla.

Käyttöliittymään on myös liitetty Kansalliskirjastossa kehitetty alustava versio ns. sumeasta hausta, jonka tarkoituksena on parantaa tietokoneen väärin tulkitsemien sanojen löytyvyyttä perinteiseen vapaasanahakuun verrattuna. Tavallisesta hakukoneesta poiketen sumeaa hakua käyttävä hakukone pyrkii löytämään annettujen hakusanojen avulla myös osumia, jotka eivät täysin vastaa annettuja hakusanoja. Sumea haku löytää tyypillisesti osumia, joissa merkki on tippunut pois (muista->musta), vaihtunut toiseksi merkiksi (muista->maista) tai tullut lisää (muista->murista).

EuropeanaTravel -kokoelman tekstit on skannattu ja muutettu tekstiksi optisen tekstintunnistuksen avulla. Kokoelmassa käytetty hakualgoritmi pyrkii sietämään yleisemmät tunnistusvirheet. Tavallisia virheitä ovat esimerkiksi pieni l:n, ison I:n ja numeron 1 sekoittuminen keskenään. Vanhoissa tekstiaineistoissa käytetyt kirjaintyypit aiheuttavat nykylukijalle epäintuitiivisempia tunnistusvirheitä: esimerkiksi fraktuuralla kirjoitettujen tekstien s-kirjain on usein tunnistettu f- tai J-kirjaimeksi.

Doria_uusi

Käyttöliittymän saa käyttöönsä kunkin teoksen kuvailutietosivun kohdasta ”Katsele”.

Travel-kokoelman teokset löytyvät osoitteesta:
http://www.doria.fi/handle/10024/69173/browse?order=DESC&type=dateaccessioned

Kirjoittajien yhteystiedot

Tommi Jauhiainen, tietojärjestelmäpäällikkö
Nicholas Volk, tietojärjestelmäasiantuntija

Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26 (Teollisuuskatu 23)
00014 Helsingin yliopisto

sähköposti: etunimi.sukunimi [at] helsinki.fi