Sukukielten digitointiprojekti ja digitoidun tekstiaineiston korjaaminen OCR-editorissa

Jussi-Pekka Hakkarainen
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe2014052225984

 

Kansalliskirjasto toteuttaa Koneen Säätön myöntämällä apurahalla Sukukielten digitointiprojektin jatkohankkeen vuosina 2014–2015. Sukukielten digitointiprojekti on jatkoa hankkeen pilottikaudelle (2012–2013), jonka aikana valmisteltua tuotantotapaa laajennetaan edelleen jatkohankkeessa hyödyntämään uralilaisilla kielillä tehtävää tutkimusta ja edistämään suomalais-ugrilaisilla kielillä harjoitettavaa kansalaistiedettä.

Jatkohankkeen aikana on tarkoituksena digitoida ja saattaa käyttöön lähes 1100 monografia- ja 51 sanomalehtinimekettä. Monografiasivuja suunnitelman mukaisesti kertyy noin 88 000 ja sanomalehtisivuja noin 69 000. Digitoitavat aineistot on valikoitu yhteistyössä kotimaisen tutkijakunnan kanssa ja sen on katsottu palvelevan niin kotimaista kuin ulkomaista fennougristiikan alan tutkimusta. Aineisto saatetaan käyttöön pilottihankkeen tavoin Kansalliskirjaston ylläpitämässä Fenno-Ugrica –kokoelmassa.

OCR-editori kielentutkimuksen tueksi

Sukukielten digitointiprojektilla on kiinnekohtia myös kieliteknologiseen tutkimukseen, sillä projektin yhdeksi päämääräksi voidaan laajasti ajatella digitaalisten kirjasto- ja arkistoaineistojen käyttötapojen ja käytettävyyden parantaminen. Projektissa on edistetty suomalais-ugrilaisen aineiston käyttöön saattamisen lisäksi menetelmiä, joilla digitoitua raakadataa voidaan jalostaa entistä käyttökelpoisemmiksi aineistoiksi ja joilla aineistoa voidaan hyödyntää.

Sukukielten digitointiprojektissa näillä menetelmillä tarkoitetaan digitoidun aineiston OCR-tunnistuksen lisäämistä, tunnistetun tekstimassan palstoittamista sekä ennen kaikkea kielenkorjaukseen tarkoitetun OCR-editorin kehittämistä, jonka avulla voidaan digitoinnin ja OCR-tunnistuksen yhteydessä jääneitä virheitä korjata tehokkaasti ja talkoistamalla.

Sukukielten digitointiprojektin aikana on toteutettu web-käyttöliittymä (OCR-editori) digitoitujen kirjojen ja sanomalehtien kuvista tunnistetun tekstin korjaamiseen ja muuhun editointiin. Tekstintunnistus (OCR) tuottaa virheellisiä merkkijonoja erityisesti huonolaatuisista originaaleista, sekä kielistä, joiden korpuksia ei vielä ole saatavilla. Virheet on korjattava, että tunnistettua tekstiä voi jatkokäyttää.

OCR-editori koostuu kahdesta pääosasta:

  1. editorin käyttöliittymästä, jota tekstin korjaajat käyttävät sekä
  2. sen taustalla olevasta järjestelmästä, jossa hallinnoidaan tietokantoja, aineistoja ja niiden versiointia, käyttäjiä, selausnäkymiä ja muita editoinnin vaatimia toimintoja.

Käyttöliittymä on toteutettu JavaScriptillä ja taustajärjestelmä Pythonilla. Tiedonsiirto tapahtuu JSON API:lla toteutetun REST-rajapinnan avulla. OCR-editoriin ladataan saaduista paketeista ALTO XML -tiedosto ja kuvatiedostot sekä paketeista saatava metadata; nimeke, tekijä ja pääasiallinen kieli. Näistä muodostetaan aineistoluettelo, josta aineisto voidaan valita avattavaksi editointikäyttöliittymässä. Kansalliskirjasto on julkaissut OCR-editorin avoimena lähdekoodina.

Taustajärjestelmä on suunniteltu niin, että se mahdollistaa toisistaan täysin irralliset projektit, so. aineistot ja käyttäjät eivät näy yli projektin rajojen. Käyttöoikeuksien hallinnointi perustuu kokoelmarakenteeseen. Toimittaja voi editoida aineistoja ainoastaan niissä kokoelmissa, joihin hänelle annetaan riittävät oikeudet. Päätoimittaja voi myös delegoida hallinnointioikeuksia. Hallintokäyttöliittymän toteutus on vielä työn alla

Aineistoja voi tuoda OCR-editorista sivu tai dokumentti kerrallaan. Käytännössä jokaista sivua vastaa yksi ALTO XML -tiedosto; tarvittaessa ne voidaan esittää peräkkäin. Editorin suunnittelun yhteydessä on keskusteltu siitä, missä muodossa aineiston pitäisi olla saatavissa. On ilmeistä, että XML-tiedosto on jatkokäsittelyn kannalta kiitollisin. Sen käyttö edellyttää hieman taitoa mutta on kaiken kaikkiaan vain tekstinkäsittelyä. XML-tiedostosta voi varsin helposti tuottaa ihmisluettavan version, siis pelkän tekstin; tai sanaluettelon; tai muutakin.

OCR-editorin tekniseen toteutukseen voi perehtyä syvemmin Wouter Van Hemelin bloggauksen avulla.

 

OCR-editorilla työskentely

OCR-editorilla työskentely muistuttaa pitkälti tekstikäsittelyä, mutta korjaustyössä on apuna kuva editoitavan teoksen sivusta. Päästäkseen korjaamaan aineistoa, toimittaja valitsee haluamansa dokumentin aineistoluettelosta muokkaamista varten. OCR-editorissa toimittaja näkee näytöllä rinnakkain dokumentin yhden sivun faksimilena ja sen konetunnistetun tekstin. Toimittaja voi halutessaan pitää kuvan ja tekstin rinnakkain tai päällekkäin.  Kuvaa voidaan liikutella hiirellä, pienentää ja suurentaa ja klikkaamalla sanaa joko kuvassa tai tekstissä, sana korostuu molemmissa versioissa. Tekstiä voi korjailla tavanomaiseen tapaan. Korjatut sanat saa näkymään korostettuina, keskeneräisen sanan punaisen ja korjatun ja tallennetun sanan vihreänä. Erikoisten merkistötarpeiden takia toimittaja saa käyttöönsä myös merkkivalikon, josta valitsemalla tekstiin voi lisätä merkkejä, jotka ovat hankalia käytössä olevalla näppäimistöllä. Editorin käyttöohje löytyy kokonaisuudessaan Kirjastoverkkopalveluiden Kiwistä.

Kuva. Korjattua vanhaa kirjasuomea OCR-editorissa.

Kuva. Korjattua vanhaa kirjasuomea OCR-editorissa.

 

Kokemuksia OCR-editorin käytöstä ja käytännöistä

Tutkijoiden kanssa harjoitetun yhteistyön voidaan sanoa olleen OCR-editorin kehittämisen osalta keskeisellä sijalla, sillä tutkijat ovat olleet mukana suunnittelussa eri kehitysvaiheissa. Ilman heidän kontribuutioitaan, OCR-editoriin liitetyt toiminnallisuudet eivät välttämättä vastaisi niitä tavoitteita, mitä sille asetettiin ja millaiseen työhön tutkijat editoria käyttäjät. OCR-editoria pilotoitiin eri projektien yhteydessä talven ja kevään 2014 aikana. Palautteen perusteella editorin käytettävyyttä on voitu kehittää ja ottaa huomioon eri käyttäjäryhmien erityistarpeita.

Keskeistä roolia tässä OCR-editorin jalkauttamisessa näyttelivät Tampereen yliopiston suomen kielen ensimmäisen vuosikurssin opiskelijat, jotka talkoistivat lehtori Minna Vanhasalon johdolla Ericus Erici Sorolaisen Postillan ensimmäistä osaa vanhan kirjasuomen kurssillaan. Kokemus editorilla työskentelystä oli monella tapaa onnistunut, sillä editorilla työskentely koettiin sekä helpoksi että mielenkiintoiseksi, huonolaatuisesta lähtödatasta huolimatta. Myös Vanhasalon pitämän kurssin tavoitteet ylittyivät: usein vanhan kirjasuomen (pakollinen) kurssi on koettu opintojen alussa riippakiveksi, mutta uuden työskentelymetodin avulla sekä oppimistulokset paranivat että aikaisemmin kurssin mielenkiinto kohosi. Palautteen perusteella OCR-editoria olisi mahdollista kehittää enemmän kielipedagogisempaan suuntaan, auttamaan esim. vieraiden kielten hallinnassa ja opetuksen tukivälineeksi.

Kurssi toimi myös eräänlaisen pilottina Kotimaisten kielten keskuksen (Kotus) vanhan kirjasuomen sanakirjaprojektille, joka on ottanut OCR-editorin työkäyttöönsä talven 2014 aikana. Myös Kirjallisuuspankki-hankkeessa ja Sukukielten digitointiprojektissa on editorin avulla työstetty digitoituja aineistoja kuluneen kevään aikana ja näissä hankkeissa ollaan siirtymässä laajamittaisempaan työskentelyyn lähiaikoina. Sukukielten digitointiprojektissa ensimmäiset kansalaistieteilijät aloittavat inkeroisen kielen talkoistamisen kesäkuun 2014 aikana. Tarkoituksena on, että vuoden 2015 loppuun mennessä Sukukielten digitointiprojektin aineisto pienempien kielten osalta olisi korjattu talkoistamalla kokonaisuudessaan, ja että keskisuurten kielten osalta olisi saatu korjattua sellainen kielimateriaali, joka on kirjakielten muotoutumisvaiheille ominaista, esim. erikoisalojen sanasto, jota kehitettiin sukukielissä intensiivisesti 1920- ja 1930-luvuilla eri tiedonaloilla.

 

Lisätietoja tutustumista varten

Maaliskuussa 2014 Sukukielten digitointiprojekti järjesti OCR-editorin tiimoilta webinaarin, johon osallistui paikan päällä ja etänä lähes 50 osallistujaa aina Venäjää, Keski-Eurooppaa ja Kanadaa myöten. Osallistujat olivat pääsääntöisesti joko kirjastosektorilta tai kielentutkimuksesta. Webinaarin nauhoite löytyy projektin blogista, mikä on myös paras foorumi sekä Sukukielten digitointiprojektin että OCR-editorin kehityksen seuraamiselle. Kysymykset ja tiedustelut suositellaan lähettämään sähköpostitse palveluosoitteeseen kk-fennougrica[at]helsinki.fi

 

Kirjoittajan yhteystiedot

Jussi-Pekka Hakkarainen, projektipäällikkö
Kansalliskirjasto/Tutkimuskirjasto
PL 26, 00014 Helsingin yliopisto
sähköposti: jussi-pekka.hakkarainen [at] helsinki.fi

Leave a Reply

Theme by Anders Norén