Fiskmö-konekäännin

Papula N, Eskola K & Nieminen T (2021). Fiskmö-konekäännin. Tietolinja, 2021(1). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2021061938982

Konekäännin on tietokoneohjelma, joka kääntää automaattisesti luonnollisesta kielestä toiseen. Viimeistään 2010-luvun lopusta lähtien niiden käyttö on yleistynyt ja kehitystyö on edennyt nopeasti. Ei ole liioittelua sanoa, että Suomessa on käynnissä konekääntämisen läpimurto juuri nyt. Tieto liikkuu kielialueiden välillä yhä enemmän ja pelkästään ihmistyönä oikeakielisten käännösten tekeminen ei enää onnistu siinä tahdissa, mikä olisi suotavaa. Yhä useampi organisaatio onkin jo ottanut konekääntimen jokapäiväiseen käyttöön.

Konekäännöstä ei yleensä julkaista sellaisenaan, vaan ammattikääntäjä tarkastaa ja korjaa koneen tekemän esikäännöksen. Konekääntimet eivät tee kääntäjien työstä tarpeetonta, vaan ovat yksi lisä kääntäjien työkaluvalikkoon. Ammattikääntäjien tuottavuuden on havaittu parantuneen huomattavasti, kun heillä on apunaan konekäännin (Läubli ym. 2019[1]; Macken ym. 2020[2]; Sánchez 2018[3]). Mitä iloa konekääntimistä olisi kirjastoille? Tähän kysymykseen hahmottelemme vastausta artikkelimme lopussa.

Neuroverkkojen kouluttamista

Uusimman polven konekääntimissä käytetään neuroverkkoteknologiaa, joita kehittävät yliopistot ja monet suuret yritykset kuten Google, Facebook, Microsoft ja Baidu. Kehitetyt parannukset teknologiaan julkaistaan yleensä kaikkien vapaaseen käyttöön. Näin uudet ideat leviävät ja tulevat kaikkien hyödynnettäviksi. Avoin tiedon ja taidon jakaminen on itsestään selvä toiminnan periaate myös Helsingin ja Turun yliopistojen sekä Kites ry:n yhteisen hankkeen tuloksena on syntyneessä Fiskmö-konekääntimessä. Sen kehitystyössä on käytetty ja käytetään samoja vapaasti saatavilla olevia neuroverkkomenetelmiä, joten Fiskmön konekäännin kehittyy koko ajan yhtäjalkaa muiden kentän toimijoiden työn avulla.

Konekääntimissä käytetyt neuroverkot opetetaan kääntämään säätämällä niiden sisäisiä arvoja suurten kieliaineistojen perusteella. Neuroverkkojen kouluttamisessa käytetään tavallisimmin kohdistetuista lausepareista muodostuvaa laajaa aineistoa, joka sisältää alkuperäisen tekstin ja sen käännöksen halutulle kielelle. Mitä enemmän näitä lausepareja on, sitä parempi on konekäännösten laatu. Useimmat konekäännökseen liittyvät neuroverkkomenetelmät ovat vapaasti saatavilla, minkä takia neuroverkkojen opettamiseen käytettävän aineiston laajuus on ratkaiseva tekijä.

Esimerkiksi maailmankielillä, kuten englanti ja espanja, on enemmän puhujia kuin suomella, joten englanti–espanja-kieliparille on saatavilla myös enemmän kieliaineistoja. Tämän vuoksi konekäännös englannin ja espanjan välillä on selvästi parempilaatuista kuin esimerkiksi suomen ja ruotsin välillä. Suomen kielen käyttäjiä on suhteellisen vähän, eikä koulutukseen kelpoisia aineistojakaan juuri ole, mikä takia konekäännösten laatu on ollut heikompi. Konekääntimien ja konekäännösten laatu paranee sitä mukaa kun neuroverkkojen kouluttamiseen on käytettävissä riittävän laadukasta ja laajaa Suomessa kerättyä ja järjestettyä aineistoa.

Määräävä tekijä konekäännöksen laadulle on siis kieliaineistojen koko. Konekäännöksen laadun ja siten myös tuottavuuden parantamiselle on Suomessa hyvät edellytykset, koska kaksikielisiä aineistoja on olemassa runsaasti: Suomessa käännetään vuosittain suomen ja ruotsin sekä suomen ja englannin välillä suuria tekstimassoja sekä julkisella että yksityisellä sektorilla. Tämä on arvokas mutta vielä piilevä kielellinen voimavara. Tähän mennessä tämä voimavara on kuitenkin jäänyt paljolti käyttämättä, sillä kieliaineistot ovat hajallaan eri organisaatioissa.

Fiskmön historia pähkinänkuoressa

Fiskmö-projekti perustettiin 2018 keräämään hajallaan olevia kieliaineistoja. Fiskmö-projekti on Helsingin ja Turun yliopistojen sekä kielialan yhteistyötä edistävän Kites ry:n yhteinen hanke, jota on rahoittanut Svenska kulturfonden. Projektissa kerätään kieliaineistoja suoraan internetistä sekä pyytämällä eri organisaatioita lahjoittamaan aineistoja projektille. Näiden aineistojen pohjalta projektissa kehitettiin konekäännin, jota voi käyttää useimmissa yleisessä käytössä olevista käännöstyökaluissa kuten SDL Trados Studio, memoQ, Wordfast ja OmegaT. Konekääntimen voi integroida suoraan näiden työkalujen käyttöliittymään laajennusten avulla. Näin konekääntimestä on muotoutunut luonteva osa kääntäjien jokapäiväistä työtä.

Tekemässämme vertailussa (Tiedemann ym. 2020[4]) Fiskmö-konekäännin oli ruotsi–suomi-kieliparille paras ja päinvastaiseen suuntaankin erinomainen, selvästi esimerkiksi Googlea parempi. Esimerkiksi Verohallinnon kääntäjistä 86 prosenttia koki Fiskmö-konekääntimen täyttäneen tai ylittäneen heidän odotuksensa (Haapalehto, tulossa[5]). Kehitetty konekäännin on julkistettu vapaaseen käyttöön kuten myös suurin osa kerätyistä kieliaineistoista.

Kuviossa 1 on esitetty arvio konekäännöksen laadun toteutuneesta sekä tavoiteltavasta kehityksestä. Konekäännöksen laatu riippuu sekä teknologiasta että kieliaineistoista. Neuroverkkoihin perustuvia konekääntimiä alettiin ottaa käyttöön vuoden 2015 jälkeen, ja siihen perustuva Fiskmö-projekti aloitti toimintansa vuonna 2018. Algoritmeja pystyttäisiin hyödyntämään huomattavasti nykyistä paremmin, jos aineistoa olisi enemmän.

Graafi havainnollistaa sitä, että konekäännöksen laatu riippuu hyvin merkittävästi kääntimen koulutuksessa käytetyn kieliaineiston laadusta. Teknologia antaisi mahdollisuuksia tuottaa paljon nykyistä laadukkaampia konekäännöksiä..

Kuvio 1: Konekäännöksen laatu suomen kielellä.

Fiskmö-projektin kanssa samaan aikaan kehitettiin Suomen EU-puheenjohtajuuskautta varten EU:n rahoituksella EU Presidency Translator -konekäännin. Näiden kahden hankkeen yhteisvaikutuksena konekäännöksen laatu suomen kielellä parantui niin paljon, että konekäännöksen läpimurto käynnistyi myös Suomessa. EU Presidency Translatorin kehityspanostukset kuitenkin päättyivät pian Suomen puheenjohtajakauden jälkeen. Myös Fiskmö-projektin rahoitus päättyy pian. Hyvä kehitys uhkaa nyt loppua rahoituksen puutteen vuoksi. Ilman lisärahoitusta konekäännöksen laatu ja siten myös kääntämisen tuottavuus tulisivat todennäköisesti kehittymään vain erittäin hitaasti.

Fiskmö-konekääntimen tulevaisuus

Hyvän kehityksen jatkamiseksi olemme kokoamassa Fiskmön sidosryhmistä koostuvaa yhteistyökonsortiota, joka tullaan perustamaan yhdistyksenä. Yhdistys huolehtii hankkeen jatkosta eli kieliaineistojen keräämisestä ja muusta asiaan liittyvästä yhteistyöstä. Suunnitteilla on, että yhdistys koostuisi kolmesta tai neljästä eri jäsenryhmästä: valtionhallinnon toimijat, kaksikieliset kunnat ja kaupungit sekä käännöstoimistot. Myös yksittäiset kääntäjät ovat tervetulleita liittymään yhdistykseen. –Yhdistys on siis avoin kaikille kiinnostuneille.

Yhteistyön ja yhdistyksen päätarkoitus on jatkaa kieliaineistojen keräämistä. Kuten edellä mainittiin, kieliaineistot ovat ratkaiseva tekijä konekäännösten laatua parannettaessa. Kieliaineistojen laajuus on myös asia, johon voimme Suomessa tehokkaimmin itse vaikuttaa. Kieliteknologian kehittymisen kannalta laadukkaat kieliaineistot ovat täysin välttämättömiä. Mitä nopeammin laajat kieliaineistot saadaan yhteisvoimin kerättyä, sitä suuremmat hyödyt saavutetaan. Kieliaineistojen kerääminen hyödyttää kaikkia konekäännöksen käyttäjiä, käyttivät he sitten Fiskmön ilmaista konekäännintä tai jotakin muuta konekäännintä.

Perusteilla oleva yhdistys edistää yhteistyötä myös jakamalla tietoa parhaista käytännöistä sekä ohjeistamalla kieliaineistojen keräämiseen ja aineistojen erottelemiseen. Joissakin organisaatioissa on jo otettu käyttöön toimintatapa, jossa käännettävät tekstit jaotellaan joko salassa pidettävään työjonoon tai julkiseen työjonoon. Näin julkistettavissa olevat aineistot saadaan käyttöön ilman että niistä käsin erotellaan salassapidettävät osat. Juuri tällaista mallia yhdistys suosittelee käyttämään.

Tulevaisuudessa tarkoitus on laajentaa Fiskmö-konekääntimen kielivalikoimaa ainakin suomi–englanti-kielipariin ja mahdollisesti myös muihin Suomessa käytettäviin kieliin. Fiskmö-konekääntimeen on jo tälläkin hetkellä saatavilla muualta saaduilla aineistoilla kehitetyt suomi–englanti- ja englanti–suomi-kieliparit.

Yhdistykselle on tehty budjetti ja sen tulevia toimintalinjauksia on jo alustavasti suunniteltu. Kesän 2021 kynnyksellä haetaan budjetin mukaista rahoitusta eri sidosryhmiltä, joihin kuuluvat nykyiset ja tulevat konekäännöksen käyttäjät. Nykyiset Fiskmön avainhenkilöt ovat lupautuneet jatkamaan yhdistyksessä, eli toiminta voi jatkua suoraan aiemman pohjalta.Tämä on erittäin merkittävä asia, ja siksikin yhdistyksen rahoitus on tärkeä saada juuri nyt koottua. Mitä useampi organisaatio lähtee mukaan yhdistyksen jäseneksi, sitä pienemmäksi muodostuu kunkin maksuosuus ja toisaalta sitä suurempi hyöty yhdistyksestä ja yhteistyöstä on kaikille osapuolille.

Konekääntimiä pystytään käyttämään kaikilla aloilla, joilla ollaan tekemisissä eri kielten kanssa. Esimerkiksi kirjastoissa konekäännöstä voitaneen hyödyntää kuvailevan metadatan laatimisessa. Mitä muuta iloa konekääntimistä voisi kirjastoille olla? Toivomme, että kirjastolaiset kertovat meille,  muun muassa työkalun kehittämistä varten.

Kotisivu: https://blogs.helsinki.fi/fiskmo-project/
Sähköposti: [email protected]

Fiskmöllä on myös oma keskustelualusta Slackissa, jossa jaetaan tietoja ja kokemuksia sekä tehdään yhteistyötä eri toimijoiden välillä. Jos haluat liittyä Fiskmö-foorumiin, lähetä liittymispyyntö edellä mainittuun sähköpostiosoitteeseen.

Kirjoittajat

Niko Papula on yksi Fiskmö-projektin perustajista ja kieliteknologiayritys Multilizerin toimitusjohtaja.

Ksenia Eskolan vastuulla Fiskmössä on kieliaineiston kerääminen.
https://orcid.org/0000-0001-8142-2966

Tommi Nieminen toimii Fiskmö-projektissa kääntämisen ja kieliteknologian asiantuntijana.

Viitteet

[1] Läubli, Samuel – Amrhein, Chantal – Düggelin, Patrick – Beatriz, Gonzalez – Zwahlen, Alena – Volk, Martin 2019: Post-editing Productivity with Neural Machine Translation: An Empirical Assessment of Speed and Quality in the Banking and Finance Domain. Proceedings of MT Summit XVII, volume 1, s. 267–272. Haettu 14.4.2021. Saatavilla: https://www.aclweb.org/anthology/W19-6626/

[2] Macken, Lieve – Prou, Daniel – Tezcan, Arda 2020: Quantifying the Effect of Machine Translation in a High-Quality Human Translation Production Process. Informatics 2020, 7(2), 12. Haettu 14.4.2021. Saatavilla:  https://www.mdpi.com/2227-9709/7/2/12

[3] Sánchez, Jose Luis Bonilla 2018: MT for L10n: How we build and evaluate MT systems at eBay L10n. Haettu 14.4.2021. Saatavilla: https://www.slideshare.net/tercio28/evaluation-of-mt-qualityproductivty-at-ebay-amta-2018

[4] Tiedemann, Jörg – Nieminen, Tommi – Aulamo, Mikko – Kanerva, Jenna – Leino, Akseli – Ginter, Filip – Papula, Niko 2020: The FISKMÖ Project: Resources and Tools for Finnish-Swedish Machine Translation and Cross-Linguistic Research. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), s. 3808–3815. Marseille, 11–16 May 2020. Haettu 14.4.2021. Saatavilla:  https://www.aclweb.org/anthology/2020.lrec-1.470.pdf.

[5] Haapalehto, Viia (tulossa): Pro gradu -tutkielma, Tampereen yliopisto. Ei vielä julkaistu.

 

 

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.