Liber 2015: Sokea kana löytää jyvän – tieteellisten hypoteesien koneellista etsintää

Esa-Pekka Keskitalo
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe2015092113666

Data ja kirjastot

LIBER (http://libereurope.eu) on Euroopan tutkimuskirjastojen liitto, jossa on yli 400 jäsenorganisaatiota. Sen 44. konferenssi pidettiin kesäkuun lopussa Lontoossa. Konferenssi järjestettiin Bloomsburyssä sijaitsevassa Senate Housessa, joka on toiminut Batman-elokuvien kuvauspaikkana ja – konferenssin aiheita sivuten – innoittanut George Orwellin kuvausta totuusministeriön palatsista.

Data, datanlouhinta, datapolitiikka, datakirjastonhoitaja – konferenssin ohjelma laventui selkeästi kirjastojen vakiintuneiden toimintamuotojen ulkopuolelle, kun avoimen tieteen ja tutkimusdatan hallinnan kysymykset nousivat siinä hyvin näkyviksi. Kirjastojen roolista nyt ja tulevaisuudessa keskusteltiin paljon.

Se on selvää, että hyvin paljon uutta opittavaa kirjastolaisilla on – ehkä myös paljon annettavaa. Joka tapauksessa tutkimusdatakentän muutoksia ei käy eristäminen kirjasto- ja julkaisumaailmasta. Yhä enemmän data on julkaisu ja julkaisu dataa.

Pinar Øztürk, Erwin Marsi Norjan teknis-luonnontieteellisestä yliopistosta ja Natalia Manola Ateenan yliopistosta käsittelivät esityksessään ”Knowledge Discovery in Climate Change Domain” teknisten tiedonhaun menetelmien käyttöä tieteellisten löydösten tekemisessä. He työskentelevät EU:n rahoittamassa OCEAN-CERTAIN-hankkeessa. Sen tarkoituksena on oppia paremmin ymmärtämään biologisten prosessien aiheuttamaa hiilen siirtymistä ilmakehästä meren syviin kerroksiin ja tämän prosessin suhdetta ilmastonmuutokseen.

Tutkijan vauhtisokeus

Esitelmöitsijät korostivat, että tutkimuksen este ei suinkaan aina ole tiedon puute. Pikemminkin esteen muodostaa kyvyttömyytemme yhdistellä eri lähteistä, erityisesti eri tieteenaloilta saatavaa tietoa. Uuden tietämyksen johtaminen olemassa olevasta tiedosta on vaikeaa. Tiedon suuri määrä pikemminkin hankaloittaa kuin helpottaa tätä prosessia. Samoin merkittävä hankaluus ovat eri tieteenalojen erilaiset toimintatavat ja käytännöt. Sellaiset alat kuin oseanografia, biogeokemia ja meren ekosysteemien tutkimus käsittelevät kyllä samoja asioita ja tuottavat toisilleen merkityksellistä tietoa, mutta niiden vuoropuhelu on vaikeaa jo silkkojen termierojen tähden.

Tutkijoiden on suorastaan houkuttelevaa siiloutua, kun kapeasti erikoistumalla voi saada nopeasti aikaan tuloksia. Ne voivat ovat sinänsä hyvää tiedettä, mutta eivät aina ota kylliksi huomioon muuta tutkimusta eivätkä puolestaan aina saa ansaitsemaansa huomiota muilta.

Työkalut jäävät jälkeen

Tiedonhaku tieteellisestä tekstistä voi olla mm.

tekstin hakua
kysymykseen vastaamista
viiteanalyysia
trendien havaitsemista tai
hypoteesien luomista.

Tekstihaut ovat esittäjien mielestä vakiintunutta teknologiaa, joka sinänsä toimii verraten hyvin. Tekstihaut antavat kuitenkin tulokseksi artikkeleita. Yhä useammin tutkijan on mahdotonta mielekkäällä tavalla tutustua kaikkeen mahdollisesti relevanttiin kirjallisuuteen. Tutkijan työkalujen pitäisi olla älykkäämpiä. Niiden pitäisi osata tunnistaa merkittävät tietämyksen palaset; ja osata yhdistellä näitä palasia uuden tietämyksen luomiseksi.

Tätä on lähestytty käyttämällä kirjallisuusperusteisen tietämyksenhaun menetelmää (literature based knowledge discovery). Sen merkittävä kehittäjä oli yhdysvaltalainen informaatiotutkija Don R. Swanson. Artikkelissaan Fish Oil, Raynaud’s Syndrome, and Undiscovered Public Knowledge (Perspectives in biology and medicine. 02/1986; 30(1):7-18) Swanson esitti kaksi tieteellisistä artikkeleista poimimaansa tosiota:

Kalaöljy vähentää verihiutaleiden yhteentakertumista.
Raynaudin ilmiö eli valkosormisuus on sairaus, johon liittyy lisääntynyt verihiutaleiden yhteentakertuminen.

Tarjolla on päivänselvä hypoteesi: kalaöljy torjuu valkosormisuutta tai lievittää sen oireita. Mutta tätä hypoteesia eivät keksineet lääketieteilijät vaan tekstimassoja analysoinut Swanson – tai oikeammin: Swansonin algoritmit.

Valtamerien toimintaa valaisemassa

Esitelmöijät työskentelevät alueella, joka pystyisi hyödyntämään monien eri tieteenalojen löydöksiä. Lisäksi tutkijat voivat hyödyntää vanhemmankin kirjallisuuden sisältämää havainto- ja muuta tietoa. Näin ollen kysymys tietomassojen hallinnasta ja koneellisesta analyysista on heidän projektissaan polttava.

Tutkijat ovat ensinnäkin määritelleet tutkittavat korpukset sekä kohteet, joita halutaan tunnistaa. Näitä ovat muuttujat, kuten pH sekä kemiallisten yhdisteiden ja eliölajien nimet. Toinen etsitty tietotyyppi ovat ilmaisut, jotka tarkoittavat lisääntymistä, vähenemistä ja muuttumista. Tätä varten täytyy tietenkin tutkia, millä eri tavoilla tällaisia suhteita voidaan luonnollisessa kielessä ilmaista. Näin voidaan etsiä riippuvuus- ja syy-seuraussuhteita. Virke ”Gran (1933) was among the first to demonstrate that the addition of iron to seawater may stimulate the growth of phytoplankton” voidaan analysoida automaattisin menetelmin. Niiden avulla voidaan koneellisesti eristää tieto, että raudan lisääntymisen ja kasviplanktonin lisääntymisen välillä on jokin suhde.

Tämän jälkeen tutkijat ovat rakentaneet työkalupakin ja prosessin analyysia varten. Luonnollisen kielen prosessointiin on olemassa paljon vapaasti saatavia välineitä, vaikkapa Stanfordin yliopiston välineet ja Brat. Tämän lisäksi tarvitaan muitakin resursseja. Tutkijoilla oli oltu käytössään mm.

Dbpedia, Wikipedian rakenteistettu versio
WordNet, englannin kielen sanojen tietokanta
Chemical Entities of Biological Interest -tietokanta (ChEBI)
Oscar3- ja ChemSpot-työkalut, joilla tunnistetaan kemikaalien nimiä luonnollisesta kielestä
Linnaeus II, taksonominen työkalu

Eri työkalut onnistivat paremmin eri tehtävissä, kuten kemikaalien, lajien tai paikkojen tunnistamisessa. Käytettävissä olevista välineistä ja tietoresursseista on rakennettu kokonaisprosessi, jossa eri moduulien vahvuudet voidaan hyödyntää ja tulokset lopulta yhdistää.

Datanlouhinnasta on tehty hankalaa

Tiedonlouhinta ja sen lailliset ja sopimusesteet ovat olleet paljon esillä viime aikoina. Myös tietämyksenhaulle on muodostunut suureksi ongelmaksi korpusten jakaminen ja avaaminen. Esitelmöijien käytössä on ollut laaja Naturen artikkelien korpus, mutta lupaa sen jakamiseen ei ole saatu. Jatkossa he työskentelevät myös avoimesti saatavien PLOS One -artikkeleiden parissa.

Tähän aiheeseen liittyi toinen esitys, jonka otsikko oli: ”Is Europe Falling Behind in Data Mining? Copyright Law’s Impact on Data Mining in Academic Research”. Tekijät olivat Christian Handke Erasmus-yliopistosta sekä Lucie Guibault ja Joan Josep Vallbé Amsterdamin yliopistosta.

Heidän tutkimuksessaan oli kerätty dataa Thomson Reutersin Web of Science -palvelusta etsimällä artikkeleita, joiden tiivistelmässä mainittiin datanlouhinta. Saadut tulokset oli jaettu maittain, ja määrää verrattiin maan tutkimusjulkaisujen kokonaismäärään. Lisäksi otettiin huomioon maan yleinen lainkuuliaisuus (Rule of Law) sekä maiden koko ja vauraus. Dataa analysoitiin monen muuttujan lineaariregressiolla.

Datanlouhinnan mainintojen määrä kasvaa nopeasti, samoin kuin datanlouhintaa hyödyntävän tutkimuksen osuus tutkimuksen kokonaistuotannosta. Mutta tiukat tekijänoikeuslait – sellaiset kuin useimmissa Euroopan maissa – kuristavat kasvua merkittävästi.

Euroopan unionissa meneillä olevaan tekijänoikeuslainsäädännön uudistukseen kohdistuu paljon odotuksia. LIBERkin on tehnyt paljon työtä tutkimuksen tarpeiden paremman huomioon ottamisen puolesta, ja datanlouhinta on ollut yksi sen suurimmista huolenaiheista. Data lienee tullut kirjastoihin jäädäkseen.

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, tietojärjestelmäpäällikkö
Kansalliskirjasto / kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
sähköposti: esa-pekka.keskitalo [at] helsinki.fi

Liber 2015: Sokea kana löytää jyvän – tieteellisten hypoteesien koneellista etsintää

Data ja kirjastot

Tutkijan vauhtisokeus

Työkalut jäävät jälkeen

Valtamerien toimintaa valaisemassa

Datanlouhinnasta on tehty hankalaa

Kirjoittajan yhteystiedot

Linkkejä

Kansalliskirjaston muut julkaisut

Tuoreimmat kommentit

Meta

Liber 2015: Sokea kana löytää jyvän – tieteellisten hypoteesien koneellista etsintää

Data ja kirjastot

Tutkijan vauhtisokeus

Työkalut jäävät jälkeen

Valtamerien toimintaa valaisemassa

Datanlouhinnasta on tehty hankalaa

Kirjoittajan yhteystiedot

Linkkejä

Kansalliskirjaston muut julkaisut

Tagit

Tuoreimmat kommentit

Meta