PAS ja KDK – eli säilyttäminen on osa Kansallista digitaalista kirjastoa

Esa-Pekka Keskitalo
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on  http://urn.fi/urn:nbn:fi-fe200812182273

 

Kansalliskirjasto, Kansallisarkisto, Museovirasto ja suuri joukko muita muistiorganisaatioita osallistuu opetusministeriön johtamaan hankkeeseen, jonka tarkoituksena on rakentaa yhteinen digitaalisen aineiston pitkäaikaissäilytyksen (PAS) järjestelmä. Tavoite on osa Kansallinen digitaalinen kirjasto -hanketta, joka edistää kirjastojen, arkistojen ja museoiden keskeisten tietovarantojen saatavuutta ja käytettävyyttä.

Digitaalinen pitkäaikaissäilytys: sitä on pakko tehdä

Yhä suurempi osa julkaisuista, asiakirjoista ja muusta aineistosta elää koko elinkaarensa digitaalisena; ja digitaalinen ilmiasu on se, jonka käsitämme varsinaiseksi ja alkuperäiseksi aineistoksi.

Vaikka digitaalisia aineistoja on tietenkin ollut olemassa jo vuosia ja vuosikymmeniä, niiden säilyttäminen ei suinkaan aina ole ollut kriittistä itse tietosisällön säilymisen kannalta. Monissa tapauksissa digitaalisesta aineistosta on joka tapauksessa tuotettu painettu tai muu pysyvämpi ja perinteisempi ilmiasu; tai digitaalinen aineisto on käytön helpottamiseksi luotu kopio analogisesta alkuperäisaineistosta. Näin ollen säilyttämisessä huomio on kiinnittynyt toisaanne. Enää tällainen lähestymistapa ei toimi, sillä koko yhteiskuntamme on yhä enemmän riippuvaista nimenomaan digitaalisessa muodossa olevasta tiedosta, joka ei useinkaan edes päädy mihinkään muuhun tallennusmuotoon; jo datan määrä estää analogisten tallenteiden käytön. Digitaalinen aineisto on välttämättä säilytettävä, ja se on säilytettävä digitaalisena.

Digitaalista säilyttämistä on tähän asti haitannut sen suhteellinen hankaluus, epävarmuus ja kalleus. Suuria määriä digitaalista dataa on jouduttu tietoisesti hävittämään, ja monet säilyttämisyritykset ovat epäonnistuneet. Nyt, kokemuksen karttuessa, aineiston pitkäaikaissäilytys alkaa näyttää mahdolliselta ja myös ainoalta tavalta säilyttää kasvavia datamääriä.

Tämä ei kuitenkaan tarkoita, että digitaalinen pitkäaikaissäilyttäminen olisi helppoa. Digitaalinen säilyttäminen vaatii investointeja, standardointia, uudenlaisia tietojärjestelmiä ja kykyä käsitellä suuria aineistomääriä.

Säilymisen monet uhat

Rosenthal et al. ovat listanneet seuraavia digitaalisen aineiston säilymiseen kohdistuvia uhkia (Q):

  • Muistivälineiden, laitteiden ja ohjelmistojen viat
  • Tiedonsiirto, joka aina vaarantaa tiedon pysymisen muuttumattomana
  • Ulkoiset verkkopalvelut, kuten nimipalvelu, saattavat romahtaa. Niiden saatavuuden varaan ei voida siis rakentaa.
  • Tekniikan vanhentuminen. Vaikka laitteisto periaatteessa toimii moitteettomasti, se on vanhentunut, jos sitä ei enää pysyt liittämään muihin laitteistoihin, tai jos sitä ei pysty korvaamaan tietoa menettämättä. Tyypillinen esimerkki ovat erilaiset käytöstä poistuneet muistityypit – lerppu saattaa olla priimakunnossa, mutta sen sisältämä tieto on hyvin hankala saada esille.
  • Ohjelmistollinen vanhentuminen. Vaikka kaikki tarvittava data olisi edelleen olemassa, sen tulkintaan tarvittavia ohjelmistoja ei kenties enää ole saatavilla tai niitä ei voida käyttää uudistuneissa laitteistoissa.
  • Inhimilliset virheet. Itse asiassa ne lienevät yksi pahimmista uhista. Suurin osa datasta, jota ei enää tarvittaessa löydetä, ei suinkaan ole tuhoutunut missään katastrofissa. Todennäköisesti sen on joku heittänyt lyhytnäköisesti pois, tai se on joutunut niin epäjärjestykseen, ettei tarvittua asiaa enää löydetä.
  • Luonnonkatastrofit sekä gyysiset ja verkossa tapahtuvat hyökkäykset ulkopuolelta.
  • Sisäisen väärinkäyttö on tavallista erilaisissa tietojärjestelmissä.
  • Taloudellinen tai hallinnollinen romahdus. Digitaalinen informaatio on huomattavasti herkempää laiminlyönneille kuin vaikkapa paperinen. Sen ylläpito kysyy jatkuvasti rahaa ja henkilöresursseja. Ja vaikka resursseja olisikin, organisaatiot saattavat sulautua tai muuttaa toiminta-ajatustaan, jolloin säilytettävä aineisto saattaa jäädä vaille huomiota ja vastuullista ylläpitäjää.

Säilyttäminen on aktiivista toimintaa

Pitkäaikaissäilytys on aktiivinen tiedon hallinnan prosessi, jonka avulla varmistetaan digitaalisen aineiston käyttökelpoisuus tulevaisuudessa (Z). Aineiston säilyvyys ei ole aineiston inherentti ominaisuus vaan siitä huolta pitävien prosessien tulos.

Näin ollen pitkäaikaissäilytyksessä ei ole kyse pelkästään varastoinnista, jossa aineiston muodostavia bittejä pyritään pitämään säilössä mahdollisimman muuttumattomana. Sellainen passiivinen säilyttäminen johtaa väistämättä aineiston tai sen käyttökelpoisuuden katoamiseen. Kyse ei myöskään voi olla jonkin tietyn tietojärjestelmän ylläpidosta. Niiden elinikä harvoin ylittää kymmentä vuotta.

Pitkäaikaissäilytystä on verrattu viestijuoksuun, jossa viestikapulasta on pidettävä kiinni ja sitä on kuljetettava eteenpäin; mutta siitä on myös osattava päästää irti ja luovuttaa se hallitusti seuraavalle viestinviejälle. Pitkäaikaissäilytys sisältää siis ensiksikin kulloinkin riittävän ja toimivan organisaation, resursoinnin ja teknologian ja toiseksi suunnitelman siitä, miten vastuu säilytettävästä aineistosta ja mahdollisuus sen säilyttämiseen voi ylittää erilaisia murroskohtia. Lisäksi säilyttämisessä on jonkinasteisesti varauduttava myös kriiseihin; aineiston tulisi olla kohtuullisella vaivalla palautettavissa käyttökuntoon, vaikka pitkäaikaissäilytyksen prosessi välillä katkeaisi.

”Pitkäaikainen” tarkoittaakin säilyttämisen kontekstissa ”ajanjaksoa, joka on pidempi kuin niiden ihmisten, sovellusten ja alustojen elinikä, jotka informaation alun perin loivat” (Y).

Pitkäaikaissäilytys koskettaa kaikkia

Pitkäaikaissäilytysasiat tulevat koskettamaan kaikkea digitaalisen aineiston kanssa työskentelyä. Suurimmat uhat pitkäaikaissäilytykseen eivät ole teknisiä vaan johtuvat rahasta ja ihmisistä. Resurssien puute saattaa johtaa säilymisen kannalta huonoihin ratkaisuihin; se taas kostautuu siinä, että säilyttämisestä tulee kalliimpaa ellei kokonaan mahdotonta. Inhimilliset virheet taas ovat suurin yksittäinen tekijä, joka johtaa säilytettäväksi tarkoitetun tiedon katoamiseen.

Pitkäaikaissäilytyksen onnistumiseen vaikuttavat useat seikat. Monet niistä ovat sellaisia, että ratkaisevia päätöksiä tehdään aineiston syntyvaiheessa. Synty- ja käsittelyprosesseihin liittyykin monenlaisia riksitekijöitä. Aineistoa saattaa jäädä pitkäaikaissäilyttäjän huomion ulkopuolelle; se saattaa olla alusta alkaen teknisesti hankalaa tai huonolaatuista; ja tärkeää tietoa aineiston tekniikasta, sisällöstä ja historiasta saattaa kadota. Pitkäaikaissäilytysjärjestelmän pitäisikin pystyä riittävässä määrin vaikuttamaan myös niihin prosesseihin, joiden kautta siinä oleva aineisto syntyy ja siirtyy, jotta säilyttämisen edellytykset turvataan.

Järjestelmät, joilla aineistoa tuotetaan, sekä järjestelmät, joilla aineistoa hallitaan, muodostavat ensimmäisen, kriittisen osan tästä viestiketjusta. Aineistojen syntyvaiheessa tehdään mm. teknisiä ja sisällönkuvailullisia päätöksiä, joilla saattaa olla ratkaiseva merkitys pitkäaikaissäilytyksen onnistumiselle ja joissa tehtyjä virheitä on vaikea ellei mahdoton korjata jälkikäteen.

Pitkäaikaissäilytyksen yksi haaste on se, että sen tarpeet eivät useinkaan ole samoja kuin aineiston jatkuvasta käytöstä nousevat. PAS-näkökulma saattaa vaikuttaa siltä, että se rajoittaa toimintaa ja aiheuttaa lisätyötä. Niin saattaa tietenkin ollakin; on luonnollisesti pyrittävä löytämään realistisia toimintatapoja, aina pitäen mielessä sen, kuinka kalliiksi huonoon kuntoon päässeen aineiston restauirointi tulee, myös digitaalisessa maailmassa.

Kansallisen digitaalisen kirjaston PAS-hanke

Alkuvuodesta 2008 opetusministeriö asetti työryhmän, jonka tehtäväksi tuli ” selvittää, miten sähköisten aineistojen säilytys- ja käyttömahdollisuudet voidaan järjestää kansallisesti tarkoituksenmukaisella tavalla.” Työryhmän loppuraportti ilmestyi vuodenvaihteessa 2007-2008. (x)

Työryhmä totesi, että vaikka asian tärkeys tunnustetaan, käytännössä sähköisen aineiston säilyttämisestä pitkäaikaisesti – jopa satoja vuosia – ei ole selkeitä linjauksia.

Työryhmä päätyi esittämään mallia, jossa yhteisellä digitaalisen aineiston pitkäaikaissäilyttämisen tietojärjestelmällä tuetaan organisaatioiden toimintaa. Keskitetty pitkäaikaissäilytysratkaisu edistääisi julkisen hallinnon tuottavuutta ja auttaisi löytämän uusia yhteistyön ja työnjaon muotoja. Työryhmä esitti käynnistettäväksi pitkäaikaissäilyttämisen kehittämishanketta, jossa suunniteltaisiin ja täsmennettäisiin vaatimusmäärittelyjä yhteisen pitkäaikaissäilytyksen tietojärjestelmän rakentamiseksi eri aineistotyyppejä varten.

Asiassa päästiinkin nopeasti eteenpäin, kun pitkäaikaissäilytysasiat otettiin osaksi Kansallinen digitaalinen kirjasto -hanketta. Asian laajuuden vuoksi KDK-hankkeen tavoitteena ei ole suorastaan PAS-järjestelmän luominen, mutta tarkoituksena on tehdä mahdollisimman paljon alustavaa työtä, mm. sopia järjestelmälle asetettavista vaatimuksista, hallintomalleista jne. Ajatuksena on, että kun hanke päättyy toukokuun lopussa 2010, varsinainen hankinta- ja käyttöönottoprojekti on ”aloittamista vaille valmis” – so. kaikki edellytykset järjestelmän pystyttämiselle ovat olemassa.

Lähteet

(Q) Rosenthal, David S.; Robertson, Thomas; Lipkis Tom; Reich, Vicky; Morabito, Seth 2005: Requirements for Digital Preservation Systems – A Bottom-Up Approach. D-Lib Magazine 11:11.
(Z) Beagrie, Neil; Semple, Najla; Williams, Peter & Wright, Richard 2008:Digital Preservation Policies Study Part 1: Final Report October 2008. A study funded by JISC. Charles Beagrie Limited.
(Y) Janée, Greg; Mathena, Justin & Frew, James 2008: A data model and architecture for long-term preservation. Larsen, Ronald et al. (toim.): ACM/IEEE Joint Conference on Digital Libraries, JCDL 2008, Pittsburgh, PA, USA, June 16-20, 2008. ACM. 134-144. Saatavana verkossa: <http://www.ngda.org/research/Tech%20Arch/jcdl-paper.pdf>
(x) Sähköisen aineiston pitkäaikaissäilytystä ja käyttöä koskevan työryhmän muistio. Opetusministeriön työryhmämuistioita ja selvityksiä 2008:2. <http://www.minedu.fi/OPM/Julkaisut/2008/Sahkoisen_aineiston_pitkaaikaissailytys_ja_kaytto.html>

 

Kirjoittajan yhteystiedot

Esa-Pekka Keskitalo, pääsuunnittelija
Kansalliskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Email: esa-pekka.keskitalo(at)helsinki.fi